Please download to get full document.

View again

of 28
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.

Het beheren van onderzoeksdata

Category:

Graphics & Design

Publish on:

Views: 4 | Pages: 28

Extension: PDF | Download: 0

Share
Related documents
Description
HET BEHEREN VAN ONDERZOEKSDATA IVB Het beheren van onderzoeksdata MARNIX VAN BERCHUM, MARJAN GROOTVELD 1. Introductie Dit artikel geeft een overzicht van recente ontwikkelingen op het gebied van
Transcript
HET BEHEREN VAN ONDERZOEKSDATA IVB Het beheren van onderzoeksdata MARNIX VAN BERCHUM, MARJAN GROOTVELD 1. Introductie Dit artikel geeft een overzicht van recente ontwikkelingen op het gebied van onderzoeksdatamanagement. Een dergelijk overzicht is nooit volledig: onderzoeksdatamanagement kort gezegd: het netjes omgaan met onderzoeksgegevens is zowel nationaal als internationaal erg in beweging en regelmatig worden nieuwe datadiensten op de markt gebracht. Juist deze dynamiek spreekt echter voor een overzichtsartikel. In het onderstaande is getracht de huidige stand van zaken in Nederland in kaart te brengen. Hiervoor is met name gekeken naar de nationale ontwikkelingen in het hoger onderwijs en wetenschap; commerciële diensten worden genoemd wanneer zij een rol hierin spelen, maar er wordt bijvoorbeeld geen aandacht geschonken aan big data ontwikkelingen buiten de wetenschap of de open data-initiatieven van de overheid. Af en toe worden voorbeelden uit wetenschappelijke vakgebieden gekozen, maar het voert te ver om in te gaan op de (soms grote) verschillen tussen vakgebieden. Wie hierin geïnteresseerd is, verwijzen we graag naar (Borgman, 2015) en naar hoofdstuk 2 in (KNAW, 2012). De auteurs willen de lezer erop wijzen dat zij beiden werkzaam zijn (geweest) bij een instituut met de missie om onderzoeksdata duurzaam beschikbaar te stellen (zie paragraaf 4.4), wat van invloed is op de balans van de besproken onderwerpen. Hoofdstuk 2 van dit artikel beschrijft het belang van datamanagement, waarna hoofdstuk 3 kernbegrippen introduceert zoals data, datamanagementplan en onderzoekscyclus. Het vierde hoofdstuk gaat nader in op de fasen van de onderzoekscyclus: hoewel een eerste planning van het benodigde datamanagement vanzelfsprekend in een vroeg stadium moet plaatsvinden, komen verschillende aspecten van de uitvoering bij de opeenvolgende fasen aan bod. Hoe data-ondersteuners zoals bibliotheekmedewerkers (kunnen) bijdragen aan de verschillende fasen komt aan bod in hoofdstuk 5, dat een inkijkje biedt in het Nederlandse krachtenveld. IVB 475 IVB HET BEHEREN VAN ONDERZOEKSDATA 2. Het belang van research data management Of je nu onderzoek verricht in een lab, in het veld of op kantoor, in grote of kleine onderzoeksteams, er komen onderzoeksgegevens oftewel data aan te pas. Die data zijn waardevol en verdienen het om goed beheerd te worden. Het besef dat goed datamanagement een belangrijk onderdeel is van wetenschappelijk gedrag is de laatste jaren sterk gegroeid. De stroom van door wetenschap gegenereerde data groeit hard, mede door de voor onderzoek relevante data van de social media en open overheidsdata. Het in 2010 door de Europese Unie (High Level Expert Group, 2010) gepubliceerde rapport Riding the Wave schetst de gevolgen, kansen en uitdagingen van deze vloedgolf van data. The benefits are broad. With a proper scientific e-infrastructure, researchers in different domains can collaborate on the same data set, finding new insights. They can share a data set easily across the globe, but also protect its integrity and ownership. They can use, re-use and combine data, increasing productivity. They can more easily solve today s Grand Challenges, such as climate change and energy supply. Indeed, they can engage in whole new forms of scientific inquiry, made possible by the unimaginable power of the e-infrastructure to find correlations, draw inferences and trade ideas and information at a scale we are only beginning to see. For society as a whole, this is beneficial. It empowers amateurs to contribute more easily to the scientific process, politicians to govern more effectively with solid evidence, and the European and global economy to expand. But there are many challenges. How can we organise such a fiendishly complicated global effort, without hindering its flexibility and openness? How do we incentivise researchers, companies, and individuals to contribute their own data to the e-infrastructure while still trusting that they can protect their privacy or ownership? How can we manage to preserve all this data, despite changing technologies and needs? How to convey the context and provenance of the data? How to pay for it all? Naast deze kansen en uitdagingen kent onderzoek ook risico s. Fraudezaken in de afgelopen jaren en het daaropvolgende onderzoek van de commissie Schuyt (KNAW, 2012) hebben laten zien dat onderzoeksdata niet altijd op de wenselijke wijze worden beheerd en gedeeld, waardoor de wetenschap schade op kan lopen. Financiers en beleidsmakers in de onderzoekswereld hebben op deze ontwikkelingen gereageerd met de formulering van databeleid, op internationaal, na- HET BEHEREN VAN ONDERZOEKSDATA IVB tionaal en institutioneel 1 niveau. Belangrijke thema s hierin zijn transparantie en verifieerbaarheid van studies en hergebruik van onderzoeksgegevens. Concreter streven naar deze doelen moet leiden tot beter en efficiënter onderzoek. Voortbouwen op bestaande gegevens kan onderzoek immers versnellen en het niet opnieuw genereren van data hergebruik dus kan daarnaast financieel voordeel betekenen. Eigenlijk ligt de Nederlandse Gedragscode voor Wetenschapsbeoefening (VSNU, 2014) al ten grondslag aan de noties van transparantie en verifieerbaarheid: Gepresenteerde informatie is controleerbaar. Als onderzoeksresultaten openbaar worden gemaakt, blijkt duidelijk waar de gegevens en de conclusies op zijn gebaseerd, waaraan ze zijn ontleend en waar ze te controleren zijn. Of, zoals het in de strategie van DANS (2015b) staat: De integriteit van de wetenschapsbeoefening heeft baat bij transparante onderzoeksprocessen en verantwoord datamanagement maakt daar deel van uit. Naast deze doelen is het vooral voor onderzoekers zelf van belang om tijdens het werk hun werkproces en de gegevens goed te documenteren. Dit lijkt een open deur, omdat onderzoekers in de meeste disciplines ermee vertrouwd zijn dat een publicatie de gehanteerde onderzoeksmethodiek moet beschrijven. Deze beschrijving is echter zeker niet altijd voldoende om zelf na enige tijd nog precies te weten hoe bijvoorbeeld een bepaalde meting is verkregen of welke query in het statistiekpakket ten grondslag ligt aan een bepaalde tabel in de publicatie. Voor andere geïnteresseerden is dit dan nog moeilijker, zo niet onmogelijk; in feite kunnen zij dan niet op de data vertrouwen een gemiste kans voor hergebruik en citatie van de data. 3. Kernbegrippen Datamanagement kent nog geen lange traditie en het begrippenkader is in ontwikkeling. Hierdoor hanteren organisaties vaak hun eigen definitie van belangrijke begrippen zoals data en datamanagement. In zekere zin doet dit artikel dit ook; de auteurs willen geen scherpslijpers zijn en de lezers bewegen zich in verschillende kringen, met hun eigen gewoontes. Daarom volgt hier een beschrijving van de kernbegrippen voor het vervolg van dit artikel: data, me- 1 Een overzicht van databeleid bij Nederlandse universiteiten is te vinden op https:// in%20nederland/allitems.aspx IVB 475 IVB HET BEHEREN VAN ONDERZOEKSDATA tadata, FAIR, research data lifecycle, datamanagement of RDM, datamanagementplan of DMP en archief 1. Het begint met de onderzoeksgegevens ofwel data. Dit kunnen zijn: feiten, observaties, interviews, opnames, metingen, experimenten, simulaties en software; numeriek, beschrijvend en visueel; ruw, geschoond en bewerkt; al dan niet de onderbouwing van een (beoogde) publicatie; en bewaard en uitgewisseld in uiteenlopende formaten op diverse opslagmedia 2. Deze niet-uitputtende opsomming wil aanknopingspunten bieden voor alle onderzoeksdisciplines, omdat herbruikbaarheid, controleerbaarheid en transparantie overal relevant zijn. Niet-digitale data, zoals papieren enquêtes en lichaamsweefsel, blijven in dit artikel buiten beschouwing. Zoals boeken en artikelen voorzien worden van bibliografische informatie, zo worden data dat ook, alleen wordt deze informatie doorgaans metadata genoemd. Metadata is informatie over data, waarmee men de data bijvoorbeeld in online-portals kan vinden. Er zijn generieke en domeinspecifieke standaarden voor metadata; de laatste leveren vaak rijkere beschrijvingen op, maar worden zelden ondersteund in brede, meer algemene zoekportals. De grens tussen metadata en documentatie is niet scherp te trekken: het codeboek in de sociale wetenschappen dat de in het onderzoek gebruikte variabelen definieert, valt bijvoorbeeld in dit grensgebied. Belangrijker dan de terminologie is dat dergelijke informatie beschikbaar gesteld moet worden als context om de data goed te kunnen interpreteren. Met rijke metadata kunnen geïnteresseerden immers beter bepalen of een dataverzameling relevant en bruikbaar is voor hun eigen onderzoek. Diverse onderzoeksgemeenschappen hanteren voor hun vakgebied een metadatastandaard 3 ; dit bevordert binnen een discipline het kunnen vinden en efficiënt gebruiken van bestaande data. De gedachte dat metadata altijd openbaar zijn, ook wanneer de data niet of slechts beperkt toegankelijk zijn, wordt breed gedragen. In 2014 werden de FAIR-principes voor data geïntroduceerd, die, wanneer ze 1 De definities van data, datamanagement en metadata zijn ontleend aan het (ongepubliceerde) Beleidskader Datamanagement NWO-instituten. De beschrijving van de research life cycle is, met toestemming, ontleend aan de cursus Essentials 4 Data Support, zie Voor meer datajargon, zie researchdata.nl/nl/start-de-cursus/i-begrippen/datajargon/. 2 NWO hanteert deze definitie in het Beleidskader Datamanagement NWO-instituten (ongepubliceerd). 3 Een overzicht van metadatastandaarden voor uiteenlopende domeinen is te vinden op HET BEHEREN VAN ONDERZOEKSDATA IVB in praktijk worden gebracht, ervoor zorgen dat data te vinden zijn (findable), toegankelijk zijn (accessible), te vergelijken en te combineren zijn met andere data (interoperable) en daarmee herbruikbaar zijn (reusable). De ambitie die aan de FAIR-principes ten grondslag ligt, is om dit zowel te bereiken voor mensen als voor machines. Wilkinson et al. (2016) beschrijven het ideaal van data die zo rijk en gestructureerd gedocumenteerd zijn dat ze machine-actionable zijn, dat wil zeggen, dat een autonomously-acting, computational data explorer zelfstandig kan bepalen hoe nuttig een digitaal object is voor een gegeven taak en of de eraan verbonden licentie toegang en hergebruik toestaat. Momenteel is dit voor veel vakgebieden toekomstmuziek en is het vooralsnog de uitdaging om de FAIR-principes te concretiseren tot kwaliteitscriteria en richtlijnen voor onderzoekers die data produceren en voor leveranciers van datadiensten. Goed datamanagement ondersteunt de FAIR-principes. Onderzoeksdata hebben een lange levensduur, vaak langer dan de periode tussen hun ontstaan en het schrijven van de wetenschappelijke publicatie die erop is gebaseerd. In verschillende fasen van een onderzoekscyclus hebben ze een andere functie en een andere waarde. Een research data lifecycle is een hulpmiddel om in beeld te brengen wat de verschillende fasen zijn, hoe deze in het leven van onderzoeksdata op elkaar aansluiten en hoe de keuzes die een onderzoeker in de ene fase maakt de datakwaliteit in een andere fase beïnvloeden. Een lifecycle helpt om het perspectief van de korte termijn naar de lange termijn te verschuiven: wat willen we met deze onderzoeksdata? Hoe zorg je ervoor dat de keuzes die je bij het verzamelen van de data maakt robuust genoeg zijn om archivering en hergebruik mogelijk te maken? Van oudsher zijn onderzoekers in de meeste disciplines meer gericht op het publiceren van wetenschappelijke artikelen dan op de gegevens die zij genereren en gebruiken. Willen we juist de gegevens benadrukken, dan is het volgende cyclische model goed bruikbaar, dat gebaseerd is op de research lifecycle van het UK Data Archive (UKDA) 1. Terwijl de focus op data ligt, zijn de fasen generiek genoeg om voor veel onderzoekers en andere betrokkenen herkenbaar te zijn. 1 IVB 475 IVB HET BEHEREN VAN ONDERZOEKSDATA Figuur 1 Research data lifecycle (gebaseerd op UKDA) Er zijn ook andere research lifecycles in omloop, toegespitst op wat een gebruikersgroep nodig heeft. Voorbeelden zijn te vinden op de website van de cursus Essentials 4 Data Support 1. In dit artikel volgen we de zes fasen van de datacyclus van Figuur 1. Natuurlijk is het model een abstractie: de fasen zijn niet strikt te scheiden, er kunnen goede redenen zijn om tijdens het onderzoek terug te keren naar een eerdere fase. Bovendien beslaan diverse data-activiteiten, zoals het opslaan van data, meer dan een fase. Maar voordat we de eerste fase ingaan, introduceren we nog enkele andere begrippen die geregeld zullen terugkomen. Onder datamanagement wordt het volledige traject verstaan van het creëren of vergaren van data tot het opslaan, onderhouden, archiveren, ontsluiten en langdurig bewaren (preserveren) van data. Er wordt geen onderscheid gemaakt tussen de doelen van dataopslag zoals controle, verificatie, replicatie, hergebruik of koppeling van de data 2. Research data management en RDM 1 2 NWO hanteert deze definitie in het Beleidskader Datamanagement NWO-instituten (ongepubliceerd). HET BEHEREN VAN ONDERZOEKSDATA IVB zijn synoniemen hiervan. Voor dit traject wordt ook wel het begrip data stewardship gebruikt, terwijl anderen die term beperken tot de activiteiten die op duurzaamheid gericht zijn. Goed en gedocumenteerd datamanagement levert de nodige transparantie op waarmee de data controleerbaar en verifieerbaar worden. Een datamanagementplan of DMP is een aanvulling op een onderzoeksplan en beschrijft onder andere welke soort en hoeveel data het project verwacht op te leveren, wat hiervan op welke wijze duurzaam bewaard zal worden en onder welke voorwaarden de data toegankelijk zullen zijn. Indien van toepassing beschrijft het de hardware en software die nodig zijn om de data te gebruiken. Het DMP brengt de hele datalevenscyclus in kaart. Het is een dynamisch document dat in de loop van het onderzoek aanpassing behoeft, bijvoorbeeld omdat bepaalde zaken veranderen (onverwacht wel/geen toegang tot beoogde bronnen, nieuwe partijen in het projectconsortium en dergelijke). Op het moment van schrijven van dit artikel vinden financiers NWO, ZonMw en de Europese Commissie deze dynamiek vanzelfsprekend. Het DMP moet kort na goedkeuring van de projectaanvraag worden geschreven, maar hoeft dus niet in één keer goed. Ook onderzoeksinstellingen en vakgroepen die een DMP eisen, hanteren vergelijkbare uitgangspunten. Datamanagementplannen Een datamanagementplan of DMP is een handige stimulans voor onderzoekers om in een vroeg stadium advies in te winnen en afspraken te maken over bijvoorbeeld juridische aspecten (wie mag wat met de data?) en technische voorzieningen (welke hard- en software heb ik nodig?). Omgekeerd is betrokkenheid bij de planning voor de onderzoeksorganisatie, de ondersteunende afdelingen en externe dienstenaanbieders een goede manier om onderzoeksinformatie en (beoogde) werkprocessen te stroomlijnen. Ze weten daardoor namelijk wat er op hen afkomt en kunnen de onderzoekers tijdig adviseren. Data-archieven worden bijvoorbeeld graag al in dit stadium geraadpleegd over mogelijke datadeponeringen in de toekomst, zodat ze de onderzoeker kunnen informeren over de gewenste bestandsformaten, metadata en dergelijke. Evenals bij de lifecycles zijn er voor DMP s wereldwijd veel sjablonen in omloop. Uit de sjablonen van onder andere Nederlandse en Europese onderzoeksfinanciers heeft DANS de elementen geëxtraheerd en toegelicht die een DMP minimaal dient te beschrijven, zie de onderstaande tabel (DANS, 2015a). 1 Administratieve informatie 1.a Projectnaam, hoofdonderzoeker, financier(s), datum van dit plan en van eerdere versies. IVB 475 IVB HET BEHEREN VAN ONDERZOEKSDATA 1.b Wie is de eerstverantwoordelijke voor het datamanagement? 2 Beschrijving van de data 2.a Worden bestaande data hergebruikt of nieuwe data gegenereerd? 2.b Om welke soort(en) data gaat het; omvang van de bestanden; groeitempo? 3 Standaarden en metadata, ofwel alles wat nodig is om de data te vinden en te benutten 3.a Welke metadatastandaarden worden gebruikt (vindbaarheid)? 3.b Welke coderingen e.d. worden gebruikt die toekomstige koppeling met andere data mogelijk maken (duiding, interoperabiliteit)? 3.c Welke software en eventueel hardware wordt er gebruikt (duiding, bruikbaarheid)? 3.d Wat wordt er gedocumenteerd en bewaard om replicatie mogelijk te maken? Wat zijn de afspraken als betrokkenen (voortijdig) vertrekken? 4 Ethisch en juridisch 4.a Hoe wordt bij het verwerven of genereren van de data de hiervoor eventueel benodigde toestemming verkregen van dataleverancier/ proefpersonen/? Welke beperkingen gelden er eventueel tijdens het onderzoek? 4.b Hoe worden gevoelige gegevens beschermd tijdens en na het project? 4.c Zijn de data na het project eventueel na een embargoperiode als Open Access beschikbaar? Zo nee, welke voorwaarden gelden er? 5 Opslag en archivering 5.a Hoe wordt voldoende opslag- en back-up-capaciteit tijdens het project geregeld, inclusief versiebeheer? Zijn de kosten hiervoor gedekt; zo nee? 5.b Waar en hoe lang worden de data na afloop van het project beschikbaar gesteld voor vervolgonderzoek en verificatie? Is dit een Trustworthy Digital Repository, dus met een internationale certificering? Zo niet, hoe worden de data dan vindbaar (denk aan metadata en aan persistent identifiers zoals DOI, Handle en URN) en duurzaam toegankelijk en bruikbaar? 5.c Zijn de kosten voor (het voorbereiden van de data voor) archivering gedekt; zo nee? HET BEHEREN VAN ONDERZOEKSDATA IVB In aansluiting op het DMP en vooruitlopend op het volgende hoofdstuk noemen we archief als laatste kernbegrip. Waar het gaat om het bewaren van data is het namelijk verstandig om verschil te maken tussen het bewaren van data tijdens lopend onderzoek ( opslaan ) en het langdurig bewaren van data na afloop van het onderzoek ( archiveren of preserveren ). Het kan in deze twee fasen gaan om dezelfde data, maar er kunnen bijvoorbeeld andere afspraken gelden over wie er toegang heeft tot de data en/of wie verantwoordelijk is voor het behoud van en de toegang tot de data. In dit artikel worden de begrippen archief en repository door elkaar gebruikt. Van een Trustworthy Digital Repository of TDR is sprake wanneer het archief of de repository als zodanig is gecertificeerd. 4. De levenscyclus van data In dit hoofdstuk gaan we nader in op de fasen die onderzoekers en hun data doorlopen, met de kanttekening dat er grote verschillen kunnen bestaan tussen en zelfs binnen vakgebieden. 4.1 Fase Data genereren In figuur 1 staan hergebruiken en genereren van data opzettelijk samen bovenaan. Bij de start van een nieuw onderzoek gaat een wetenschapper namelijk idealiter eerst op zoek naar bestaande data, alvorens zelf data (opnieuw) te genereren of te verzamelen. Onderzoeksfinanciers worden ook steeds alerter op hergebruik, omdat dit potentieel tijd en geld bespaart; paragraaf 4.6 gaat verder in op hergebruik. De wijze van ontstaan van nieuwe data verschilt per discipline en heeft een eigen verloop. Het verzamelen van survey-data binnen de sociale wetenschappen is bijvoorbeeld wezenlijk anders dan het verzamelen van de terabytes aan data die de experimenten van de LOFAR-telescoop in Exloo genereren. 1 Om te zorgen dat de data in de volgende fasen van de cyclus bruikbaar blijven en dat de data van de ene naar de andere fase kunnen overgaan zal in de eerste fase van creatie aan verschillende aspecten aandacht geschonken moeten worden. Voor onderzoek met persoonlijke, bijvoorbeeld medische gegevens is het verkrijgen van een informed consent voor latere verwerking van de data 1 Voor meer voorbeelden van de creatie van data zie start-de-cursus/iii-onderzoeksfase/data-verzamelen/. IVB 475 IVB HET BEHEREN VAN ONDERZOEKSDATA noodzakelijk 1. Wordt dit achterwege gelaten voordat de data verzameld worden, dan zijn deze mogelijk onbruikbaar. Een alternatief kan zijn om de data zo te bewerken dat herlei
Similar documents
View more...
Search Related
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks