Hvilke data skal bevares og deles?
På SDU's forskningsbibliotek opfordrer vi kun til, at man producerer og deler FAIR forskningsdata. Vi har fuld forståelse for, at ikke alle data kan publiceres som helt åbne. Derfor anbefaler vi, at følgende data deles og/eller bevares:- De data, der er nødvendige for at validere resultater i videnskabelige publikationer (som minimum!).
- De tilknyttede metadata: datasættets ophavsperson, titel, udgivelsesår, opbevaringssted, identifikator osv.
- Selv når du ikke kan dele dine data på grund af GDPR eller fortrolighed, kan du altid dele dine metadata.Følg en metadatastandard i din branche eller en generisk standard, f.eks. Dublin Core eller DataCite, og be FAIR.
- Repositoriet tildeler datasættet et vedvarende ID (ofte en DOI): vigtigt for at finde og citere data.
- Dokumentation: kodebøger, laboratoriejournaler, informerede samtykkeerklæringer - domæneafhængig og vigtig for at forstå dataene og kombinere dem med andre datakilder.
- Software, hardware, værktøjer, syntaksforespørgsler, maskinkonfigurationer - domæneafhængige og vigtige for brugen af data. (Alternativ: oplysninger om softwaren osv.).
Dybest set bør alt, hvad der er nødvendigt for at gentage en undersøgelse, være tilgængeligt. Plus alt, hvad der potentielt kan være nyttigt for andre.
Hvordan kan du forberede følsomme data til deling?
Selvom det måske ikke er muligt i alle tilfælde, er det en god idé at indhente informeret samtykke fra deltagerne i dit studie til at tillade offentliggørelse af deres anonymiserede data fra forskningen. For flere råd om, hvordan du håndterer følsomme data, se venligst:
- Vejledningerne om databeskyttelse på SDU
- vores side om GDPR og juridiske spørgsmål
Ændring af følsomme data til offentliggørelse
Følsomme data, der indeholder potentielt identificerende oplysninger - uanset om det er data om menneskelige forsøgspersoner eller andre typer følsomme data - skal sandsynligvis ændres, før de deles med offentligheden. Det er vigtigt, at disse ændringer foretages for at beskytte deltagernes fortrolighed, placeringen af truede dyr eller af andre relevante årsager. Disse ændringer kan dog påvirke dataene i en sådan grad, at reproducerbarhed eller yderligere efterfølgende forskning fra andre ikke længere er mulig. Du kan overveje at beholde flere versioner af dataene: en, der er egnet til offentliggørelse, og en, der er egnet til yderligere forskning, men som er tilgængelig på et meget begrænset grundlag.
Typer af identificerende oplysninger
Identificerende information klassificeres som en af to typer: direkte og indirekte.
Direkte identifikatorer
Disse data peger direkte på en person og fjernes typisk fra datasæt, før de deles med offentligheden.
Disse kan omfatte:
- navn
- initialer
- postadresse
- telefonnummer
- e-mail-adresse
- unikke identifikationsnumre, f.eks. CPR-numre eller kørekortnumre
- identifikatorer til køretøjer
- identifikatorer til medicinsk udstyr
- web- eller IP-adresser
- biometriske data
- fotografier af personen
- lydoptagelser
- navne på slægtninge
- datoer, der er specifikke for den enkelte, såsom fødselsdato, ægteskab osv.
Indirekte identifikatorer
De kan virke harmløse i sig selv, men kan pege på en person, når de kombineres med andre data. Det er blevet anbefalet (se referencen til BMJ-artiklen nedenfor), at datasæt, der indeholder tre eller flere indirekte identifikatorer, bør gennemgås af en uafhængig forsker eller etisk komité for at evaluere identifikationsrisikoen. Alle indirekte oplysninger, der ikke er nødvendige for analysen, bør fjernes. Det kan være rimeligt at levere nogle af disse typer data i aggregeret form (som intervaller af årlige indkomster i stedet for nøjagtige tal).
Indirekte identifikatorer kan omfatte:
- sted for medicinsk behandling eller lægens navn
- køn
- sjælden sygdom eller behandling
- følsomme data som brug af ulovlige stoffer eller anden "risikabel adfærd"
- fødested
- socioøkonomiske data som arbejdsplads, beskæftigelse, årlig indkomst, uddannelse osv
- generelle geografiske indikatorer, som f.eks. bopælens postnummer
- husstands- og familiesammensætning
- etnicitet
- fødselsår eller alder
- ordrette svar eller udskrifter
Hvorfor dele data?
Det er en del af god datapraksis.

Skær ned på akademisk svindel
Valider resultaterne
"Det var en fejl i et regneark, som let kunne være blevet overset: et par rækker, der var udeladt i en ligning for at beregne gennemsnittet af værdierne i en kolonne. Regnearket blev brugt til at drage konklusionen i et indflydelsesrigt økonomipapir fra 2010: at en offentlig gæld på mere end 90 % af BNP bremser væksten. Denne konklusion blev senere citeret af Den Internationale Valutafond og det britiske finansministerium for at retfærdiggøre spareprogrammer, som uden tvivl har ført til optøjer, fattigdom og tabte arbejdspladser."
Flere videnskabelige gennembrud
Datadeling muliggør videnskabelige gennembrud inden for studier af den menneskelige hjerne samt Alzheimers, type 2-diabetes, leddegigt og lupus og mange og mange andre.
En fordel med citering
En undersøgelse, der analyserede citeringstallet for 10.555 artikler om genekspressionsstudier, der skabte microarray-data, viste at undersøgelser, der gjorde data tilgængelige i et offentligt arkiv, modtog 9 % flere citater end lignende undersøgelser, hvor dataene ikke var gjort tilgængelige.
Flere kilder
Hrynaszkiewicz, I, Norton, ML, Vickers, AJ and Altman, DG. "Preparing raw clinical data for publication: guidance for journal editors, authors, and peer reviewers." BMJ 2010;340:c181.
"Preparing Data for Sharing" fra the Inter-University Consortium for Political and Social Research (ICPSR). (2012).
Guide to Social Science Data Preparation and Archiving: Best Practice Throughout the Data Life Cycle (5th ed.). Ann Arbor, MI.
Denne side er adapteret fra Stanford University Library Data Management Services hjemmesiden og RDM OpenAIRE-håndbogen.
Ofte stillede spørgsmål
De generelle trin til at finde et ikke-institutionelt datalager er:
- Brug et fagligt repository, hvis der findes et;
- Alternativt kan du bruge det institutionelle repository, hvis du har et, hvor dataene også vil være tilgængelige på lang sigt;
- Brug det generelle datalager Zenodo, der vedligeholdes af CERN;
- Søg på den globale re3data.org portal -portal efter et passende datalager - dette giver flere filtreringsmuligheder.
- ELLER se en mere detaljeret vejledning til feltspecifikke datalager her.
Det er ikke let at evaluere kvaliteten af et datalager, fordi dette påvirkes af mange eksterne faktorer, startende med datalagerets mission. For eksempel, sigter det eksplicit mod langsigtet bevaring - med den rette ekspertise og det rette budget - eller ej? Er det dedikeret til et specifikt forskningsmiljø og bekendt med deres dataformater, eller er det generisk? Men hvis du fokuserer på datalagre, der er certificeret som troværdige, forenkler du din udvælgelsesproces. Så hvis du ikke har et fagligt datalager og bruger re3data.org-portalen til din søgning, anbefaler vi, at du filtrerer på "Certificate" og leder efter det røde ikon (desværre har OpenDOAR ikke et sådant filter).
Denne tekst er tilpasset fra OpenAIRE-guiden om troværdige datalagre.
Open data er data, der frit kan bruges, genbruges og videredistribueres af enhver - højst underlagt kravet om at blive attribueret og at det bliver delt på samme vilkår.
Den fulde Open Definition giver præcise detaljer om, hvad dette betyder. For at opsummere det vigtigste:
- Tilgængelighed og adgang: dataene skal være tilgængelige som helhed og til en rimelig reproduktionspris, helst ved download via internettet. Dataene skal også være tilgængelige i en bekvem og modificerbar form.
- Genbrug og omfordeling: dataene skal leveres under vilkår, der tillader genbrug og videredistribution, herunder sammenblanding med andre datasæt.
- Universel deltagelse: Alle skal kunne bruge, genbruge og videredistribuere- der må ikke være nogen forskelsbehandling af fagområder eller af personer eller grupper. For eksempel er 'ikke-kommercielle' begrænsninger, der ville forhindre 'kommerciel' brug, eller begrænsninger af brug til bestemte formål (f.eks. kun inden for uddannelse), ikke tilladt.
Denne tekst er tilpasset fra Open Data-håndbogen.
The "Sorbonne Declaration" om rettigheder til forskningsdata bekræfter de underskrivende universiteters forpligtelse til at åbne op for forskningsdata og kræver en klar juridisk ramme for at regulere denne deling og for at give midlerne til at implementere den.
Erklæringen blev offentliggjort den 28. januar 2020 på LERU's hjemmeside, og er et vigtigt dokument til fremme af Open Data.
FAIR forskningsdata er data, der er udarbejdet i overensstemmelse med FAIR Guiding Principles, der blev offentliggjort i 2016. Disse principper indeholder bedste praksis for datahåndtering, der har til formål at gøre data FAIR: Findbare, Tilgængelige, Interoperable og Genanvendelige.
Hvis du vil vide mere, kan du besøge FAQ-sektionen på vores side om bedste praksis for data her.

