Glossar

A B C D E F G H I J K L M N O P Q R S T U V W Z

 

A

 

Anonymisierung

Bei der An­ony­mi­sie­rung wer­den personenbezogene Daten gemäß Da­ten­schutz­vor­ga­ben so ent­fernt, dass In­for­ma­tio­nen nicht mehr oder nur mit un­verhält­nismäßig ho­hem Auf­wand ei­ner natürli­chen Per­son zu­ge­ord­net wer­den können und da­durch kei­ne Rück­schlüsse mehr möglich sind.

 

Archivierung

Die Ar­chi­vie­rung von Da­ten be­deu­tet so­wohl die sys­te­ma­ti­sche Sicherung der Daten über ei­nen ge­wis­sen Zeit­raum als auch der Er­halt und die Be­treu­ung der Da­ten über ge­eig­ne­te Ver­fah­ren. Eine er­wei­ter­te Form stellt die Langzeitarchivierung dar.

 

 

B

 

Best Practice

Unter dem Begriff Best Practice wird eine bereits erprobte und bewährte Methode zum Ablauf eines Arbeitsprozesses verstanden. Sie ist „eine Technik oder Methodik, die durch Erfahrung und Forschung sich als zuverlässig erwiesen hat, zu einem gewünschten Ergebnis zu führen“. Eine Verpflichtung Best Practice in allen Bereichen zu verwenden, ist eine Verpflichtung zur Verwendung von jeglichem verfügbaren Wissen und Technologien, um eine erfolgreiche Durchführung zu garantieren. Im Bereich des Forschungsdatenmanagements werden mit diesem Begriff die Standards bezeichnet, durch die qualitativ hochwertige Aufzeichnungen geschaffen werden können. Hierbei handelt es sich meist um Metadatenstandards.

 

Bitstream Preservation

Digitale Daten bestehen aus einer festen Abfolge von Bits (Bitstream), wobei jedes Bit entweder den Wert 1 oder 0 repräsentiert. Bitstream Preservation bedeutet, dass diese Abfolge exakt erhalten bleibt. Bei vielen Speichermedien führen Alterungsprozesse mit der Zeit zu fehlerhaften Bits. Um dies zu verhindern, ist ein regelmäßiges Umkopieren auf ein neues Medium notwendig. Das gilt auch bei einem Technologiewechsel, wenn also z.B. ein neuartiges Medium zum Einsatz kommt. Bitstream Preservation ist eine Grundvoraussetzung für die digitale Langzeitarchivierung.

C

 

Creative-Commons-Lizenzen

Um eine maximale Nachnutzbarkeit wissenschaftlicher Forschungsdaten zu gewährleisten, die prinzipiell dem Urheberrecht unterliegen können, kann die Vergabe zusätzlicher Nutzungsrechte z. B. durch eine entsprechende Lizenzierung der Daten in Betracht gezogen werden. Die Verwendung liberaler Lizenzmodelle, insbesondere der weltweit anerkannten Creative-Commons-Lizenzen (CC), ist dabei eine Möglichkeit, Bedingungen für die Nachnutzung der publizierten Forschungsdaten nachvollziehbar festzulegen.

D

 

Data Sharing
Un­ter Data Sharing ver­steht man das Tei­len, also die Be­reit­stel­lung von Da­ten für die Nach­nut­zung durch Drit­te.

 

Dateiformat (Datenart, Dateityp)

Das Dateiformat (manchmal auch Dateiart, Dateityp oder Datenformat genannt) gibt die Syntax und Semantik von Daten innerhalb einer Datei an. Damit ein Computer bzw. eine Computer­anwendung die Daten innerhalb einer Datei interpretieren kann, ist die Kenntnis des Dateiformats notwendig, die durch die Dateiendung kodiert angegeben wird. Die meisten Dateiformate wurden für eine spezielle Verwendung konzipiert und können nach gewissen Kriterien gruppiert werden: 

  • ausführbare Dateien
  • Systemdateien
  • Bibliotheksdateien
  • Nutzerdateien: Bilddateien (Vektorgraphik [SVG, ...], Rastergraphik [JPG, PNG, ...]), Textdateien, Videodateien, etc.
  • etc.

Bei Dateiformaten kann man weiter zwischen proprietären und offenen Formaten unterscheiden.

  • Proprietäre Formate werden zumeist von Softwareherstellern bzw. Plattformen zur Verfügung gestellt und unterliegen lizenz- und/oder patentrechtlichem Schutz bzw. erfordern zur Implementierung herstellerspezifisches Wissen.
  • Offene Formate gewähren uneingeschränkten Zugriff auf ihren Quellcode und sind daher von den Nutzern adaptierbar.

 

Datenarchiv

Ein Datenarchiv ist eine Einrichtung, die digitale Daten für einen längeren Zeitraum in ihrem Original-Zustand aufbewahrt (Bitstream Preservation). Das schließt Backup-Kopien und einen regelmäßigen Austausch der Datenträger ein. Werden zusätzliche Dienste wie die Migration in neuere Dateiformate oder die Online-Publikation angeboten, handelt es sich nicht mehr um ein reines Archiv, sondern um ein Repositorium.

 

Datenbankschutzrecht

Das Datenbankschutzrecht schützt eine Datenbank für die Dauer von 15 Jahren vor ungenehmigter Nutzung und Vervielfältigung, sofern für ihre Erstellung eine „wesentliche Investition“ von Geld, Zeit, Arbeitskraft usw. notwendig war (Erreichung der sogenannten „geistigen Schöpfungshöhe“). Das deutsche Datenbankschutzrecht orientiert sich an der EU Datenschutz-Grundverordnung (in Kraft seit 25. Mai 2018). Es bezieht sich nicht auf die Inhalte einer Datenbank, die wieder für sich genommen dem Urheberrecht unterliegen können, sondern auf die systematische oder methodische Zusammenstellung als solche. 

 

Datenjournal (Data journal)

Grundsätzlich streben Datenjournale die Nachnutzung von Forschungsdaten und deren Anerkennung als wissenschaftliche Leistung an und versuchen, die Transparenz von wissenschaftlichen Methoden und Ergebnissen zu verbessern, gute Daten­management­praktiken zu unterstützen und einen dauerhaften Zugang zum Datensatz zur Verfügung zu stellen. Datenjournale sind Publikationen mit dem Hauptzweck, Datensätze zu veröffentlichen. 

 

Datenkuration

Datenkuration beschreibt, welche Management­aktivitäten erforderlich sind, um Forschungsdaten langfristig zu pflegen, sodass sie für die Wieder­verwendung und Erhaltung verfügbar sind. Im weitesten Sinne bedeutet Kuration eine Reihe von durchgeführten Aktivitäten und Prozessen, um eine Komponente zu erstellen, zu verwalten, zu halten und zu validieren.  Es ist somit die aktive und laufende Datenverwaltung während des Datenlebenszyklus. Datenkuration ermöglicht sowohl das Suchen, Auffinden und Abrufen der Daten wie auch deren Qualitätserhalt, Mehrwert und Wiederverwendung im Laufe der Zeit.

 

Datenlebenszyklus
Der Da­ten­le­bens­zy­klus (Data Lifecy­cle) ist ein Mo­dell, dass die Le­bens­zeit von For­schungs­da­ten in ein­zel­ne Pha­sen vor, während und nach dem For­schungs­pro­zess un­ter­teilt. Dazu zählen i.d.R. die Pla­nungs- und An­trags­pha­se, die Er­stel­lungs- und Er­he­bungs­pha­se, die Ver­ar­bei­tung, die Ana­ly­se der Da­ten, de­ren Ar­chi­vie­rung, Zu­gang so­wie Nach­nut­zung. An­hand die­ses Da­ten­le­bens­zy­klus wer­den die Auf­ga­ben­be­rei­che von For­schungs­da­ten­ma­nage­ment grup­piert und de­fi­niert. Das Mo­dell soll ei­ner­seits zei­gen, wel­che Pro­zes­se und Auf­ga­ben statt­fin­den, zum an­de­ren auch durch die zy­kli­sche Aus­rich­tung ver­deut­li­chen, dass die Le­bens­zeit von For­schungs­da­ten in neu­en oder an­de­ren Kon­tex­ten fort­dau­ern kann und so­gar soll.

 

Datenmanagementplan

Ein Datenmanagementplan (DMP) beschreibt systematisch, wie mit in Projekten erstellten Forschungsdaten umgegangen werden wird. Er dokumentiert die Speicherung, Verzeichnung, Pflege und Verarbeitung der Daten. Der Datenmanagementplan ist wichtig, um Daten für Dritte interpretierbar und nachnutzbar zu machen. Es ist sinnvoll bereits vor Projektbeginn zu klären, welche Verantwortlichkeiten im Umgang mit den Daten vorliegen. Dazu sind bspw. folgende Fragen zu klären:

  • Welche Daten werden im Projekt erzeugt und verwendet?
  • Welche Daten müssen nach Projektende archiviert werden?
  • Wer ist für die Verschlagwortung mit Metadaten zuständig?
  • Wie lange sollen die Daten archiviert werden?
  • Wer darf die Daten nach Projektende nutzen und unter welchen Lizenzbestimmungen?
  • etc.

 

Datenschutz

Unter Datenschutz werden technische und organisatorische Maßnahmen gegen den Missbrauch von personenbezogenen Daten verstanden. Ein Missbrauch liegt vor, wenn solche Daten unbefugt erhoben, verarbeitet oder genutzt werden. Geregelt ist der Datenschutz in der EU Datenschutz-Grundverordnung (DSGVO), im Bundesdatenschutzgesetz und in den entsprechenden Gesetzen auf Ebene der Bundesländer, z. B. im  Landesdatenschutzgesetz des Landes Sachsen-Anhalt.

In der Forschung fallen personenbezogene Daten insbesondere in medizinischen und sozialwissenschaftlichen Studien an. Die Verschlüsselung und Aufbewahrung an besonders gesicherten Orten sind hier zwingend erforderlich. Durch nachträgliche Pseudonymisierung oder Anonymisierung kann der Personenbezug aber soweit aufgehoben werden, dass sogar eine Publikation dieser Daten rechtlich möglich wird.

 

Datensicherheit
Da­ten­si­cher­heit geht über den bloßen Datenschutz hin­aus und um­fasst alle tech­ni­schen As­pek­te zum Schutz von al­len mögli­chen Ar­ten von Da­ten mit dem De­si­de­rat der Ver­trau­lich­keit, also Zu­griffs­schutz, In­te­grität, also die Un­ver­sehrt­heit der Da­ten, und Verfügbar­keit der Da­ten.

 

Datensicherung (Backup)

Die Sicherung von Daten wird meistens als ein Backup oder eine Sicherungskopie bezeichnet und dient der Wiederherstellung der ursprünglichen Daten im Falle eines Datenverlusts. Dabei sind verschiedene Verfahren von Datensicherung zu unterscheiden:

  • Das Backup (Komplettsicherung) wird meistens in regelmäßigen Abständen automatisch erstellt und an einem anderen Ort als die Originaldaten aufbewahrt, damit die physische Beschädigung durch Brand und Ähnliches nicht zum vollständigen Datenverlust führt.
  • Durch eine differenzielle Sicherung werden nur die Daten gesichert, die seit der letzten Komplettsicherung geändert wurden und hinzugekommen sind. Es handelt sich also um eine punktuelle Änderung einer Komplettsicherung, die weniger zeitaufwendig und speicherintensiv ist als eine neue Komplettsicherung.
  • Im Gegensatz dazu werden bei einer inkrementellen Sicherung nur die Dateien oder Teile von Dateien gespeichert, die seit der letzten inkrementellen Sicherung geändert wurden und hinzugekommen sind. Diese Form der Sicherung hat den geringsten Speicherbedarf. Bei einer Wiederherstellung muss kettenartig und aufwendig auf mehrere Teilsicherungen zurückgegriffen werden. 
  • Mit einem Speicherabbild (image backup) wird ein kompletter Datenträger (Festplatte, Netzlaufwerk etc.) gesichert, sodass außer den Daten auch alle Nutzereinstellungen und Programme sowie ggf. das Betriebssystem mitgesichert werden. Eine Wiederherstellung einer solchen Sicherung kann den Totalausfall eines Computers rückgängig machen.

 

Digital Object Identifier (DOI)

Ein Digital Object Identifier (DOI) ist ein dauerhaft fültiger Bezeichner, mit dem digitale Objekte eindeutig identifiziert und somit auch referenziert werden können. DOI eignen sich besonders gut, um z.B. Artikel oder Datensätze zu zitieren, die in einem Repositorium veröffentlicht wurden.

Ein DOI besteht aus einem Präfix, der die Institution angibt, die den DOI vergeben hat, und einem durch einen „/“ getrennten Suffix, der das Objekt selbst bezeichnet (z.B. DOI 10.24352/UB.OVGU-2019-098). Weitere Informationen zur DOI-Registrierung von Forschungsdaten finden Sie unter: https://www.ub.ovgu.de/ub/Publizieren+_+Open+Access/DOI_Vergabe-nonactive-1-preview-1-showdeleted-1-p-916.html

 

Digitalisat

Ein Digitalisat ist das Endprodukt eine Digitalisierung. Während der Digitalisierung wird ein analoger Gegenstand (Buch, Handschrift, Bild, Plastik, etc.) in digitale Werte überführt, um diesen elektronisch zu speichern. Gegenüber dem analogen Gegenstand ist die einfache Verteilung und Nutzung von Forschungsdaten als Digitalisat und die Möglichkeit einer maschinellen Verarbeitung von Vorteil. Außerdem verhindert die Arbeit mit Digitalisaten die Verfälschung bzw. Beschädigung des Originals durch weitere analoge Verarbeitung.

 

DINI-Zertifikat

Das DINI-Zertifikat (Deutsche Initiative für Netzwerkinformationen) ist ein weithin anerkanntes Gütesiegel für Repositorien. Die Vergabe des DINI-Zertifikat garantiert eine hohe Qualität des Dienstes (Repositoriums) für Autoren, Nutzer, Geldgeber und der Leitung der zertifizierten Einrichtung. Es signalisiert, dass festgelegte Maßstäbe, Richtlinien und Empfehlungen (Best Practices) der Open-Access-Bewegung umgesetzt wurden. Mit der Version 2013 des DINI-Zertifikats können sich auch Hosting-Anbieter bestätigen lassen, dass bestimmte Mindestanforderungen aus dem Kriterienkatalog grundsätzlich für alle von ihnen betreuten Dienste erfüllt sind. Diese Kriterien werden für den entsprechenden Hosting-Anbieter als DINI-ready markiert und müssen später beim Zertifizierungsprozess nicht mehr gesondert vom Dienstanbieter ausgewiesen werden.

E

 

Embargo

Ein Embargo definiert einen Zeitraum, in dem publizierte Datenpakete nicht zugänglich, deren Metadaten jedoch bereits öffentlich sichtbar sind. Erst mit Ablauf der Embargofrist wird das Datenpaket zugänglich gemacht. Ein Embargo kann verwendet werden, wenn Forschungsdaten zeitverzögert publiziert werden sollen (z.B. zur Erfüllung von Verlagsvorgaben oder bei noch unvollständig ausgewerteten Daten).

F 

 

FAIR Data

Der Begriff FAIR (Findable, Accessible, Interoperable und Reusable) Data wurde 2016 erstmals von der FORCE 11-Community für ein nachhaltiges Forschungsdatenmanagement geprägt. Hauptziel der FAIR Data Prinzipien ist eine optimale Aufbereitung der Forschungsdaten, die demnach auffindbar, zugänglich, interoperabel und wiederverwendbar sein sollen. Die FAIR Prinzipien wurden auch von der Europäischen Kommission in den Förderrichtlinien des EU Horizon 2020 aufgenommen und sind nun Teil des Antrags.

 

Forschungsdaten

Als Forschungsdaten werden alle Daten bezeichnet, die im Zuge wissenschaftlichen Arbeitens anfallen. Sie bilden die Grundlage aktueller und potentiell zukünftiger wissenschaftlicher Erkenntnisse. Dazu gehören Rohdaten ebenso wie Daten in verschiedenen Stadien der Aufbereitung bis hin zu publikationsfertigen Endprodukten. Die Dokumentation der Datenerhebung und -verarbeitung sowie eines Forschungsprojektes insgesamt gehört ebenfalls zu den Forschungsdaten.

 

Forschungsdatenmanagement

Unter Forschungsdatenmanagement versteht man den Prozess der  Transformation, Selektion und Speicherung von Forschungsdaten mit dem Ziel, diese langfristig und unabhängig vom Datenerzeuger zugänglich, nachnutzbar und nachprüfbar zu halten. Es können dazu an  allen Punkten des Datenlebenszyklus strukturierte Maßnahmen ergriffen werden, um die wissenschaftliche  Aussagekraft von Forschungsdaten zu erhalten, deren Zugänglichkeit  durch Dritte für Auswertung und Analyse zu bewahren und die Nachweiskette zu sichern.

 

Forschungsprimärdaten

Forschungsprimärdaten sind erhobene Rohdaten, die weder bearbeitet noch kommentiert bzw. mit Metadaten versehen wurden, die aber die Grundlage für die wissenschaftliche Beschäftigung mit einem Gegenstand darstellen. Die Unterscheidung zwischen Forschungsdaten und Forschungsprimärdaten kann bisweilen nur theoretisch vorgenommen werden, weil letztere nie ohne minimale Metadaten veröffentlicht werden bzw. sonst unverständlich blieben. So werden Digitalisate von deren Inhabern, bspw. wissenschaftliche Bibliotheken und Sammlungen, nie ohne Hintergrundinformationen, wie Provenienz und Ähnlichem veröffentlicht.

 

Gute wissenschaftliche Praxis

Die Regeln der guten wissenschaftlichen Praxis dienen als Orientierung im Rahmen wissenschaftlicher Arbeitsprozesse. In Deutschland sind diese Regeln zum Beispiel in Empfehlung 15 bis 17 der Deutschen Forschungsgemeinschaft (DFG) zu finden. Hier heißt es: „Wissenschaftlerinnen und Wissenschaftler sichern öffentlich zugänglich gemachte Forschungsdaten beziehungsweise Forschungsergebnisse sowie die ihnen zugrunde liegenden, zentralen Materialien und gegebenenfalls die eingesetzte Forschungssoftware, gemessen an den Standards des betroffenen Fachgebiets, in adäquater Weise und bewahren sie für einen angemessenen Zeitraum auf. Sofern nachvollziehbare Gründe dafür existieren, bestimmte Daten nicht aufzubewahren, legen die Wissenschaftlerinnen und Wissenschaftler dies dar. Hochschulen und außerhochschulische Forschungseinrichtungen stellen sicher, dass die erforderliche Infrastruktur vorhanden ist, die die Archivierung ermöglicht.“ Damit soll gewährleistet sein, dass Forschungsergebnisse überprüfbar bleiben. Eine Publikation der Daten fördert zudem die Nachnutzbarkeit der Forschungsdaten.

 

Harvesting (Metadaten)

Harvesting bezeichnet das systematische und automatisierte Sammeln und Aufbereiten von Metadaten aus Datenbanken, Repositorien und anderen digitalen Quellen durch Computerprogramme. Durch das Zusammenführen dieser verteilten Informationen sind Datenbank-übergreifende Suchen möglich. Die Sichtbarkeit, Auffindbarkeit und Nachnutzung publizierter Forschungsdaten kann dadurch erhöht werden.

 

Ingest

Als Ingest (Übernahme) bezeichnet man die Phase im Datenlebenszyklus, in welchem Forschungsdaten in ein Archiv oder Repositorium aufgenommen werden. Zunächst erfolgt eine Bestätigung, dass das Datenpaket erhalten wurde und es muss entschieden werden, welche der Daten in welcher Form übernommen werden. Je nach dem zu übernehmenden Inhalt, können die daran anschließenden Workflows variieren. Die Daten werden jedoch zumeist Qualitätskontrollen (bspw. Überprüfung der Metadaten oder der Vertraulichkeit) und verschiedenen Aufbereitungsprozessen (Metadatenanreicherung etc.) unterzogen.

 

Interoperabilität

Als In­ter­ope­ra­bi­lität be­zeich­net man im Kon­text For­schungs­da­ten die Fähig­keit un­ter­schied­li­cher tech­ni­scher Sys­te­me kom­pa­ti­bel zu­sam­men­ar­bei­ten zu können, also Aus­tausch und Ver­knüpfung von In­for­ma­tio­nen, Da­ten und Metadaten über ge­eig­ne­te Schnitt­stel­len zu ermögli­chen. Dies ge­lingt u.a. durch die Ver­wen­dung ge­eig­ne­ter Metadatenstandards.

 

K 

 

Kontrolliertes Vokabular

Kon­trol­lier­tes Vo­ka­bu­lar um­fasst fest de­fi­nier­te Ter­me und Be­zeich­nun­gen zur ein­deu­ti­gen Be­stim­mung von In­hal­ten und Sach­ver­hal­ten. Es fin­det bei der Be­schrei­bung von Res­sour­cen An­wen­dung und dient dazu, In­hal­te un­ter kon­sis­ten­ter De­fi­ni­ti­on und An­set­zung ein­heit­lich zu do­ku­men­tie­ren und da­durch ein­fa­cher durch­such- und auf­find­bar zu ma­chen.

 

Kuratierung von Daten

Als Ku­ra­tie­ren von Da­ten (Data Cu­ra­ti­on) be­zeich­net man alle ak­ti­ven Ma­nage­ment­pro­zes­se zur sorg­sa­men, lang­fris­tig aus­ge­rich­te­ten Pfle­ge von For­schungs­da­ten während des Datenlebenszyklus. Im Fo­kus ste­hen da­bei de­ren Wie­der­ver­wen­dung und Er­halt. Ziel ist es, über ge­re­gel­te Ver­fah­ren und Ak­ti­vitäten ei­nen Mehr­wert für die Da­ten zu ge­ne­rie­ren, und zwar in Be­zug auf Auf­find­bar­keit und Zu­gang zum Zwe­cke qua­li­ta­tiv hoch­wer­ti­ger Nach­nutz­bar­keit.

L 

 

Langzeitarchivierung

Die Langzeitarchivierung (LZA) von Forschungsdaten ist ein Verfahren, das Daten für einen unbestimmten Zeitraum (i.d.R. > 10 Jahre), über technologische und soziokulturelle Veränderungen hinaus, verfügbar und interpretierbar hält. Dafür ist es zum einen erforderlich, durch regelmäßigen Austausch defekter Datenträger die Bitstream Preservation sicherzustellen. Da viele Dateiformate mit der Zeit technisch obsolet werden und außer Gebrauch geraten, muss eine LZA zum anderen sicherstellen, dass die Datei-Inhalte trotzdem auch in ferner Zukunft noch ausgelesen werden können. Das kann erreicht werden, indem Dateien regelmäßig in aktuelle Dateiformate konvertiert werden, oder indem von vornherein Dateiformate verwendet werden, die offen und gut dokumentiert sind.

 

Lizenzen

In manchen Fällen können bei der Erzeugung von Forschungsdaten Urheberrechte an diesen Daten entstehen (z.B. oft bei Fotografien und Zeichnungen). Dadurch ist eine (Nach-) Nutzung dieser Daten nur mit der ausdrücklichen Genehmigung der Urheber erlaubt. Das führt häufig zu ungewollten Komplikationen und Unklarheiten, wenn die Daten anderen Personen zur Verfügung gestellt werden sollen. Daher empfiehlt es sich, publizierte Daten mit einer Lizenz zu versehen, in der die Nutzungsbedingungen klar geregelt sind.

Besonders bekannt und bewährt sind die Creative Commons Lizenzen. CC-Lizenzen gibt es in mehreren Varianten, die bestimmte Nutzungsarten ausschließen oder zulassen. Für Forschungsdaten empfiehlt sich meist die Lizenz CC0 (Public Domain), mit der die Urheber auf sämtliche Rechte verzichten. Bei einer Nachnutzung im wissenschaftlichen Kontext ist es im Sinne der guten wissenschaftlichen Praxis dennoch verpflichtend, die Urheber zu nennen.

 

Metadaten

Me­ta­da­ten sind struk­tu­rier­te Da­ten, die In­for­ma­tio­nen über Da­ten ent­hal­ten. Sie wer­den au­to­ma­tisch oder in­tel­lek­tu­ell er­fasst und lie­gen in un­ter­schied­li­chen Ka­te­go­ri­en und For­ma­ten vor. Me­ta­da­ten können in­halt­li­cher, for­ma­ler, tech­ni­scher, ad­mi­nis­tra­ti­ver, recht­li­cher, iden­ti­fi­zie­ren­der oder auch re­la­tio­na­ler Na­tur sein. Ihr primärer Zweck ist es, vor dem Zu­griff auf die Da­ten re­le­van­te Be­schrei­bungs­ele­men­te zur Verfügung zu stel­len. So­mit las­sen sich Da­ten nicht nur be­schrei­ben, son­dern auch fin­den. Um letz­te­res zu er­leich­tern und die Sicht­bar­keit der Me­ta­da­ten und da­mit der Da­ten zu erhöhen, wer­den Me­ta­da­ten oft in stan­dar­di­sier­ter Form im Sin­ne der Interoperabilität er­fasst und be­reit­ge­stellt.

 

Metadatenstandard

Um die Interoperabilität , d. h. die Verknüpfung und gemeinsame Bearbeitung, von Metadaten zu gewährleisten, wurden für bestimmte Zwecke Metadatenstandards geschaffen. Sie dienen einer inhaltlich als auch strukturell gleichförmigen Beschreibung von ähnlichen Daten. Ein Metadatenstandard kann oft durch ein sogenanntes Mapping in einen anderen Metadatenstandard überführt werden.

N 

 

 Normdaten

Um Personen, Institutionen, Forschungsförderer etc. eindeutig identifizieren zu können, sind Normdaten entwickelt wurden. Bei der Digitalisierung, Katalogisierung und Archivierung von Texten oder Artefakten werden Normdaten erhoben. Man muss beispielsweise nicht nur den „Namen“ einer Person angeben, sondern außerdem noch die „Nummer“ von ihr, damit es zu keiner falschen Zuordnung kommt. Unabhängig von Schreibweisen, sind die Informationen zum Suchbegriff dadurch auffindbar. Die „Gemeinsame Normdatei“ (GND) der Deutschen Nationalbibliothek ist in Deutschland die zentrale Normdatei.

O 

 

Open Access

Unter Open Access wird ein kostenloser und möglichst barrierefreier Zugang zu digitalen wissenschaftlichen Inhalten verstanden. Den Nutzern werden in der Regel umfangreiche Nutzungsrechte und einfache Zugangswege ermöglicht. Die Urheberschaft verbleibt dabei in der Hand des Urhebers. Durch Open Access können wissenschaftliche Informationen maximal verbreitet, genutzt und weiterverarbeitet werden. Open Access stellt eine wichtige Errungenschaft der Open-Science-Bewegung dar.

Bei der Veröffentlichung von wissenschaftlichen Inhalten werden zwei Wege unterschieden:

Die Veröffentlichung von wissenschaftlichen Inhalten in einem Open-Access-Medium, wird als „Goldener Weg“ bezeichnet.

Die Veröffentlichung einer kostenpflichtigen und einer parallelen kostenfreien Version, wird „Grüner Weg“ genannt.

 

ORCID

Die Open Research and Contributor (ORCID) -ID  ist ein international anerkannter persistenter Identifikator, mit dessen Hilfe Forschende eindeutig identifiziert werden können. Die ID ist verlagsunabhängig und kann dauerhaft sowie institutionsunabhängig von Forschenden für ihren wissenschaftlichen Output verwendet werden. Sie besteht aus 16 Ziffern, die in vier Viererblöcken dargestellt sind. Die ORCID-ID ist als Identifizierungsnummer bei zahlreichen Verlagen, Universitäten und wissenschaftsnahen Einrichtungen etabliert und wird in den Workflow z. B. bei der Begutachtung von Zeitschriftenartikeln integriert.

P

 

Persistent Identifier

Ein Per­sis­tent Iden­ti­fier ga­ran­tiert die dau­er­haf­te, ein­deu­ti­ge Iden­ti­fi­zier­bar­keit ei­ner di­gi­ta­len Res­sour­ce. Die Res­sour­ce wird re­gle­men­tiert über be­stimm­te An­bie­ter und Sys­te­me re­gis­triert und im Zuge des­sen ein fes­ter Wert als ID ver­ge­ben. Die­se ID bleibt kon­stant be­ste­hen. Sie ver­weist stand­ort­un­abhängig auf die Res­sour­ce, die da­mit lang­fris­tig ein­deu­tig auf­find­bar und zi­tierfähig ist. Ein weit gebräuch­li­cher Per­sis­tent Iden­ti­fier für For­schungs­da­ten ist der Digital Object Identifier (DOI). 

 

Personenbezogene Daten

Das Bundesdatenschutzgesetz (BDSG) definiert personenbezogene Daten als „Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren natürlichen Person (Betroffener)“. Daten können dann als personenbezogen gelten, wenn sie eindeutig einer bestimmten natürlichen Person zugeordnet werden können. Typische Beispiele sind Name, Beruf, Körpergröße oder Nationalität der Person. Das BDSG schreibt zudem vor, dass Angaben über ethnische Herkunft, politische Meinung, religiöse oder philosophische Überzeugung, Gewerkschaftszugehörigkeit, Gesundheit und Sexualleben eine besonders schutzwürdige Art von personenbezogenen Daten darstellen und daher strengeren Schutzauflagen unterliegen.

 

Primärdaten
Als Primärda­ten be­zeich­net man For­schungs­da­ten, die un­mit­tel­bar von den For­schen­den in Be­zug auf den Ge­gen­stand der Un­ter­su­chung neu er­ho­ben und er­zeugt wer­den und in der Fol­ge als Grund­la­ge für den ei­ge­nen wis­sen­schaft­li­chen For­schungs­pro­zess (Primärfor­schung) die­nen.

 

Pseudonymisierung

Im Gegensatz zur Anonymisierung werden bei der Pseudonymisierung lediglich bestimmte Identifikationsmerkmale, wie beispielsweise der Name, durch ein Pseudonym (ein Buchstaben- und/oder Zahlencode) ersetzt werden, um so die Bestimmung der betroffenen Personen zu erschweren oder auszuschließen (BDSG § 3, Abs. 6a). Während der Dauer einer wissenschaftlichen Studie ist es häufig unvermeidlich personenbezogene Daten und Code in einer Referenzliste und die Studiendaten in einer davon getrennten Datenbank zu führen, also eine Pseudonymisierung von Daten durchzuführen. Eine Anonymisierung der Daten erreicht man, indem die Referenzliste, beispielsweise nach Abschluss der Studie, gelöscht wird, sodass kein Bezug zwischen einzelnen Personen und den Studienergebnissen mehr hergestellt werden kann.

 

Publikation von Daten

Daten lassen sich am besten publizieren, indem sie in einem geeigneten Repositorium abgelegt werden, von wo sie über das Internet öffentlich abrufbar sind. Viele Repositorien bieten auch die Möglichkeit, den Zugang auf bestimmte Personengruppen (z.B. nur Wissenschaftler) zu beschränken oder an Bedingungen zu knüpfen. Um publizierte Daten langfristig zitierbar zu halten, sollten sie über einen permanenten Link abrufbar sein. Dies wird durch die Vergabe eines dauerhaften Bezeichners, z.B. eines DOI (Digital Object Identifier), gewährleistet.

R 

 

Repositorium

Ein Repositorium ist eine Einrichtung zum Speichern, Verwalten und Verteilen von digitalen Objekten. Neben Repositorien für Software und solche für Textdokumente gibt es auch Repositorien für Forschungsdaten. Diese Repositorien dienen dem Publizieren und in der Regel auch gleichzeitig der Langzeitarchivierung von Daten. Die meisten Datenrepositorien sammeln Metadaten in einer durchsuchbaren Datenbank und bieten beim Upload einer Datei die Möglichkeit, einen dauerhaften Bezeichner (z.B. einen DOI) zu generieren und eine Lizenz zu vergeben.

 

Rechte an Daten

Rechte an bzw. über Daten können aus zwei Blickwinkeln definiert werden. Aus Sicht der Forschenden sind dies Entscheidungsbefugnisse über die Daten, die sich aus der Erzeugung ergeben. Aus Sicht von Nutzerinnen und Nutzern handelt es sich um die Rechte, welche bei Nachnutzung von Daten zu beachten sind. Rechte können in Form von Lizenzen und zugehörigen Lizenztexten sowie Vereinbarungen in rechtlich verbindlicher Form festgelegt und kommuniziert werden.

Für die Nachnutzung von Daten  gelten mindestens die Regeln der guten wissenschaftlichen Praxis, d. h. im Wesentlichen die Pflicht, Urheber korrekt zu zitieren (Urheberrecht). Mit Vergabe der Creative-Commons-Lizenz lässt sich diese Regel durch den Datenerzeuger auch lizenzrechtlich weitgehend nachbilden. Datenschutz-, patent- und persönlichkeitsrechtliche Einschränkungen können die Nachnutzung erschweren. 

 

Richtlinien, Regeln, Policys

Richtlinien (engl. policies) sollen für alle Mitarbeiter einer Institution festschreiben, welche Verfahren beim Forschungsdatenmanagement eingesetzt werden sollen und wie mit Forschungsdaten umzugehen ist. In Deutschland gibt es fast keine Forschungsdaten-Policys (Datenrichtlinien) mit detaillierten Vorgaben sondern zumeist nur grundlegende Eigenverpflichtungen etwa zu den Prinzipien des Open Access.

S

 

Sekundäranalyse

Bei der Se­kundärana­ly­se oder Se­kundärnut­zung von For­schungs­da­ten wer­den be­reits exis­tie­ren­de Da­ten für eine wei­te­re Ana­ly­se, sei es für die Re­pro­duk­ti­on und Va­li­die­rung der For­schungs­er­geb­nis­se, sei es für die Un­ter­su­chung an­de­rer oder ähn­li­cher Fra­ge­stel­lun­gen, er­neut ver­wen­det.

T 

 

U 

 

Urheberrecht

Bestimmte Arten von Forschungsdaten, z.B. viele Zeichnungen und Fotografien, können als „Werk“ unter das Urheberrecht fallen. Dafür müssen sie die notwendige „geistige Schöpfungshöhe“, also ein Mindestmaß an Kreativität und Originalität, aufweisen. Auf rein maschinell erzeuge (Mess-) Daten trifft das meistens nicht zu. Fallen Daten unter das Urheberrecht, liegen die ausschließlichen Nutzungs-, Verwertungs- und Vervielfältigungsrechte zunächst bei denjenigen, die die Daten erzeugt haben, sofern keine anderweitigen vertraglichen Regelungen getroffen wurden (z.B. Arbeitsvertrag, Kooperationsvertrag oder Vertrag zu einer Auftragsforschung). Die Urheber können diese Rechte jedoch abtreten, um anderen eine Nutzung ihrer Werke zu ermöglichen.

Im Falle öffentlich finanzierter Forschung erwarten insbesondere viele Drittmittelgeber, dass alle Daten, bei denen das rechtlich möglich ist, für jedermann kostenlos zugänglich gemacht werden. Eine Nachnutzung soll möglichst uneingeschränkt gestattet sein. Zu diesem Zweck ist es sinnvoll, (möglicherweise) urheberrechtsgeschützte Forschungsdaten mit einer entsprechenden Lizenz zu versehen. Besonders bekannt und bewährt sind z.B. die Creative Commons-Lizenzen CC0 (keinerlei Bedingungen) oder CC-BY (Nennung der Urheber ist obligatorisch).

 

URN (Uniform Ressource Name)

URN ist die Bezeichnung eines Identifizierungs- und Adressierungssystems und wird ähnlich wie ein DOI zur persistenten Identifikation digitaler Objekte (Netzpublikationen, Datensätze u. a.) verwendet. Er ist vor allem im deutschsprachigen Raum sehr verbreitet, da die deutsche Nationalbibliothek URNs zur persistenten Identifikation und Adressierung anwendet, administriert und auflöst.

V 

 

W 

 

Z 

 

Zitation
Die kor­rek­te Zi­ta­ti­on von For­schungs­da­ten ist not­wen­dig im Sin­ne gu­ter wis­sen­schaft­li­cher Pra­xis. Die Zi­ta­ti­on sorgt für Sicht­bar­keit und da­mit An­er­ken­nung der For­schungs­leis­tung und –er­geb­nis­se und soll­te nach fes­ten Re­geln und kon­sis­tent er­fol­gen. Ei­nen eta­blier­ten Zi­ta­ti­ons­stan­dard für For­schungs­da­ten gibt es in die­sem Sin­ne (noch) nicht flächen­de­ckend, son­dern nur Emp­feh­lun­gen. Ge­ne­rell soll­ten in ei­ner Da­ten­zi­ta­ti­on die übli­chen bi­blio­gra­phi­schen An­ga­ben Ver­wen­dung fin­den, also An­ga­ben zum Ur­he­ber, Ti­tel, Pu­bli­ka­ti­ons­da­tum. Bei Da­ten sind zusätz­lich Da­ten­typ so­wie der Stand­ort re­le­vant. Bei Vor­han­den­sein ei­nes Persistent Identifiers soll­te die­ser in die Zi­ta­ti­ons­wei­se auf­ge­nom­men wer­den, um die dau­er­haf­te Iden­ti­fi­zier­bar­keit der Da­ten und Nach­voll­zieh­bar­keit der Ar­beit mit die­sen Da­ten zu gewähr­leis­ten.

 

 

 

Letzte Änderung: 28.01.2020 - Ansprechpartner: Webmaster