Glossar

Ein geöffnetes Buch Ein geöffnetes Buch Ein geöffnetes Buch © Veronika Andrews | Pixabay

Dieses Glossar basiert auf dem Glossar des RADAR-Projekts und auf Artikeln des Wikis forschungsdaten.org.

  • Bitstream Preservation

    Digitale Daten bestehen aus einer festen Abfolge von Bits (Bitstream), wobei jedes Bit entweder den Wert 1 oder 0 repräsentiert. Bitstream Preservation bedeutet, dass diese Abfolge exakt erhalten bleibt. Bei vielen Speichermedien führen Alterungsprozesse mit der Zeit zu fehlerhaften Bits. Um dies zu verhindern, ist ein regelmäßiges Umkopieren auf ein neues Medium notwendig. Das gilt auch bei einem Technologiewechsel, wenn also z.B. ein neuartiges Medium zum Einsatz kommt. Bitstream Preservation ist eine Grundvoraussetzung für die digitale Langzeitarchivierung.

  • Data-Journal

    Data-Journals publizieren Artikel (sogenannte Data Paper), die die Prozesse der Datenerhebung inklusive der verwendeten Instrumente und Methoden dokumentieren. Diese Beschreibungen sorgen für eine bestmögliche Nachnutzbarkeit der Daten. In einigen Fällen stellen die Journale eigene Repositorien zur Verfügung, in denen die beschriebenen Daten selbst abgelegt werden können. Es ist aber ebenso möglich, die Daten an einem anderen Ort vorzuhalten. In der Regel sollte dieser Ort in dem Data Paper mithilfe eines dauerhaften Bezeichner wie zum Beispiel einem Digital Object Identifier (doi) referenziert werden. Weitere Informationen zum Thema finden Sie in diesem Blog. Bekannte Data Journals sind in dieser Liste zusammengestellt.

  • Dateiformat

    Das Dateiformat beeinflusst ganz wesentlich die langfristige Lesbarkeit digitaler Daten. Dateiformate sind unterschiedlich weit verbreitet und unterschiedlich gut dokumentiert. Einige sind „offen“, das heißt, die genauen Spezifikationen sind öffentlich. Andere sind proprietär, also Hersteller-abhängig. In diesen Fällen sind die Spezifikationen oft nicht öffentlich. Je seltener ein Format und je unbekannter seine genauen Spezifikationen desto größer ist die Wahrscheinlichkeit, dass es schon in wenigen Jahren keine aktuelle Software mehr geben wird, mit der die Dateien geöffnet und gelesen werden können. Wenn Sie Daten langfristig archivieren wollen, versuchen Sie, die Dateien in offene, weit verbreitete Standart-Formate zu konvertieren. Eine Übersicht über solche Formate bieten zum Beispiel das RADAR-Projekt und das Portal forschungsdaten.info.

  • Datenarchiv

    Ein Datenarchiv ist eine Einrichtung, die digitale Daten für einen längeren Zeitraum in ihrem Original-Zustand aufbewahrt (Bitstream Preservation). Das schließt Backup-Kopien und einen regelmäßigen Austausch der Datenträger ein. Werden zusätzlich Dienste wie die Migration in neuere Dateiformate oder die online-Publikation angeboten, handelt es sich nicht mehr um ein reines Archiv, sondern um ein Repositorium.

  • Datenbankschutzrecht

    Das Datenbankschutzrecht ist einerseits als Herstellerrecht ein dem Urheberrecht verwandtes Leistungsschutzrecht: Es sichert denjenigen, die den Aufbau einer Datenbank finanziert haben, für 15 Jahre die Nutzungs- und Verwertungsrechte. Dieses Recht schützt nicht die Inhalte der Datenbank (die allerdings dem Urheberrecht unterliegen können), sondern deren Zusammenstellung. Voraussetzung ist, dass für die Erstellung der Datenbank eine "wesentliche Investition" von Geld, Zeit, Arbeitskraft usw. notwendig war, um die erforderliche "geistigen Schöpfungshöhe" zu erreichen. Grundlage des Datenbankschutzrechts ist die Richtlinie 96/9/EG des Europäischen Parlaments und des Rates vom 11. März 1996 über den rechtlichen Schutz von Datenbanken.

    Andererseits entstehen ggf. aber auch Urheberrechte, die bei den Personen liegen, die das Datenbankwerk tatsächlich schaffen, also die Struktur ersinnen und die Inhalte zusammenstellen. Das gilt immer dann, wenn dabei die Merkmale Eigentümlichkeit, Kreativität und Originalität so ausgeprägt sind, dass die notwendige "Schöpfungshöhe" erreicht wird. Auch bei Datenbanken können Dritten Nutzungs- und Verwertungsrechte vertraglich eingeräumt und sogar vollständig übertragen werden.

  • Datenmanagementplan (DMP)

    Ein Datenmanagementplan (DMP) ist ein strukturiertes Dokument, in dem der Umgang mit Forschungsdaten in einem Projekt beschrieben wird. Es sollte Angaben enthalten, auf welche Art und mit welchen Hilfsmitteln (zum Beispiel Hard- und Software) Daten erhoben, bearbeitet, dokumentiert, gespeichert, gesichert, archiviert und ggf. publiziert werden.  Ein DMP wird im Idealfall schon in der Planungsphase eines Forschungsprojektes entworfen, sollte in dessen weiteren Verlauf aber regelmäßig aktualisiert und ergänzt werden. Inzwischen verlangen immer mehr Drittmittelgeber einen DMP schon als Bestandteile eines Förderantrags.

  • Datenschutz

    Unter Datenschutz werden technische und organisatorische Maßnahmen verstanden, die Verlust, unbefugten Zugriff auf und Missbrauch von personenbezogenen Daten verhindern sollen. Personenbezogene Daten sind alle Daten, sich mittelbar oder unmittelbar einer natürlichen Person zuordnen lassen (z.B. Name, Anschrift, IP-Adresse, E-Mail-Adresse). Das Sammeln personenbezogener Daten ist grundsätzlich nur mit ausdrücklicher Zustimmung der Betroffenen erlaubt, wobei es Einschränkungen und Ausnahmen gibt (z.B. für bestimmte Behörden oder Verwendungszwecke).

    In der Forschung fallen personenbezogene Daten insbesondere in medizinischen und sozialwissenschaftlichen Studien an. Die Verschlüsselung und Aufbewahrung an besonders gesicherten Orten ist hier zwingend erforderlich. Durch nachträgliche Pseudonymisierung oder Anonymisierung kann der Personenbezug aber soweit aufgehoben werden, dass sogar eine Publikation dieser Daten rechtlich möglich wird.

    Seit dem 25. Mai 2018 ist die europäische Datenschutzgrundverordnung als unmittelbar geltendes Recht in Kraft. Das Bundesdatenschutzgesetz und das Niedersächsische Datenschutzgesetz wurden entsprechend den Vorgaben dieser Verordnung neu gefasst. Weitere Informationen finden Sie auf der Webseite des behördlichen Datenschutzbeauftragten der LUH.

  • Datensicherung

    Datensicherung bezeichnet die temporäre Vervielfältigung von Daten. Ist ein Datenträger defekt oder werden Daten unbeabsichtigt gelöscht, ist somit stets noch mindestens eine Sicherungskopie vorhanden. Für bestmögliche Sicherheit sollten mindestens zwei Kopien an jeweils unterschiedlichen Orten existieren von denen eine automatisch täglich mit den Originaldaten synchronisiert wird. Bei Daten auf Servern des Rechenzentrums der Leibniz Universität Hannover ist diese Anforderung immer erfüllt. Institute können den Backup & Restore-Dienst der LUIS zur Sicherung ihrer Server in Anspruch nehmen.

  • Digital Object Identifier (DOI)

    Ein Digital Object Identifier (DOI) ist ein dauerhaft gültiger Bezeichner, mit dem digitalen Objekte eindeutig identifiziert und somit auch referenziert werden können. DOI eignen sich besonders gut, um z.B. Artikel oder Datensätze zu zitieren, die in einem Repositorium veröffentlich wurden.

    Ein DOI besteht aus einem Präfix, der die Institution angibt, die den DOI vergeben hat, und einem durch einen durch einen "/" getrennten Suffix, der das Objekt selbst bezeichnet (z.B. DOI: 10.1000/123456). Weitere Informationen zur DOI-Registrierung von Forschungsdaten finden Sie beim DOI-Service der Technischen Informationsbibliothek.

  • Embargo

    Ein (zeitliches) Embargo definiert einen Zeitraum, in welchem nur die Beschreibung (Metadaten) der Forschungsdaten öffentlich zugänglich sind, die zugehörigen Daten aber noch nicht. Ein Embargo kann verwendet werden, wenn Forschungsdaten (z.B. im Rahmen eines Peer-Review-Prozesses) zeitverzögert publiziert werden sollen.

  • FAIR-Prinzipien

    Die "FAIR Data Principles" wurden von der FORCE11-Initiative formuliert und haben die optimale Aufbereitung von Forschungsdaten für die nachhaltige Nachnutzung zum Ziel - vor allem durch Maschinen und Computer! Hierfür müssen Daten die folgenden Kriterien erfüllen:

    Findable

    • Einzigartiger und eindeutiger Identifier (z.B. DOI)
    • Reichhaltige Metadaten (enthalten den DOI)
    • Indexierung in durchsuchbaren Verzeichnissen (z.B. Datenrepo)

    Accessible

    • Zugänglich über ein standardisiertes, offenes, freies, universelles Kommunikationsprotokoll
    • Transparente Zugangsmöglichkeiten (Authentifizierung)
    • Metadaten zugänglich, auch wenn Daten es nicht sind

    Interoperable

    • Standardisierte und breit anwendbare Sprache für die Wissensrepräsentation
    • Vokabular, dass den FAIR-Prinzipien folgt
    • Referenzen zu verwandten Daten

    Re-usable

    • Gute Dokumentation und präzise Attribute
    • Eindeutige Lizenz
    • Detaillierte Provenienz
    • Community Standards 

    Daran angelehnt gelten für Forschungssoftware die FAIR4RS-Principles.

  • Forschungsdaten

    Als Forschungsdaten werden alle Daten bezeichnet, die im Zuge wissenschaftlichen Arbeitens anfallen. Sie bilden die Grundlage aktueller und potentiell zukünftiger wissenschaftlicher Erkenntnisse. Dazu gehören Rohdaten ebenso wie Daten in verschiedenen Stadien der Aufbereitung bis hin zu publikationsfertigen Endprodukten. Die Dokumentation der Datenerhebung und -verarbeitung sowie eines Forschungsprojektes insgesamt gehört ebenfalls zu den Forschungsdaten.

  • Forschungsdatenmanagement

    Forschungsdatenmanagement (FDM) umfasst alle Tätigkeiten im Umgang mit wissenschaftlichen Daten und beginnt schon bei der Planung eines Forschungsprojektes. In die Planung sollten die genutzten Hilfsmittel, Methoden und Infrastrukturen insbesondere für folgende Aspekte einbezogen werden:

    • Daten sammeln bzw. erzeugen
    • Daten speichern, strukturieren und dokumentieren
    • Daten sichern (Backup, Verschlüsselung, Rechtemanagement)
    • Daten analysieren
    • Daten archivieren
    • Daten publizieren
  • Gute wissenschaftliche Praxis

    Die Regeln der guten wissenschaftlichen Praxis definieren Standards des wissenschaftlichen Arbeitens. Sie sollen sicherstellen, dass Forschungsergebnisse methodisch korrekt zustande kommen und überprüfbar sind. Bei groben Verstößen sehen sie Sanktionen vor. Die Regeln wurden von der Deutschen Forschungsgemeinschaft erstmalig 1998 in Form einer Denkschrift herausgegeben, die 2013 noch einmal ergänzt und aktualisiert wurde. Seit August 2019 wird diese Denkschrift ersetzt durch den Kodex „Leitlinien zur Sicherung guter wissenschaftlicher Praxis", der an vielen Stellen konkreter und verbindlicher formuliert ist, als es die Empfehlungen der Denkschrift sind. Von den 19 im Kodex enthaltenen Leitlinien nehmen sieben explizit Bezug auf Forschungsdaten. Forschungsdatenmanagement ist damit endgültig ein fester Bestandteil der guten wissenschaftlichen Praxis.

  • Harvesting (Metadaten)

    Harvesting bezeichnet das systematische und automatisierte Sammeln und Aufbereiten von Metadaten aus Datenbanken, Repositorien und anderen digitalen Quellen durch Computerprogramme. Durch das Zusammenführen dieser verteilten Informationen sind Datenbank-übergreifende Suchen möglich. Die Sichtbarkeit, Auffindbarkeit und Nachnutzbarkeit publizierter Forschungsdaten kann dadurch erhöht werden.

  • Langzeitarchivierung

    Die Langzeitarchivierung (LZA) von Forschungsdaten ist ein Verfahren, das Daten für einen unbestimmten Zeitraum (i.d.R. > 10 Jahre), über technologische und soziokulturelle Veränderungen hinaus, verfügbar und interpretierbar hält. Dafür ist es zum einen erforderlich, durch regelmäßigen Austausch defekter Datenträger die Bitstream Preservation sicherzustellen. Da viele Dateiformate mit der Zeit technisch obsolet werden und außer Gebrauch geraten, muss eine LZA zum anderen sicherstellen, dass die Datei-Inhalte trotzdem auch in ferner Zukunft noch ausgelesen werden können. Das kann erreicht werden, indem Dateien regelmäßig in aktuelle Dateiformate konvertiert werden, oder indem von vornherein Dateiformate verwendet werden, die offen und gut dokumentiert sind.

  • Lizenzen

    In manchen Fällen können bei der Erzeugung von Forschungsdaten Urheberrechte an diesen Daten entstehen (z.B. oft bei Fotografien und Zeichnungen). Dadurch ist eine (Nach-)Nutzung dieser Daten nur mit der ausdrücklichen Genehmigung der Urheber erlaubt. Das führt häufig zu ungewollten Komplikationen und Unklarheiten, wenn die Daten anderen Personen zur Verfügung gestellt werden sollen. Daher empfiehlt es sich, publizierte Daten mit einer Lizenz zu versehen, in der die Nutzungsbedingungen klar geregelt sind.

    Besonders bekannt und bewährt sind die Creative Commons (CC) Lizenzen. CC-Lizenzen gibt es in mehreren Varianten, die bestimmte Nutzungsarten ausschließen oder zulassen. Für Forschungsdaten empfiehlt sich meist die Lizenz CC0 (Public Domain), mit der die Urheber auf sämtliche Rechte verzichten. Bei einer Nachnutzung im wissenschaftlichen Kontext ist es im Sinne der guten wissenschaftlichen Praxis dennoch verpflichtend, die Urheber zu nennen. Speziell für Software empfehlen wir die Lizenzen MIT, MPL-2.0, Apache 2.0 oder GPL-3.0-only.

    Eine vollständige Übersicht über Lizenzen aller Art bietet das Institut für Rechtsfragen der Freien und Open Source Software.

  • Metadaten

    Metadaten sind Kontext- und Eigenschaftsinformationen über Daten. Technische Metadaten beinhalten z.B. Angaben zu Dateigröße und -format und zum Speicherort. Deskriptive Metadaten geben Auskunft über den Dateiinhalt und den Kontext, in dem er entstanden ist oder auf den er sich bezieht (z.B. ein Forschungsprojekt oder ein Versuchsaufbau). Ohne sie können die Daten selbst meist nicht interpretiert und verstanden werden. Metadaten sind essenziell, um Datensätze gezielt suchen, referenzieren und nachnutzen zu können.

  • Publikation von Daten

    Daten lassen sich am besten publizieren, indem sie in einem geeigneten Repositorium abgelegt werden, von wo sie über das Internet öffentlich abrufbar sind. Viele Repositorien bieten auch die Möglichkeit, den Zugang auf bestimmte Personengruppen (z.B. nur Forschende) zu beschränken oder an Bedingungen zu knüpfen. Um publizierte Daten langfristig zitierbar zu halten, sollten sie über einen permanenten Link abrufbar sein. Dies wird durch die Vergabe eines dauerhaften Bezeichners, z.B. eines DOI (Digital Object Identifier), gewährleistet.

  • Repositorium

    Ein Repositorium ist eine Einrichtung zum Speichern, Verwalten und Verteilen von digitalen Objekten. Neben Repositorien für Software und solche für Textdokumente gibt es auch Repositorien für Forschungsdaten. Diese Repositorien dienen dem Publizieren und in der Regel auch gleichzeitig der Langzeitarchivierung von Daten. Die meisten Datenrepositorien sammeln Metadaten in einer durchsuchbaren Datenbank und bieten beim Upload einer Datei die Möglichkeit, einen dauerhaften Bezeichner (z.B. einen DOI) zu generieren und eine Lizenz zu vergeben. Für das Einhalten bestimmter Qualitätsstandards (z.B. angemessene technische Sicherungsmaßnahmen) können Repositorien ein Zertifikat erhalten. Auf der Seite www.re3data.org sind inzwischen über 2.000 Repositorien verzeichnet und beschrieben.

  • Urheberrecht

    Bestimmte Arten von Forschungsdaten, z.B. viele Zeichnungen und Fotografien, können als „Werk“ unter das Urheberrecht fallen. Dafür müssen sie die notwendige „geistige Schöpfungshöhe“, also ein Mindestmaß an Kreativität und Originalität, aufweisen. Auf rein maschinell erzeugte (Mess-)Daten trifft das meistens nicht zu. Fallen Daten unter das Urheberrecht, liegen die ausschließlichen Nutzungs-, Verwertungs- und Vervielfältigungsrechte zunächst bei denjenigen, die die Daten erzeugt haben, sofern keine anderweitigen vertraglichen Regelungen getroffen wurden (z.B. Arbeitsvertrag, Kooperationsvertrag oder Vertrag zu einer Auftragsforschung). Die Urheber können diese Rechte jedoch abtreten, um anderen eine Nutzung ihrer Werke zu ermöglichen.

    Im Falle öffentlich finanzierter Forschung erwarten insbesondere viele Drittmittelgeber, dass alle Daten, bei denen das rechtlich möglich ist, für jedermann kostenlos zugänglich gemacht werden. Eine Nachnutzung soll möglichst uneingeschränkt gestattet sein. Zu diesem Zweck ist es sinnvoll, (möglicherweise) urheberrechtsgeschützte Forschungsdaten mit einer entsprechenden Lizenz zu versehen. Besonders bekannt und bewährt sind z.B. die Creative Commons-Lizenzen CC0 (keinerlei Bedingungen) oder CC-BY (Nennung der Urheber ist obligatorisch).

    Ausführlichere Informationen und Beratungsangebote finden Sie auf unserer Unterseite zu Recht und Ethik.

  • Zitierrichtlinien

    Je nach Fachbereich und Forschungsdisziplin ist das Zitieren wissenschaftlicher Datenpublikationen unterschiedlich weit verbreitet. Das Thema der Zitation von Forschungsdaten wird derzeit von verschiedenen wissenschaftlichen Gruppierungen bearbeitet, so dass (noch) kein einheitlicher Standard existiert. Analog zum Zitieren von Texten sollten aber auf jeden Fall Autor(en), Titel des Datensatzes, Veröffentlichungsjahr und Speicherort bzw. eine URL oder (wenn vorhanden) ein dauerhafter Bezeichner (z.B. ein DOI) angegeben werden.

    Tipp: Zitations-Datei mit CFF INIT selbst erstellen

    Mit dem freien online-Dienst CFF INIT können Sie für Ihre eigenen Publikationen maschinenlesbare Metadaten-Dateien erzeugen. Damit erleichtern Sie anderen, diese Daten in eigene Literaturverwaltungsprogramme usw. zu übernehmen und Sie korrekt zu zitieren.