FDM Förderanträge
Erläuterungen und Beispiele zu DMP-Inhalten

Inhalte für Datenmanagementpläne und FDM-Antragskapitel

Erläuterungen und Beispiele

© Startup Stock Photo

Auf dieser Seite möchten wir Ihnen Empfehlungen für Inhalte und Beispiele für Formulierungen in Datenmanagementplänen und Antragskapiteln zum Forschungsdatenmanagement an die Hand geben. Wenn Sie einen entsprechenden Text ausarbeiten, sollten Sie darin so konkret wie möglich die Dienste und Infrastrukturen benennen, die Sie nutzen möchten. Auf der Unterseite "Tools" haben wir etliche beschrieben und verlinkt, die Ihnen an der LUH/TIB und darüber hinaus zur Verfügung stehen.

Hinweis

Der Aufbau dieser Seite orientiert sich an der Gliederung der DFG-Checkliste zum Umgang mit Forschungsdaten. Die Inhalte sind aber für jede Art von Datenmanagementplan oder FDM-Antragskapitel relevant, unabhängig von den formalen Vorgaben einer bestimmten Förderorganisation.

Wichtig!

Unter jeden der sechs Kapitel finden Sie fiktive Textbeispiele, die Ihnen einen Eindruck davon vermitteln sollen, wie Aussagen in einem DMP oder Antragskapitel formuliert sein könnten. Diese Texte sind frei erfunden und keine Kopiervorlagen. Jedes Projekt hat individuelle Rahmenbedingungen, Ressourcen, Methodensets und Fragestellungen, sodass auch das Datenmanagement jeweils daran angepasst werden muss. Standardisierte Textbausteine sind daher nicht umsetzbar. Nehmen Sie gerne unsere Beratung in Anspruch, wenn Sie Unterstützung bei der Gestaltung oder Beschreibung des Datenmanagements in Ihrem Projekt wünschen.

1. Datenbeschreibung

  • Auf welche Weise entstehen in Ihrem Projekt neue Daten? Werden existierende Daten wiederverwendet?

    Beschreiben Sie, mit welchen Werkzeugen und Methoden Sie existierende Daten zusammentragen oder neue erzeugen. Werkzeuge können bestimmte Software-Tools sein oder vielleicht auch schlicht ein Notizbuch. Als Methoden könnten zum Beispiel Messungen, Beobachtungen, Simulationen, Umfragen, Interviews, Archivrecherchen oder eigene Programmierung infrage kommen.

  • Welche Datentypen, im Sinne von Datenformaten entstehen in Ihrem Projekt und auf welche Weise werden sie weiterverarbeitet?

    Benennen Sie hier sowohl die Formate von Rohdaten als auch, sofern zutreffend, von abgeleiteten Datenprodukten oder konvertierten Versionen. So könnten z.B. eingescannte Dokumente zunächst im tiff-Format vorliegen, nach einer automatischen Texterkennung dann aber im pdf-Format gespeichert werden. Messdaten werden oft in proprietären Formaten des Herstellers des Messgeräts ausgegeben, können anschließend aber ggf. in Formate wie csv konvertiert werden.

  • In welchem Umfang fallen diese Daten an bzw. welches Datenvolumen ist zu erwarten?

    Diese Abschätzung ist wichtig, um rechtzeitig klären zu können, ob Ihnen ausreichend Speicherkapazitäten und Bandbreite zur Übertragung der Daten zur Verfügung stehen. Maßgeblich ist hierbei, welche Datenmenge maximal gleichzeitig vorgehalten wird. Bedenken Sie also auch Backup-Kopien und temporäre Dateien, die möglicherweise bei der Verarbeitung als Zwischenschritt entstehen. Im Zweifel rechnen Sie lieber großzügig.

fiktive Beispiele

  • Quantitative Daten aus einer online-Umfrage

    Wir führen Umfragen mithilfe des online-Tools Limesurvey durch. Die Ergebnisse werden zunächst im csv-Format exportiert und anschließend zur weiteren statistischen Auswertung in Stata importiert und im dta-Format gespeichert. Für die spätere Archivierung nach Abschluss der Auswertung werden die Daten wieder ins csv-Format exportiert und zusammen mit einem do-File gespeichert. Das Datenvolumen sollte unter 5 GB liegen.

  • Sensordaten aus kontrollierten Laborversuchen

    Im Projekt entstehen Video- und Messdaten aus Versuchen. Eine Hochgeschwindigkeits-Kamera liefert 2000 Bilder pro Sekunde. Jede Aufnahme dauert ca. 6 Sekunden und benötigt ca. 72 GB Speicherplatz. Wir rechnen mit etwa 100 Aufnahmen (ca. 7,2 TB). Die Rohdaten fallen im herstellerspezifischen CINE-Format an, werden aber vor der Datenarchivierung ins AVI-Format konvertiert. Zusätzlich fallen Radar-Messdaten im Binärformat MDF4 an, deren Gesamtvolumen 200 GB nicht übersteigen sollte.

  • Entwicklung von Software und Simulationsdaten

    Bei der Entwicklung des digitalen Zwillings entsteht hauptsächlich selbstprogrammierter Python-Code. Die damit durchgeführten Simulationen basieren auf genormten Eigenschaftswerten für Metallwerkstoffe (EN/DIN). Sie liefern als Output sowohl Daten im NetCDF-Format als auch statische grafische Darstellungen als zwei- und dreidimensionale Diagramme und Zeitreihen als PDF oder Bilddateien (JPG/PNG). Pro Simulationsvorgang fallen voraussichtlich, je nach gesetzten Parametern, zwischen 5 und 20 GB Daten an. Die Ergebnisse von Testsimulation in der Entwicklungsphase werden nicht dauerhaft gespeichert, so dass maximal 500 GB an Daten gleichzeitig anfallen.

2. Dokumentation und Datenqualität

  • Welche Ansätze werden verfolgt, um die Daten nachvollziehbar zu beschreiben (z. B. Nutzung vorhandener Metadaten- bzw. Dokumentationsstandards oder Ontologien)?

    Sobald in Ihrem Projekt neue Daten entstehen oder existierende Daten nachgenutzt werden, sollte dies dokumentiert werden, damit stets nachvollziehbar bleibt, woher die Daten stammen, bzw., wie sie entstanden sind. Ebenso festgehalten werden sollte jeder folgende Verarbeitungsschritt. Um in dieser Dokumentation später effizient und zuverlässig nach bestimmten Informationen suchen zu können, bietet es sich an, strukturierte, datenbankbasierte Erfassungssysteme anstelle von reinen Fließtextbeschreibungen zu verwenden.

    Für die Erfassung solcher Metadaten gibt es Standards, die das genaue Format für bestimmte Angaben (z.B. Autor*innen, Erhebungsdatum, Projektkontext usw.) festlegen. Die Benennung weiterer Felder und Kategorien, die in einem solchen Metadaten-Schema nicht vorgesehen sind, sollte sich an fachspezifischen Standard-Vokabularen (Terminologien und Ontologien) orientieren, sofern diese existieren. So wird die Vergleichbarkeit und Interoperabilität mit Daten ähnlicher Art aus anderen Projekten erhöht.

  • Welche Maßnahmen werden getroffen, um eine hohe Qualität der Daten zu gewährleisten? Sind Qualitätskontrollen vorgesehen und wenn ja, auf welche Weise?

    Bei der Erhebung und Verarbeitung von Daten gibt es viele potentielle Fehlerquellen, zum Beispiel falsch kalibrierte Messgeräte, Übertragungsfehler, korrupte Dateien und alle erdenklichen Formen menschlicher Fehler. Da falsche Daten auch zu falschen Forschungsergebnissen führen, sind regelmäßige Mechanismen zur Qualitätsprüfung wichtig. Je nach Art der Daten lassen sich die Maßnahmen mitunter (teil-)automatisieren. Zum Beispiel hilft das Erstellen und Vergleichen von Prüfsummen, Dateien zu erkennen, die beim Kopieren beschädigt oder unbewusst verändert wurden. Programme wie Excel sind dafür bekannt, ohne Rückfrage Zeichenkodierungen und Zahlenformate zu ändern, weshalb beim Konvertieren ein Vergleich zwischen Original und Excel-Version empfehlenswert ist. Transkriptionen und Annotationen sollten möglichst immer von mindestens zwei Personen unabhängig geprüft werden.

  • Welche digitalen Methoden und Werkzeuge (z. B. Software) sind zur Nutzung der Daten erforderlich?

    Grundsätzlich sollten wissenschaftliche Daten so zur Verfügung gestellt werden, dass sie mit Standard-Software gelesen werden können. Proprietäre Datenformate, die nur mit spezieller und ggf. kostenintensiver Software gelesen werden können, sollten daher möglichst zusätzlich in offene Formate konvertiert werden, auch wenn das mitunter mit einer verminderten Funktionalität einhergeht. Mindestens sollte aber immer genau angegeben werden, welche Version eines Programms und ggf. auch welches Betriebssystem benötigt wird.

fiktive Beispiele

  • Annotierte Transkripte

    Die Interviews werden mit der freien Software EXMARaLDA nach den Standards des „Gesprächsanalytischen Transkriptionssystems 2“ (GAT2) aufbereitet und mit einem entsprechenden Header versehen. Nach der automatischen, KI-gestützten (OpenAI Whisper) Transkription der Interview-Aufnahmen erfolgt eine Qualitätskontrolle durch einen der Projektbeteiligten. Dabei wird die Audioaufnahme abgespielt und gleichzeitig das Transkript mitgelesen. Falsch transkribierte Inhalte werden manuell korrigiert. Außerdem werden Pausen und nicht-sprachliche Laute wie, Lachen, Husten, Räuspern etc. kenntlich gemacht. Die fertigen Transkripte werden zusätzlich im RTF-Format gespeichert, das mit jedem gängigen Textverarbeitungsprogramm gelesen werden kann.

  • CAD-Daten

    Alle Bauteile werden digital mit SOLIDWORKS entworfen. Der Industriepartner stellt eine Instanz des SOLIDWORKS Product Data Management (PDM) bereit, in dem alle Daten versioniert und ihre Verarbeitungshistorie dokumentiert werden. Mit der SOLIDWORKS Simulation wird die mechanische Belastbarkeit jedes Bauteils simuliert, so dass fehlerhafte Berechnungen schon vor der Produktion eines physischen Prototyps erkannt werden. Bei Abschluss des Projektes wird die Dokumentation für jedes Bauteil als statische PDF-Datei und die CAD-Datei selbst ins STEP-Format (ISO 10303) exportiert.

  • Geodaten

    Vektordaten liegen im shp-Format vor, Rasterdaten als Geotiff oder csv. Zusätzlich wird eine PostGIS-Geodatenbank aufgebaut. Diese Formate können in jedes gängige Geoinformationssystem eingebunden werden. Vektordaten werden mithilfe des QGIS-Plugins „Geometry Checker“ auf offensichtliche geometrische Inkonsistenzen geprüft und ggf. korrigiert. Alle Metadaten werden gemäß der ISO-Norm 19115 erfasst. Methoden der Aufbereitung und Analyse der Geodaten werden im Projekt-Wiki (Doku-Wiki) beschrieben, das im Umfang der LUIS-Projektablage enthalten ist.

3. Speicherung und technische Sicherung während des Projektverlaufs

  • Auf welche Weise werden die Daten während der Projektlaufzeit gespeichert und gesichert?

    Legen Sie dar, dass Ihnen ausreichend Speicherkapazität zur Verfügung stehen wird. Nutzen Sie, wenn vorhanden, professionell gewartete Server Ihres Instituts oder des Rechenzentrums und erkundigen Sie sich, ob und wie diese gesichert werden. Wenn Ihr Institut den Backup & Restore-Dienst des LUIS nutzt, wird automatisch täglich ein Backup der Institutsserver erstellt. Wenn nicht, überlegen Sie sich einen gleichwertigen Sicherungsmechanismus. Die Kopie sollte sich immer an einem anderen Ort, also mindestens in einem anderen Gebäude befinden. Bei sehr großen Datenmengen prüfen Sie auch, ob die Bandbreite ausreicht, um diese täglich auf einen Backup-Server zu übertragen. Daten, die ausschließlich auf lokalen Festplatten oder externen Speichermedien lagern, unterliegen einem hohen Verlustrisiko, z.B. durch technische Defekte, Beschädigung oder Diebstahl der Datenträger.

  • Wie wird die Sicherheit sensibler Daten während der Projektlaufzeit gewährleistet (Zugriffs- und Nutzungsverwaltung)?

    Daten sind insbesondere dann als sensibel anzusehen, wenn durch unbefugte Einsichtnahme oder Datenabfluss die Rechte Dritter verletzt werden können. Das ist regelmäßig bei personenbezogenen Daten der Fall, aber auch bei Daten, die Ihnen unter Geheimhaltungsauflagen oder besonderen Nutzungsbedingungen zur Verfügung gestellt wurden, zum Beispiel von Projektpartnern aus der Industrie oder von kommerziellen Datenanbietern. Auch ethische Aspekte können eine Rolle spielen. Je gravierender die Folgen von Diebstahl oder unbefugter Dateneinsicht wären, umso besser sollten Daten geschützt sein. Wenn Sie mit solchen Daten arbeiten, sollten Sie durch technische Maßnahmen sicherstellen, dass nur autorisierte Personen darauf Zugriff haben. Typische Maßnahmen sind die Verschlüsselung von Datenträgern, das Einrichten einer differenzierten Zugriffsverwaltung, die Aufbewahrung von Datenträgern in besonders gesicherten Räumen und ggf. auch die komplette Trennung vom Inter- und Intranet (Air Gap).

fiktive Beispiele

  • Sensible qualitative Interview-Daten

    Für die Aufzeichnung der Interviews werden Diktiergeräte mit Verschlüsselungsfunktion verwendet. Unmittelbar nach Abschluss der Interviews werden diese Audio-Dateien in den für das Projekt reservierten Bereich des Institutsservers kopiert und anschließend vom Diktiergerät gelöscht. Der Speicherbereich als Ganzes ist nach dem AES-256-Standard verschlüsselt. Alle am Projekt beteiligten Personen verfügen innerhalb dieses Bereiches über einen eigenen ebenfalls verschlüsselten Ordner, der nur mit einem persönlichen Passwort zu öffnen ist. Bei der täglichen Sicherung des Institutsservers durch den Backup & Restore-Dienst des LUIS werden somit nur verschlüsselte Dateien übertragen.

  • Patentrelevante technische Daten

    Gemäß der geschlossenen Geheimhaltungsvereinbarung liegen alle Konstruktionsdaten auf einem Server des Industriepartners. Ein Zugang ist nur online über einen VPN-Zugang nach vorheriger Autorisierung mit Nutzernamen und Passwort möglich. Weniger sensible Daten, die die Experimente am Institut betreffen, liegen auf einer verschlüsselten, für das Projekt reservierten Partition des Institutsservers. Auf diese Daten haben alle Projektbeteiligten gleiche Zugriffs- und Bearbeitungsrechte.

  • Public Domain Daten

    Alle Daten liegen im Cloudspeicher einer vom LUIS eingerichteten Projektablage (Projekt-Seafile). Die Cloudserver werden täglich automatisiert vom LUIS gesichert. Im Projekt werden ausschließlich öffentlich zugängliche und Copyright-freie Daten gesammelt und verarbeitet. Die im Projekt neu entstehenden Daten sollen ebenfalls unter einem Public Domain Mark veröffentlicht werden. Ein spezieller Schutz vor unbefugtem Zugriff ist daher nicht erforderlich.

4. Rechtliche Verpflichtungen und Rahmenbedingungen

  • Welche rechtlichen Besonderheiten bestehen im Zusammenhang mit dem Umgang mit Forschungsdaten in Ihrem Projekt?

    Beim Umgang mit Forschungsdaten oft betroffene Rechtsbereiche sind das Datenschutz- und Persönlichkeitsrecht sowie das Urheber- und das Patentrecht. Prüfen Sie vor dem Nachnutzen, Erheben, Verarbeiten, Auswerten und ggf. Archivieren und Veröffentlichen von Daten, ob und welche gesetzlichen Normen oder bestehende Vertragsbestimmungen betroffen sein können, damit sie diese nicht verletzen. Beachten Sie insbesondere Lizenzbedingungen, Einwilligungserklärungen, Geheimhaltungsvereinbarungen, Verträge zur Auftragsverarbeitung und Kooperationsverträge. Treffen Sie bei Bedarf auch selbst vertragliche Vereinbarungen. Sowohl beim Prüfen bestehender Rechtstexte als auch beim Aufsetzen neuer Verträge sollten Sie immer und unbedingt juristisches Fachpersonal hinzuziehen!

  • Sind Auswirkungen oder Einschränkungen in Bezug auf die spätere Veröffentlichung bzw. Zugänglichkeit zu erwarten?

    Grundsätzlich erwarten die meisten großen Förderorganisationen inzwischen, dass Daten aus den von ihnen geförderten Projekten öffentlich zur Nachnutzung zur Verfügung gestellt werden, sofern dem keine rechtlichen oder ethischen Gründe entgegenstehen. Der Zugang zu Daten muss aber auf jeden Fall eingeschränkt oder sogar ganz unterbunden werden, wenn ansonsten Rechte Dritter verletzt würden. Das ist zum Beispiel regelmäßig bei personenbezogenen Daten der Fall, sofern keine rechtswirksame Einwilligung der Betroffenen in eine Veröffentlichung vorliegt. Auch Geheimhaltungsvereinbarungen mit (Roh-)Datengebenden, bestimmte Lizenzbedingungen, kommerzielle Interessen oder ethische Erwägungen können eine Veröffentlichung ausschließen oder den Zugang einschränken. Wenn Sie neue Daten in Zusammenarbeit mit weiteren Personen generieren, sollten alle Beteiligten mit einer geplanten Veröffentlichung einverstanden sein. Es ist daher sinnvoll, schon vor Beginn eines Projekts einvernehmlich entsprechende schriftliche Vereinbarungen zu treffen.

  • Auf welche Weise werden nutzungs- und urheberrechtliche Aspekte sowie Eigentumsfragen berücksichtigt?

    Besonders wichtig ist in diesem Zusammenhang die konsequente Dokumentation von Datenquellen und Datenerzeugung, ggf. Lizenzbedingungen und Rechteinhaber*innen. Wenn Sie Daten aus fremden Quellen verarbeiten wollen, für die keine klaren Lizenzbedingungen oder sonstigen Nachnutzungsvereinbarungen bekannt sind, lassen Sie sich vor der Verwendung von den Rechteinhaber*innen schriftlich alle notwendigen Nutzungsrechte einräumen. Treffen Sie innerhalb Ihres Projekt-Teams vertragliche Vereinbarungen, inwieweit im Projekt erzeugte Daten von allem Beteiligten genutzt werden dürfen. Berücksichtigen Sie auch den Fall, dass Beteiligte vorzeitig das Projekt verlassen oder den Arbeitgeber wechseln. Wenn Sie selbst Daten veröffentlichen, versehen Sie diese mit einer Lizenz, in der die Bedingungen für eine Nachnutzung eindeutig und rechtsverbindlich formuliert sind.

  • Existieren wichtige wissenschaftliche Kodizes bzw. fachliche Normen, die Berücksichtigung finden sollten?

    Ein großer Teil der „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ nimmt Bezug auf den Umgang mit Forschungsdaten. Konkretere Anforderungen sind ggf. in fachspezifischen Richtlinien und Kodizes festgelegt, die jedoch nicht immer allgemein bekannt sind. Recherchieren Sie in jedem Fall, ob für Ihr Fach relevante Dokumente existieren, deren Inhalte Berücksichtigung finden sollten. Die DFG hat fachspezifische Empfehlungen zum Umgang mit Forschungsdaten zusammengestellt, die meist von den Fachkollegien oder großen Fachgesellschaften herausgegeben wurden. Auf forschungsdaten.info gibt es eine Unterseite zu FDM-Richtlinien, darunter auch disziplinspezifische. Eine weitere Zusammenstellung finden Sie bei forschungsdaten.org. Viele NFDI-Konsortien bieten inzwischen Helpdesks an, wo Sie sich ebenfalls nach aktuellen fachlich relevanten Normen erkundigen können.

fiktive Beispiele

  • Zusammenstellung von Textkorpora

    Im Projekt werden sowohl Auszüge aus veröffentlichten Texten als auch unveröffentlichtes Archivmaterial zusammengestellt und ausgewertet. In einer Zotero-Literatur-Datenbank werden zu allen Texten die Quellen, Rechteinhaber und Nutzungsbedingungen systematisch erfasst. Eine fachjuristische Prüfung hat ergeben, dass die Nutzung der veröffentlichten Texte in der in diesem Projekt vorgesehenen Form durch die Schranken des Urheberrechts gedeckt ist. Dagegen variieren die Bedingungen für die Nutzung des unveröffentlichten Materials je nach Archiv und ggf. weiteren Rechteinhabern, insbesondere den Autor*innen oder deren Erben. Es wird versucht, mit den jeweiligen Parteien vertragliche Vereinbarungen zu treffen, die nicht nur eine Auswertung, sondern auch eine Veröffentlichung dieser Texte zulässt, ggf. in veränderter Form (z.B. anonymisiert oder paraphrasiert).

  • Tierversuche an Mäusen

    Für die Durchführung des Projekts sind Versuche an Mäusen unerlässlich. Dafür wird beim Niedersächsischen Landesamt für Verbraucherschutz und Lebensmittelsicherheit eine entsprechende Genehmigung beantragt. Aus ethischen Gründen beschränken wir gemäß den 3R-Prinzipien die Anzahl der Versuche und der dabei eingesetzten Tiere auf das absolut notwendige Minimum. Die Versuche sind so angelegt, dass die Tiere möglichst geringem Stress und Schmerzen ausgesetzt sind. Die insgesamt 20 benötigten Tiere der patentierten Zuchtlinie C57BL/6J werden entsprechend der Lizenzbedingungen der Firma TACONIC BIOSCIENCES verwendet und gehalten.

  • Prototyp mit externen technischen Komponenten

    Gemäß den Förderbedingungen für diese Ausschreibung werden die Baupläne für die im Projekt entwickelte neuartige Windkraftanlage unter offenen Lizenzen wie MIT oder CC0 veröffentlicht und können somit auch kommerziell unentgeltlich genutzt werden. Einige der verbauten Komponenten stammen jedoch von externen Herstellern und unterliegen deren Lizenzbestimmungen. Die genauen Schaltpläne für diese noch nicht patentierten Teile wurden dem Projekt von den Herstellern unter der Bedingung der Geheimhaltung und Nichtweitergabe zur Verfügung gestellt. Die zur Veröffentlichung vorgesehenen Pläne und technischen Beschreibungen stellen diese Komponenten daher nur als Ganzes und ohne Details zum inneren Aufbau dar. Sie werden zudem vor der Veröffentlichung den externen Herstellern zur Prüfung vorgelegt.

5. Datenaustausch und dauerhafte Zugänglichkeit der Daten

  • Welche Daten bieten sich für die Nachnutzung in anderen Kontexten besonders an?

    Besonders häufig werden Daten in Folgeprojekten nachgenutzt, in denen die personelle Zusammensetzung ähnlich ist, wie in den Projekten, in denen sie entstanden sind. Hinzu kommen Forschungsvorhaben von Dritten mit einer ähnlichen Thematik. Bedenken Sie aber auch die Möglichkeit, Daten in vergleichenden Überblicksstudien oder auch fachlich völlig anderen Kontexten nachzunutzen, zum Beispiel zum Trainieren eines KI-Modells. Gerade für solche Szenarien ist es wichtig, dass Ihre Daten in möglichst generischen, offenen, maschinenlesbaren Standard-Formaten vorliegen und so dokumentiert sind, dass ihr Aufbau und Zustandekommen auch für fachfremde Personen nachvollziehbar sind.

  • Nach welchen Kriterien werden Forschungsdaten ausgewählt, um diese für die Nachnutzung durch andere zur Verfügung zu stellen?

    Sofern keine rechtlichen oder ethischen Gründe dagegensprechen, Daten zur Nachnutzung zur Verfügung zu stellen, könnten zum Beispiel folgende Kriterien relevant sein:

    • Die Daten werden benötigt, um veröffentlichte Forschungsergebnisse unabhängig prüfen und reproduzieren zu können (gute wissenschaftliche Praxis).
    • Die Daten sind einmalig/einzigartig und könnten nicht in derselben Form erneut erhoben werden.
    • Die Daten sind möglicherweise für weitere Forschungsprojekte (auch aus anderen Fächern) interessant und könnten darin sinnvoll nachgenutzt werden.
    • Die Daten sind qualitätsgeprüft und gut dokumentiert.
    • Ihre Forschung basiert auf Daten, die Sie von anderen Personen oder Projekten unter der Bedingung bekommen haben, dass Sie später Ihre eigenen Daten ebenfalls für die (freie) Nachnutzung zur Verfügung stellen.

    Im Zweifel stellen Sie möglichst alle Daten zur Verfügung, wenn es rechtlich zulässig und vom Volumen her technisch und wirtschaftlich möglich ist.

  • Planen Sie die Archivierung Ihrer Daten in einer geeigneten Infrastruktur? Falls ja, wie und wo?

    Daten, die für das Nachvollziehen von Forschungsergebnissen relevant sind, müssen in der Regel mindestens zehn Jahre lang sicher aufbewahrt werden. Dafür bieten sich professionelle Datenarchive an, in denen Daten redundant gespeichert und automatisiert auf Integrität geprüft werden (Bitstream Preservation). Die Speichermedien selbst werden regelmäßig erneuert. Auf diese Weise ist das Risiko eines Datenverlusts durch defekte Datenträger und korrupte Dateien minimal. Das LUIS betreibt ein solches Datenarchiv, das von allen LUH-Angehörigen genutzt werden kann. Daten, die in einem vertrauenswürdigen Repositorium veröffentlicht wurden, benötigen nicht zwingend eine weitere Archivierung, da solche Repositorien grundsätzlich denselben technischen Anforderungen genügen sollten, wie reine Datenarchive. Für eine Archivierung definitiv ungeeignet sind dagegen handelsübliche externe Speichermedien wie Festplatten, DVDs etc. Die Medien degenerieren mit der Zeit, was zu korrupten und nicht mehr lesbaren Dateien führen kann.

  • Gibt es Sperrfristen? Wann sind die Forschungsdaten für Dritte nutzbar?

    Wenn die Auswertung der Daten auch nach Projektende noch nicht abgeschlossen ist, kann es dennoch sinnvoll sein, diese Daten bereits in ein Datenrepositorium zu laden, sie jedoch mit einem Embargo (Sperrfrist) zu versehen. Dann ist ein öffentlicher Zugriff erst nach Ablauf dieser Zeitspanne möglich. Der Vorteil ist, dass Sie sich nach Projektende nicht mehr um die Datenpublikation kümmern müssen, da diese zur festgelegten Zeit automatisch erfolgt. Allerdings bieten nicht alle Repositorien die Möglichkeit, eine Sperrfrist anzugeben. Die Embargofrist sollte üblicherweise ein Jahr nicht überschreiten.

fiktive Beispiele

  • Archivierung qualitativer Daten

    Die Audioaufnahmen der Interviews werden bei Projektende gelöscht, da sie schwer zu anonymisieren sind und in diesem Fall keinen Mehrwert gegenüber den Transkripten bieten. Die anonymisierten Transkripte werden im Forschungsdatenzentrum für qualitative sozialwissenschaftliche Forschungsdaten (Qualiservice) archiviert. Gemäß der von den Betroffenen unterschriebenen informierten Einwilligungserklärung dürfen diese Daten nur zu Forschungszwecken nachgenutzt werden. Qualiservice fungiert daher als Datentreuhänder und gibt die Daten nur nach einer sorgfältigen Prüfung auf das Vorliegen eines begründeten Forschungsinteresses und nach Abschluss einer vertraglichen Vereinbarung heraus.

  • Publikation von Simulationsdaten

    Der Code und die Algorithmen, die für die Reproduktion der Simulationen benötigt werden, liegen in GitHub repositories, die in Zenodo archiviert werden. Sie erhalten so einen DOI, der wiederum in Fachartikeln und auf der Webseite des Projekts angegeben werden kann. Die Simulationsergebnisse selbst werden nicht aufbewahrt, da sie sehr viel Speicherplatz benötigen, bei Bedarf aber mithilfe des Codes schnell und einfach neu erzeugt werden können.

  • Publikation mit Embargo

    Die im Projekt erzeugten Bobachtungsdaten sind einmalig und nicht reproduzierbar. Sie sind grundsätzlich geeignet, in künftigen Langzeit- und Vergleichsstudien nachgenutzt zu werden. Die Projektbeteiligten sollen daher alle ihrer Forschung zugrundeliegenden Daten zum Ende der Projektlaufzeit zur Veröffentlichung unter einer offenen Lizenz in ein etabliertes Fachrepositorium laden. Sofern die Auswertung zu diesem Zeitpunkt noch nicht abgeschlossen ist, können Sie die Daten mit einem Embargo von maximal zwölf Monaten versehen. Während dieser Frist ist der öffentliche Zugriff dann noch nicht möglich.

6. Verantwortlichkeiten und Ressourcen

  • Wer ist verantwortlich für den adäquaten Umgang mit den Forschungsdaten (Beschreibung der Rollen und Verantwortlichkeiten innerhalb des Projekts)?

    In letzter Konsequenz ist in einem Forschungsprojekt die jeweilige Leitung für einen angemessenen Umgang mit Forschungsdaten verantwortlich. Sie kann und sollte jedoch Aufgaben und Verantwortlichkeiten delegieren, zum Beispiel an Principal Investigators, Promovierende oder studentische Hilfskräfte. Je nach Projektgröße und Komplexität des Datenmanagements kann es sinnvoll sein, eine Person einzustellen, die die Rolle eines Data Stewards einnimmt und sich hauptamtlich um die Verwaltung und Dokumentation der Daten, aber auch um Aufbau und Betrieb der dafür notwendigen Systeme kümmert. Die Betreiber von Speicherinfrastrukturen sollten deren sicheren Betrieb gewährleisten. Externe Dienstleister sollten per Vertrag zur Auftragsverarbeitung zu Vertraulichkeit und der Einhaltung von Sicherheitsstandards verpflichtet werden.

  • Welche Ressourcen (Kosten; Zeit oder anderes) sind erforderlich, um einen adäquaten Umgang mit Forschungsdaten im Projekt umzusetzen?

    Für das Datenmanagement werden hauptsächlich Ressourcen aus den Bereichen Personal, Infrastruktur und externe Dienstleistungen benötigt. Die entsprechenden Kosten sollten unbedingt von Anfang an realistisch abgeschätzt, im Budget eingeplant und ggf. beantragt werden. Ein hauptamtlicher Data Steward könnte zum Beispiel einer TVL-13-Stelle entsprechen. Schwieriger wird die Kalkulation, wenn das Datenmanagement vollständig durch das wissenschaftliche Personal geleistet werden soll, das dafür dann einen Teil seiner Arbeitszeit reservieren muss. Auf der Infrastrukturseite sollte der kurz- und langfristige Speicherplatzbedarf bedacht werden. Hier können nicht nur das Volumen, sondern auch spezielle Anforderungen, zum Beispiel an die Sicherheit, die Kosten erhöhen. Nicht immer ist ausreichend adäquate Infrastruktur über die universitäre Grundausstattung verfügbar. Externe Dienstleistungen können mitunter schon bei der Datenakquise und -aufbereitung in Anspruch genommen werden. Am häufigsten dürften aber die langfristige Archivierung, Kuratierung und ggf. öffentliche Bereitstellung von Daten in externen Archiven und Repositorien Kosten verursachen.

  • Wer ist nach Ende der Laufzeit des Projekts für das Kuratieren der Daten verantwortlich?

    Auf der einfachsten Ebene bedeutet eine Kuratierung eine simple Bitstream Preservation, also die Garantie, dass Dateien unverändert erhalten bleiben. Wenn die Daten in einem professionellen Repositorium oder Datenarchiv liegen, sind dafür die entsprechenden Infrastrukturbetreiber verantwortlich. Die Projektleitung sollte dafür Sorge tragen, dass alle relevanten Daten bei Projektende in solchen Einrichtungen abgelegt werden. Dagegen kann eine aktive Kuratierung beispielsweise auch eine Qualitätsprüfung, eine Anreicherung und Prüfung der Metadaten und das regelmäßige Konvertieren in neuere Dateiformate beinhalten. Einige Repositorien und Archive bieten solche Dienstleistungen (kostenpflichtig) an. Eine langfristige Datenkuratierung in Eigenregie ist eher nicht anzuraten.

fiktive Beispiele

  • Verbundprojekt mit Data Steward

    Die Verantwortlichkeiten zum Umgang mit Forschungsdaten werden in einer internen Richtlinie des Verbundprojekts näher ausgeführt. Aus dem Kreis der PIs wird Prof. X als Hauptansprechperson für das Thema gegenüber dem Förderer und externen Anfragen benannt. Es wird eine TV-L 13 Vollzeitstelle für eine/n Datenmanager*in beantragt, die/der die verbundweit gemeinsam genutzten Systeme zur Daten- und Wissensverwaltung konfiguriert und betreut und allen Verbundmitgliedern als Ansprechperson für praktische Fragen zur Verfügung steht. Das Rechenzentrum der Universität Y stellt dafür die technische Infrastruktur inklusive der Backup-Server zur Verfügung und ist für deren technische Funktionsfähigkeit und Sicherheit verantwortlich. Für die korrekte Verarbeitung, Dokumentation und Speicherung von Daten an den einzelnen am Verbund beteiligten Standorten sind vor Ort die jeweiligen Teilprojektleitungen verantwortlich, bzw., für den technischen Betrieb, die Infrastrukturbetreiber.

  • Nachwuchsgruppe, großes Datenvolumen

    Die Antragstellerin ist für das Datenmanagement insgesamt verantwortlich. Sie leitet die Promovierenden ihrer Nachwuchsgruppe an und prüft im Projektverlauf stichprobenartig, ob diese ihre Daten gemäß dem Datenmanagementplan benannt, abgelegt und dokumentiert haben. Aufgrund des erwarteten Datenvolumens von ca. 5 TB ist ein Entgelt für die Nutzung des Cloud-Dienstes High-Seas zu entrichten, der vom LUIS betrieben wird. Das Entgelt wird im Schnitt ca. 500 Euro pro Jahr und über die vierjährige Projektlaufzeit somit ca. 2.000 Euro betragen. Die Daten werden zum Projektende in den offenen und langfristig lesbaren Dateiformaten csv, tiff und png in dem etablierten Fachrepositorium Pangaea veröffentlicht, das vom Alfred-Wegener-Institut (AWI) betrieben wird. Das AWI ist somit auch für den langfristigen Erhalt und die Verfügbarkeit der Daten verantwortlich. Über die reine Bistream Preservation hinaus ist keine Kuratierung der Daten erforderlich.

  • Ein-Personen-Projekt mit externer Datenkuratierung

    Der Antragsteller verantwortet den fachlich, rechtlich und technisch korrekten Umgang mit den im Projekt verarbeiteten Forschungsdaten. Er führt alle Verarbeitungs- und Dokumentationsschritte selbst durch. Dafür veranschlagt er etwa 10% seiner wöchentlichen Arbeitszeit. Bei Bedarf kann er eine fachliche Beratung durch das zentrale Service-Team Forschungsdaten der LUH oder den Helpdesk des NFDI-Konsortiums X in Anspruch nehmen. Für den technischen Betrieb und die Sicherheit des als Speicherort genutzten Institutsservers ist der IT-Administrator des Instituts für Y zuständig. Betrieb und Sicherheit der Backup-Server werden vom LUIS gewährleistet. Bei Projektende erfolgt eine abschließende Qualitätsprüfung, langfristige Kuratierung und Veröffentlichung der Daten über den kostenpflichtigen GESIS Datenservice „Archivierung Premium“. Ein entsprechendes Angebot über XXX Euro wurde eingeholt.