2 - Datenorganisation

Version 46.10 von Gabriele Nicole Stiller am 2025/05/07 14:05

2025-02-11_Datenorganisation_Ordnerstruktur.jpg

1. Ordner- / Verzeichnisstruktur

Ein erster Schritt um effizient mit Daten umzugehen, ist die Erstellung und Nutzung einer klaren Struktur. Zu einer effizienten Datenorganisation gehören grundlegende Punkte wie die Verwendung einer Ordnerstruktur. Jeder Ordner enthält Daten, die strukturell oder inhaltlich zusammengehören und sollte entsprechend benannt werden. Eine Benennung der Ordner nach Mitarbeiterinnen und Mitarbeitern ist nicht zu empfehlen, da nicht sofort ersichtlich ist, was sich in einem solchen Ordner verbirgt. Am besten geeignet, weil am übersichtlichsten, ist eine Ordnerhierarchie mit nicht mehr als 2-3 Ebenen. Um die Anzahl der Ordner und Unterordner so gering wie möglich zu halten, empfiehlt es sich, nach jedem Projekt zu überprüfen, welche Daten und damit Ordner aufbewahrt werden müssen und welche gelöscht werden können.

1.1 Readme-Template

ReadMe-Dateien enthalten in kompakter und strukturierter Form Informationen zu Forschungsdaten, Forschungsdatensätzen oder Forschungsdatensammlungen und liegen häufig als einfache Textdatei oder in TEI-xml (.txt; .md; .xml) vor. In diesem Zusammenhang können ReadMe-Dateien begleitend zu Forschungsdaten publiziert werden oder der strukturierten Ablage von Forschungsdaten am Ende eines Projektes dienen (z.B. auf einem Institutsserver oder einem Repositorium zur Archivierung). ReadMe-Dateien sammeln zentrale Metadaten zum Projekt, in dem die Daten entstanden sind (z.B. Projektname, beteiligte Personen, Förderung), geben Auskunft über verwendete Benennungsstandards, Ordnerstrukturen, Abkürzungen und Normdaten und protokollieren Änderungen und Versionierungen von Forschungsdaten.

1.2 Benennungskonvention

  • Einheitliches Schema
  • Bezug zum Inhalt
  • kurze Namen bevorzugen
  • Leer- und Sonderzeichen sowie Umlaute vermeiden
  • Namenskonventionen und verwendete Abkürzungen dokumentieren

Mögliche Bestandteile

Datum (z.B. ISO 8601 JJJJ-MM-TT)

Projektnummer

Kurztitel

Name oder Namenskürzel

Forschungsgruppe

Versionsnummer

Beispiel

[Datum]_[Titel]_[Namenskuerzel]_[Version].pdf 

2025-02-28_Quartalsbericht_GS_v1.pdf

1.3 Versionierung

Bei der Arbeit mit Daten verändern sich diese zwangsläufig. Es empfiehlt sich, die jeweiligen Arbeitsstände mit Hilfe von Versionierungen zu kennzeichnen und so nachvollziehbar zu machen. Hierfür sollte ein vorher festgelegtes, einfach verständliches Versionierungsschema (z. B. Version 1.3 oder Version 2.1.4) genutzt werden. Die Versionierung von Daten kann dabei entweder händisch oder mittels Versionierungssoftware wie git erfolgen.

Information

Versioniert werden sollte zum einen während des Forschungsprozesses selbst, etwa um verschiedene Arbeitsversionen von Daten zu kennzeichnen, zum anderen bei nachträglichen Veränderungen an bereits veröffentlichten Forschungsdatensätzen, um Nachnutzenden zu ermöglichen, die korrekte Version eines Forschungsdatensatzes zu zitieren.

  • Sequentielle Nummerierung verwenden
  • Datum und Versionsnummer in die Benennung einbeziehen
  • Nutzung einer Versionskontrolltabelle
  • Verantwortlichkeit für die Fertigstellung von Dateien festlegen
  • Bei großen Datenmengen ggf. Versionsverwaltungs-Software verwenden
  • Meilenstein-Versionen speichern

Werkzeuge für gleichzeitige Umbenennung

WindowsMacLinuxUnix 
Rename command (rename, mv)

2. FDM-Workflow

Ein FDM-Workflow ist eine Abfolge wiederholbarer Prozesse, die Forschungsdaten während ihres Lebenszyklus durchlaufen. Dazu gehören Aktivitäten, die bei der Erhebung, Kuratierung und Aufbewahrung sowie bei der Bereitstellung und einer möglichen späteren Entsorgung durchgeführt werden. Diese Definition kann auch auf Aktivitäten erweitert werden, die vor der Erstellung der Forschungsdaten stattfinden. Dazu gehören beispielsweise die FDM-Planung oder auch die Erstellung von Datenmanagementplänen für Förderanträge. Eine klar dokumentierte Workflowstruktur erleichtert die Übersicht, hilft Fehler, wie das Überspringen notwendiger Schritte, zu vermeiden und unterstützt die Datenverwertung insgesamt. Auch die Einarbeitung neuer Mitarbeiterinnen und Mitarbeiter wird erleichtert. Ein möglicher Workflow könnte so aussehen:

ProjektbeginnProjektlaufzeitArchivierungVeröffentlichungNachnutzung
  • Datenmanagementplan erstellen
  • Datenmodellierung planen
  • Daten zusammenstellen
  • Analyse der Daten in einen standardisierten Ablauf bringen
  • Datendokumentation durch Vergabe von Metadaten (technische, bibliographische)
  • Erstellung kollaborativer bzw. virtueller Forschungsumgebungen
  • Visualisierung der Daten
  • Datensicherung (z. B. durch Backups)
  • Festlegen, welche Daten archiviert werden
  • Metadatenvergabe abschließen und dokumentieren
  • nachhaltige Datenformate und -träger ermitteln
  • Zuständigkeiten für die Überführung in das Archiv festlegen
  • Publikationsmedium festlegen: Möglichkeiten für Open-Access-Publikation abklären
  • Forschungsprimärdaten abrufbar gestalten (z. B. in einem Repositorium)
  • Zitierbarkeit der Daten durch Persistent Identifier gewährleisten
  • Langfristige Verfügbarkeit und Zitierbarkeit garantieren
  • Abklären rechtlicher Aspekte (Urheberrecht, Datenschutz)
  • mögliche Sperrfristen berücksichtigen

Weiterführende Informationen zum Datenmanagement in größeren Projekten:  Data URI image Data URI image Data URI image https://doi.org/10.5281/zenodo.14192668 Data URI imageData URI image Data URI image Data URI image Data URI image Data URI image Data URI image

Anstelle eines manuellen und arbeitsintensiven FDM kann der Workflow eines FDM mit Hilfe von Tools automatisiert werden.


3. Werkzeuge und Tools

3.1 Speicherlösung für kollaboratives Arbeiten

Als Speicherlösung für kollaboratives Arbeiten bietet das Rechenzentrum Nextcloud an: https://cloud.sonia.de/ 

Der bisherige Sync & Share Dienst PowerFolder wird am 31.12.2025 abgeschaltet. 

Das Backupsystem des RZ, ermöglicht regelmäßige und automatisierte Datensicherung von Servern und Rechnern. Ein Backup wird dadurch sichergestellt, dass die Daten auf unterschiedliche Medien an unterschiedlichen Standorten verteilt versioniert gespeichert werden, so dass die Wiederherstellbarkeit im Falle eines ungewollten Datenverlustes für einen bestimmten Zeitraum gegeben ist.

3.2 Teilen große Datenmengen

Gemeint sind hier Softwarelösungen um große Dateien an jemanden zu senden, diese Datei für eine bestimmte Anzahl von Downloads und/ oder eine bestimmte Zeitspanne zum Herunterladen zur Verfügung zu stellen und die Datei danach automatisch zu löschen. Sie sind nicht als dauerhafte Plattform zur Veröffentlichung von Dateien gedacht.

3.3 Academic Cloud Services

Über den individuellen Ostfalia-Account kann man Dienste und Tools in der Academic Cloud nutzen.

Nach Anmeldung unter https://academiccloud.de/services/ erscheint eine Übersicht über alle freigeschalteten Dienste:

 

Übersicht der Academic Cloud Dienste mit Ostfalia-Account

Screenshot mit Stand 07.05.2025

AC DienstBeschreibung 
Academic Cloud HubSoziales Netzwerk (ähnlich Facebook)
ActionboundLearning App
BigBlueButtonVideokonferenz-System
Chat AIAI Chatbot
ChemotionElektronisches Laborbuch
Cocalc 
CollaboardWhiteboard
GitLabSoftwareentwicklungs und Versionierungsverwaltungssoftware
GRO.dataRepositorium
GRO.PlanSoftware zur Erstellung eines Datenmanagementplans
Indicowebbasierte Cloud-Computing-(SaaS) und Kursmanagement-Plattform
JupyterCoding-Software
LimeSurveyOnline-Umfrage-Tool
MastodonSoziales Netzwerk 
MatrixMessenger App
Open Research Knowledge GraphDatenrepräsentations-Tool
OpenProjectProjektmanagement-Tool
ownCloudCloudspeicher
PadMarkdown-Editor
ShareLaTeXLaTeX-Editor
URL shortenerLink-Kürzung
Voice AIPlattform für das Transkribieren und Übersetzen von Audiodateien