Harmoniserung

Datenharmonisierung - Bereits erhobene Daten nachnutzbar machen

Weltweit existieren wertvolle Datenbestände der Gesundheitsforschung, deren Nachnutzung ein großes Potenzial für die Beantwortung neuer Forschungsfragen birgt. Da sich Erhebung und Dokumentation von Forschungsdaten im Laufe der Zeit gewandelt haben und sich generell zwischen Studien unterscheiden können, sind diese Daten nicht immer miteinander kompatibel. Um bereits erhobene Forschungsdaten trotzdem studienübergreifend analysieren zu können, stellt NFDI4Health eine Harmoniserungsstragtegie zur Verfügung.

Image

Hintergrund

Um Forschungsdaten über Studien hinweg auffindbar und nutzbar zu machen, gibt es zwei Ansätze. Zum einen können Forschungsdaten anhand eines international anerkannten Standards einheitlich erfasst werden. Das ist vor allem bei Studien, die neu aufgesetzt werden, eine gute Herangehensweise. Zu diesem Zweck wurden in NFDI4Health unter Zusammenarbeit von Standardisierungsexperten Services eingerichtet, die Nutzende unterstützen sollen, ihre Forschungsdaten gemäß bestehender Terminologien zu beschreiben (Terminologie Service) und zu katalogisieren (Annotation Workbench). Darüber hinaus gibt es aber in der deutschen Forschungslandschaft eine Vielzahl an populationsbasierten Studien, bei denen die Datenerfassung vor sehr langer Zeit begonnen und zum Teil bereits abgeschlossen wurde. Diese unterscheiden sich mitunter deutlich in der Art und Weise, wie sie Forschungsdaten erfasst und dokumentiert haben. Um die gesammelten Forschungsdaten in zukünftigen studienübergreifenden Analysen einsetzen zu können - sie also interoperabel und nachnutzbar zu machen - bedarf es einer nachträglichen Harmonisierungsstrategie.

Unser Service

Der von NFDI4Health entwickelte Service hilft Analyst:innen und datenhaltenden Instituten dabei, Daten zeitsparend und mit wenig Personalaufwand zu harmonisieren. Konzeptionell orientiert sich die Strategie an bereits bestehenden Abläufen der kanadischen Maelstrom Research Group. Die verwendeten Templates zur Metadatensammlung, zur Bestimmung des Harmonisierungspotentials und zur Anwendung entsprechender Harmonisierungsregeln wurden für den Kontext unserer nationalen Kohortenstudien angepasst. Der gesamte Arbeitsablauf mit detaillierten Beschreibungen der einzelnen Schritte ist im eigens entwickelten Harmonisierungsprotokoll beschrieben. Damit die Forschungsdaten in den datenhaltenden Studien lokal harmonisiert werden können, ohne dass diese das jeweilige Institut verlassen müssen, haben wir Funktionalitäten des genutzten R Paketes Rmonize in ein flexibles vollumfängliches R Projekt integriert. Der Service ermöglicht, den Arbeitsaufwand auf Seite der datenhaltenden Studien auf ein Minimum zu reduzieren und eine reibungslose Durchführung der Harmonisierung durch vorheriges Testen zu gewährleisten. Lediglich die Erstellung des Original-Datensatzes und die Ausführung des Harmonisierungs-Skripts obliegt den Studien. Im Anschluss an die erfolgreiche Durchführung, wird neben einem Harmonisierungsbericht, der zur Überprüfung der Korrektheit der harmonisierten Forschungsdaten verwendet werden kann, auch ein Opal-kompatibles ‘Data Dictionary‘ sowie der harmonisierte Datensatz erstellt. Die letztgenannten beiden Dokumente können anschließend in studieninternen, aber auch studienübergreifenden Projekten, z.B. mittels DataSHIELD, genutzt werden.

Kontakt: Dr. Franziska Jannasch (DIfE) und Florian Schwarz (DIfE)

Workflow

  1. Analyst:innen listen anhand ihrer Forschungsfrage die benötigten Forschungsdaten im sogenannten projekt-spezifischen Target Data Schema. Falls vorhanden, werden zur Beschreibung der Forschungsdaten existierende Standards verwendet.

  2. Analyst:innen erfragen bei den Datenhaltenden der Studie, ob die benötigten Forschungsdaten erhoben wurden und falls ja, ob sie diese genauer beschreiben können hinsichtlich ihrer Erhebung, Formate, Einheiten usw. (eventuell muss das Target Data Schema abhängig von der Verfügbarkeit von Variablen anschließend angepasst werden).

  3. Dann erstellen die Analyst:innen das studien-spezifische Data Dictionary, welches die erfragten Variablen enthält mit ihren Beschreibungen, Einheiten und Kategorien.

  4. Ausgehend von den definierten Variablen im Target Data Schema und den studien-spezifischen Variablen legen die Analyst:innen für jede Variable das Harmonisierungspotential (vollständig, teilweise, unmöglich) fest und bestimmen daran angepasste Harmonisierungsregeln.

  5. Das R Skript wird gemäß den Gegebenheiten der Studie leicht angepasst, um den Aufwand für die Datenhaltenden so gering wie möglich zu halten.

  6. Die in den Punkten 1, 3 und 4 erstellten Templates werden dann zusammen mit dem R Skript, in dem die Rmonize Funktionen eingebettet sind, an die Studie in einem R Projekt geschickt. Die Studie wird gebeten, einen Datensatz mit den studien-spezifischen Forschungsdaten bereitzustellen.

  7. Nach der erfolgreichen Ausführung des R Skripts wird ein Harmonisierungsbericht sowie der harmonisierte Datensatz ausgegeben. Zusätzlich wird eine Datei für die optionale Weiterverwendung in DataSHIELD erstellt.

Image
Wir benutzen Cookies

Wir verwenden erforderliche Drittinhalte (z.B. Scriptbibliotheken) um die Funktion unserer Seite zu gewährleisten. Wenn Sie dies nicht möchten, besuchen Sie unsere Seite bitte nicht.

Auf unserer Seite betten wir Drittinhalte von anderen Anbietern ein (z.B. Social Plugins, Kartendienste, externe Schriftarten). Wir haben auf die weitere Datenverarbeitung und ein etwaiges Tracking durch den Drittanbieter keinen Einfluss.

Wir setzen in diesem Rahmen auch Dienstleister in Drittländern außerhalb der EU ohne angemessenes Datenschutzniveau ein, was folgende Risiken birgt: Zugriff durch Behörden ohne Information, keine Betroffenenrechte, keine Rechtsmittel, Kontrollverlust.

Mit Ihrer Einstellung willigen Sie in die oben beschriebenen Vorgänge ein. Sie können Ihre Einwilligung mit Wirkung für die Zukunft widerrufen. Mehr Informationen finden Sie in unserer Datenschutzerklärung.