Accessibility Tools

Sprache auswählen

Sprache auswählen

Synthetische Daten

Simulierte Datensätze für Forschung und Entwicklung

Gesundheitsforschung lebt vom Austausch hochwertiger Daten, steht dabei jedoch vor hohen datenschutzrechtlichen Anforderungen. Synthetische Daten eröffnen neue Möglichkeiten, indem sie reale Datenstrukturen nachbilden. NFDI4Health unterstützt Forschende mit Methoden und Werkzeugen zur Generierung, Bewertung und Visualisierung synthetischer Daten.

Image

Hintergrund

Das Teilen von Daten in der Gesundheitsforschung ist aufgrund hoher datenschutzrechtlicher Anforderungen häufig schwierig und zeitaufwendig. Die Folge sind Datensilos, in denen forschungsrelevante Daten Organisationen nicht oder nur eingeschränkt verlassen können. Synthetische Daten bieten hierfür einen möglichen Lösungsansatz: Als künstlich erzeugte Datensätze versuchen sie die statistischen und strukturellen Eigenschaften realer Daten abzubilden, ohne Rückschlüsse auf patientenspezifische, sensible Daten zuzulassen. Dadurch können synthetische Daten potenziell einfacher geteilt werden und ermöglichen die Simulation von Analysen und Experimenten in Szenarien, in denen der Zugriff auf Realdaten nicht oder nur sehr eingeschränkt möglich ist. NFDI4Health unterstützt Forschende mit Methoden zur synthetischen Datengenerierung sowie mit Werkzeugen zur Bewertung von realitätsnahen möglichen Risiken aus Sicht des Datenschutzes und Visualisierung synthetischer Daten.

VAMBN – Generierung synthetischer Daten

VAMBN (Variational Autoencoder Modular Bayesian Networks) ist ein hybrider, generativer KI-Ansatz zur synthetischen Datengenerierung und wurde speziell entwickelt, um heterogene und longitudinal erfasste Studiendaten realistisch abzubilden und synthetisch zu generieren. VAMBN ermöglicht es Forschenden, komplexe Zusammenhänge zwischen Variablen über die Zeit hinweg zu modellieren und neue Datensätze zu erzeugen, die statistisch ähnlich zu den Originaldaten sind.

Syndat – Bewertung synthetischer Daten

Die Qualität synthetischer Daten hängt stark vom gewählten KI-Modell sowie von den statistischen Eigenschaften der zugrunde liegenden Realdaten ab. Die Analyse und Bewertung synthetischer Daten kann ein aufwendiger Prozess sein; zudem besteht für die quantitative Bewertung synthetischer Daten bislang kein wissenschaftlicher Konsens. Syndat ist ein Tool, das darauf ausgelegt ist, Forschende bei der systematischen Bewertung synthetischer Daten hinsichtlich ihrer Ähnlichkeit zu Realdaten, sowie hinsichtlich möglicher datenschutzbezogener Risiken zu unterstützen. Syndat ist sowohl als Python-Bibliothek für Datenwissenschaftler verfügbar, als auch für andere Benutzergruppen als interaktives, webbasiertes Dashboard.

Relevante Publikationen

Gootjes-Dreesbach L, Sood M, Sahay A, Hofmann-Apitius M, Fröhlich H. Variational Autoencoder Modular Bayesian Networks (VAMBN) for Simulation of Heterogeneous Clinical Study Data. Front Big Data Med Public Health. 2020;3:16. https://doi.org/10.3389/fdata.2020.00016
Kühnel L, Schneider J, Perrar I, Moazemi S, Prasser F, Nöthlings U, Fröhlich H, Fluck J. Synthetic data generation for a longitudinal cohort study - Evaluation, method extension and reproduction of published data analysis results. Sci Rep. 2024;14:14412. https://doi.org/10.1038/s41598-024-62102-2
Adams T, Birkenbihl C, Otte K, Ng HG, Rieling JA, Näher AF, ... Fröhlich H. On the fidelity versus privacy and utility trade-off of synthetic patient data. iScience. 2025;28(5):112382. https://doi.org/10.1016/j.isci.2025.112382
Moazemi S, Adams T, Ng HG, Kühnel L, Schneider J, Näher AF, ... Fröhlich H. NFDI4Health workflow and service for synthetic data generation, assessment and risk management. Stud Health Technol Inform. 2024;317:21–29. doi:10.3233/SHTI240834

Wir benutzen Cookies

Wir verwenden erforderliche Drittinhalte (z.B. Scriptbibliotheken) um die Funktion unserer Seite zu gewährleisten. Wenn Sie dies nicht möchten, besuchen Sie unsere Seite bitte nicht.

Auf unserer Seite betten wir Drittinhalte von anderen Anbietern ein (z.B. Social Plugins, Kartendienste, externe Schriftarten). Wir haben auf die weitere Datenverarbeitung und ein etwaiges Tracking durch den Drittanbieter keinen Einfluss.

Wir setzen in diesem Rahmen auch Dienstleister in Drittländern außerhalb der EU ohne angemessenes Datenschutzniveau ein, was folgende Risiken birgt: Zugriff durch Behörden ohne Information, keine Betroffenenrechte, keine Rechtsmittel, Kontrollverlust.

Mit Ihrer Einstellung willigen Sie in die oben beschriebenen Vorgänge ein. Sie können Ihre Einwilligung mit Wirkung für die Zukunft widerrufen. Mehr Informationen finden Sie in unserer Datenschutzerklärung.