Simulierte Datensätze für Forschung und Entwicklung
Gesundheitsforschung lebt vom Austausch hochwertiger Daten, steht dabei jedoch vor hohen datenschutzrechtlichen Anforderungen. Synthetische Daten eröffnen neue Möglichkeiten, indem sie reale Datenstrukturen nachbilden. NFDI4Health unterstützt Forschende mit Methoden und Werkzeugen zur Generierung, Bewertung und Visualisierung synthetischer Daten.

Hintergrund
Das Teilen von Daten in der Gesundheitsforschung ist aufgrund hoher datenschutzrechtlicher Anforderungen häufig schwierig und zeitaufwendig. Die Folge sind Datensilos, in denen forschungsrelevante Daten Organisationen nicht oder nur eingeschränkt verlassen können. Synthetische Daten bieten hierfür einen möglichen Lösungsansatz: Als künstlich erzeugte Datensätze versuchen sie die statistischen und strukturellen Eigenschaften realer Daten abzubilden, ohne Rückschlüsse auf patientenspezifische, sensible Daten zuzulassen. Dadurch können synthetische Daten potenziell einfacher geteilt werden und ermöglichen die Simulation von Analysen und Experimenten in Szenarien, in denen der Zugriff auf Realdaten nicht oder nur sehr eingeschränkt möglich ist. NFDI4Health unterstützt Forschende mit Methoden zur synthetischen Datengenerierung sowie mit Werkzeugen zur Bewertung von realitätsnahen möglichen Risiken aus Sicht des Datenschutzes und Visualisierung synthetischer Daten.
VAMBN – Generierung synthetischer Daten
VAMBN (Variational Autoencoder Modular Bayesian Networks) ist ein hybrider, generativer KI-Ansatz zur synthetischen Datengenerierung und wurde speziell entwickelt, um heterogene und longitudinal erfasste Studiendaten realistisch abzubilden und synthetisch zu generieren. VAMBN ermöglicht es Forschenden, komplexe Zusammenhänge zwischen Variablen über die Zeit hinweg zu modellieren und neue Datensätze zu erzeugen, die statistisch ähnlich zu den Originaldaten sind.
Syndat – Bewertung synthetischer Daten
Die Qualität synthetischer Daten hängt stark vom gewählten KI-Modell sowie von den statistischen Eigenschaften der zugrunde liegenden Realdaten ab. Die Analyse und Bewertung synthetischer Daten kann ein aufwendiger Prozess sein; zudem besteht für die quantitative Bewertung synthetischer Daten bislang kein wissenschaftlicher Konsens. Syndat ist ein Tool, das darauf ausgelegt ist, Forschende bei der systematischen Bewertung synthetischer Daten hinsichtlich ihrer Ähnlichkeit zu Realdaten, sowie hinsichtlich möglicher datenschutzbezogener Risiken zu unterstützen. Syndat ist sowohl als Python-Bibliothek für Datenwissenschaftler verfügbar, als auch für andere Benutzergruppen als interaktives, webbasiertes Dashboard.
Relevante Publikationen
Gootjes-Dreesbach L, Sood M, Sahay A, Hofmann-Apitius M, Fröhlich H. Variational Autoencoder Modular Bayesian Networks (VAMBN) for Simulation of Heterogeneous Clinical Study Data. Front Big Data Med Public Health. 2020;3:16. https://doi.org/10.3389/fdata.2020.00016
Kühnel L, Schneider J, Perrar I, Moazemi S, Prasser F, Nöthlings U, Fröhlich H, Fluck J. Synthetic data generation for a longitudinal cohort study - Evaluation, method extension and reproduction of published data analysis results. Sci Rep. 2024;14:14412. https://doi.org/10.1038/s41598-024-62102-2
Adams T, Birkenbihl C, Otte K, Ng HG, Rieling JA, Näher AF, ... Fröhlich H. On the fidelity versus privacy and utility trade-off of synthetic patient data. iScience. 2025;28(5):112382. https://doi.org/10.1016/j.isci.2025.112382
Moazemi S, Adams T, Ng HG, Kühnel L, Schneider J, Näher AF, ... Fröhlich H. NFDI4Health workflow and service for synthetic data generation, assessment and risk management. Stud Health Technol Inform. 2024;317:21–29. doi:10.3233/SHTI240834
English