Tools für Datenschutz und sichere Datenverarbeitung
In der Gesundheitsforschung enthalten Datensätze oft personenbezogene Informationen, die während der Auswertung besonders geschützt werden müssen. Anonymisierung ist dafür eine wichtige Methode: Dabei werden Daten so verändert, dass das Risiko einer Identifizierung minimiert wird. NFDI4Health bündelt Werkzeuge, bietet Support bei der Datenanonymisierung und entwickelt Ansätze zur Bewertung von Reidentifizierungsrisiken.

Hintergrund
Anonymisierung kann ein wichtiger Baustein von Data-Sharing-Prozessen sein, um personenbezogene Informationen und die Privatsphäre zu schützen. Dabei handelt es sich um komplexe Verfahren, bei denen es in der Regel nicht ausreicht, direkt identifizierende Merkmale wie Namen oder Geburtsdaten zu entfernen. Stattdessen werden statistische Modelle eingesetzt, um Datensätze entsprechend eines definierten Schutzniveaus zu anonymisieren sowie Re-Identifizierungsrisiken zu messen und zu verringern. NFDI4Health empfiehlt, bestehende und robuste Implementierungen einzusetzen, und unterstützt Forschende dabei, passende Anonymisierungsverfahren in ihre Forschungspraxis zu integrieren. Dazu stellt NFDI4Health eine Übersicht über Open-Source-Anonymisierungstools bereit und bietet Support für das ARX Data Anonymisation Tool und weitere Werkzeuge. Zudem wurde ein Verfahren zur Analyse des Reidentifizierungsrisikos entwickelt.
Open-Source-Anonymisierungstools
Anonymisierungsverfahren sind komplex, und die Landschaft der verfügbaren Open-Source-Tools ist aufgrund unterschiedlicher Funktionen und Reifegrade oft schwer zu überblicken. Um Forschenden eine Orientierungshilfe zu bieten, hat NFDI4Health einen umfassenden Überblick über Open-Source-Anonymisierungstools für tabellarische Daten erstellt, der bei der Auswahl des am besten geeigneten Tools und der passenden Methode je nach Datentyp und Kontext unterstützt.
ARX Data Anonymisation Tool
Das ARX Data Anonymisation Tool wurde von der Medizininformatik am BIH @ Charité entwickelt, und NFDI4Health bietet Forschenden Support über einen Helpdesk. Die international etablierte Open-Source-Software ARX beinhaltet eine Vielzahl von Methoden zur Anonymisierung, darunter das Maskieren (Ersetzen echter Werte durch fiktive) und die Generalisierung (Ersetzen genauer Angaben wie Geburtsdaten durch allgemeinere Kategorien). ARX ermöglicht die Anwendung verschiedener Privacy-Modelle wie k-Anonymität, Differential Privacy oder t-Closeness, um Re-Identifikation effektiv zu verhindern.
Methode für Reidentifizierungsrisikoanalysen
Ein Ansatz, um sensible Gesundheitsdaten zu schützen, besteht darin, verbleibende Datenschutzrisiken in anonymisierten Daten zu quantifizieren. So kann die Anonymisierungsmethode validiert und gegebenenfalls optimiert werden. Dafür hat NFDI4Health eine Methode für Reidentifizierungsrisikoanalysen für tabellarische Daten entwickelt.
Relevante Publikationen
Haber AC, Sax U, Prasser F; NFDI4Health Consortium. Open tools for quantitative anonymization of tabular phenotype data: literature review. Brief Bioinform. 2022 Nov 19;23(6):bbac440. https://doi.org/10.1093/bib/bbac440.
Meurers T, Halilovic M, Otte K, Despraz J, Kaabachi B, Kulynych B, Raisaro JL, Prasser F. Phantom Anonymization: Adversarial testing for membership inference risks in anonymized health data. Comput Biol Med. 2025 Sep;196(Pt A):110738. https://doi.org/10.1016/j.compbiomed.2025.110738.
Kühnel L, Schneider J, Perrar I, Adams T, Moazemi S, Prasser F, Nöthlings U, Fröhlich H, Fluck J. Synthetic data generation for a longitudinal cohort study - evaluation, method extension and reproduction of published data analysis results. Sci Rep. 2024 Jun 22;14(1):14412. https://doi.org/10.1038/s41598-024-62102-2.
Adams T, Birkenbihl C, Otte K, Ng HG, Rieling JA, Näher AF, Sax U, Prasser F, Fröhlich H; Alzheimer’s Disease Neuroimaging Initiative. On the fidelity versus privacy and utility trade-off of synthetic patient data. iScience. 2025 Apr 14;28(5):112382. https://doi.org/10.1016/j.isci.2025.112382.
Francis P, Jurak G, Leskošek B, Otte K, Prasser F. Comparison of Three Anonymization Tools for a Health Fitness Study. Sci Data. 2025 Sep 18;12(1):1548. https://doi.org/10.1038/s41597-025-05823-x.
English