GeMTeX-German Medical Text Corpus

Das Hauptziel des Projektes GeMTeX ist die Generierung eines großen annotierten Textkorpus deutscher medizinischer Texte aus der Routineversorgung von Patient*innen. Dokumente von prospektiv einwilligenden Patient*innen aus den elektronischen Gesundheitsakten (EPA) von sechs Universitätskliniken sollen extrahiert werden. In einer konzertierten Aktion werden daraus annotierte Textkorpora generiert und tiefe Annotationen in mehreren Dimensionen bereit gestellt. Nach der Anonymisierung wird die gemeinsame Nutzung dieser Dokumente ermöglicht und somit werden neue Ressourcen für Forschung und Entwicklung geschaffen. Der Fortschritt des klinischen Natural Language Processing (NLP) wird entscheidend von speziell trainierten Sprachmodellen abhängen, die authentische klinische Dokumente erfordern. Das GeMTeX-Verbundprojekt adressiert somit zwei wesentliche Hürden, die die Entwicklung klinischer Sprachmodelle bisher verhindert haben: die Zugänglichkeit von Daten und deren Annotation. Die annotierten Textdokumente und die Modelle werden über die Zentralbibliothek für Medizin (ZBMED) und über das DFG-geförderte Projekt NFDI4Health öffentlich zugänglich gemacht.

Informationen der MII zum Projekt

Kontakt: Dr. Tobias Brix, Sarah Riepenhausen, Ärztin

Förderkennzeichen: 01ZZ2314K