Forschung
Anwendungsbereiche
Team: Can Aykul, Jonas Wallat, Dr. Cameron Pierson, Prof. Dr. Maria-Esther Vidal
Im Projekt " Breast Cancer Network Hannover", das sich auf Brustkrebs konzentriert, arbeiten Prof. Tjoung-Won Park-Simon und Dr. Thilo Dörk-Bousset aus der Frauenklinik der MHH mit dem Leibniz AI Lab zusammen, um Faktoren für den Therapieerfolg bei Patientinnen mit der Diagnose Brustkrebs zu identifizieren. Dazu werden standardisierte Daten von rund 5000 Patientinnen des regionalen Netzwerks " Network Breast Cancer" ausgewertet. In einem ersten Schritt werden Anamnesedaten der Patientin und ihrer Familie, Tumormerkmale, Therapiedaten, Daten zu Nachuntersuchungen und Überleben, genetische Informationen sowie sozioökonomische Daten der Patientin integriert, um eine umfassende Analyse zu ermöglichen. Besonderes Augenmerk wird dabei auf die Assoziation von sozioökonomischen Aspekten wie Bildung und Migrationshintergrund mit dem Therapieerfolg gelegt. Ein weiterer Schwerpunkt ist die Identifizierung von Subpopulationen von Patienten auf der Grundlage des Erfolgs verschiedener Therapieoptionen, um eine gezielte, personalisierte Therapie zu ermöglichen. Insbesondere soll das Projekt optimierte Vorschläge liefern, welche Patienten eher von einer neoadjuvanten Therapie und welche eher von einer Operation profitieren werden.
Während der derzeitige Ansatz zur Vorhersage der Rückfallwahrscheinlichkeit ein logistisches Regressionsmodell verwendet, wollen wir auf komplexere Modelle wie decision trees (Entscheidungsbäume), random forests (Zufallswälder), neuronale Netze und die Einführung von vorhandenem Fachwissen über Brustkrebs unter Verwendung von Knowledge Graphs (Wissensgraphen) erweitern. Dazu wird ein Knowledge Graph modelliert und auf der Grundlage der erhaltenen Patientendaten ausgefüllt. Aufbauend auf Benchmark-Modellen zur Einbettung von Knowledge Graphs wie TransE [1], ComplEx [2] und RotatE [3] wird ein Rahmenwerk entwickelt, das bestehende biomedizinische Ontologien (z.B. Gene Ontology) einbeziehen kann, um so die Rückfallwahrscheinlichkeit einer Behandlung vorherzusagen. Darüber hinaus wird zur Unterstützung der Entscheidungsfindung des Arztes ein Knowledge Graph für Arzneimittelinteraktionen verwendet, um latente semantische Darstellungen von Arzneimitteln/Medikamenten zu erlernen und potenziell schädliche Arzneimittelinteraktionen vorherzusagen, die auftreten können, wenn ein Patient mehrere Medikamente gleichzeitig einnehmen muss. Bei der Einführung komplexerer Modelle müssen wir ein Gleichgewicht zwischen Modellleistung und Interpretierbarkeit unserer Ansätze finden. Insbesondere bei der Verwendung von neuronalen Netzen werden wir bestehende Interpretierbarkeitstechniken wie LIME [4] und Shapley-Werte [5] nutzen.
Angesichts der ethischen Implikationen der Entwicklung und Verwendung von Modellen des maschinellen Lernens als Entscheidungsunterstützungssysteme im Gesundheitswesen nutzen wir diese Gelegenheit, um parallel zur Entwicklung der oben beschriebenen Lösungen einen bestehenden ethischen Rahmen zu bewerten: Die rasche und zunehmende Entwicklung des maschinellen Lernens im Gesundheitswesen (ML-HCAs, englisch: machine learning in healthcare applications) erfordert eine ethische Prüfung, um die Auswirkungen neuartiger medizinischer Geräte und Methoden auf Patienten und Gesellschaft zu bewerten. Es ist zwingend erforderlich, dass solche ethischen Untersuchungen und die damit verbundenen ethischen Aspekte untersucht werden. In dem Maße, in dem die Medizintechnik voranschreitet, muss auch eine gleichzeitige ethische Prüfung der Nutzung und des Anwendungsbereichs erfolgen, z. B. der Art der Systemanwendung, der dem System zugrunde liegenden Daten und der Auswirkungen auf den Patienten, die Gesellschaft und das Gesundheitswesen. Eine solche ethische Prüfung ist zwingend erforderlich, um zu vermeiden, dass maschinelle Lernwerkzeuge, die im Gesundheitswesen eingesetzt werden, Verzerrungen enthalten oder verstärken.
Es wurden bereits ethische Rahmenwerke vorgeschlagen (z. B. Floridi & Strait, 2020; Saltz & Dewar, 2019), doch Char und Kollegen (2020) haben ein Rahmenwerk entwickelt, das sorgfältig und transparent auf der Grundlage bereits vorhandener Literatur aufgebaut ist, um systematisch ethische Überlegungen zu identifizieren, die für ML-HCAs spezifisch sind. Während einige für einen "Ethiker als Designer" plädieren, der den Entwicklungsprozess von Werkzeugen des maschinellen Lernens prüft (van Wynsberghe & Robbins, 2014), hat die Implementierung eines solchen ethischen Identifikationsrahmens in einem Forschungsteam einen größeren Nutzen. Wie bereits an anderer Stelle vorgeschlagen wurde (z. B. Armstrong, 2017; Blay et al., 2012), sollte die Entwicklung von KI in der Medizin interdisziplinär und/oder durch Co-Design erfolgen. Daher bietet die Umsetzung des Rahmens von Char und Kollegen (2020) in einem Forschungsteam den Vorteil der Überprüfung (z. B. van Wynsberghe & Robbins, 2014) durch die Forscher dieser Studie und fördert gleichzeitig die Identifizierung und das Management ethischer Überlegungen vor Ort in der Forschungsgruppe. Eine solche Umsetzung würde die ethische Entwicklung von ML-HCAs fördern. Der vorgeschlagene Rahmen muss jedoch noch unabhängig evaluiert werden. Daher wollen wir den Pipeline-Rahmen von Char und Kollegen (2020) im Kontext einer Forschungsgruppe bewerten, die maschinelle Lerntechniken zur Identifizierung von Biomarkern bei Brustkrebspatientinnen entwickeln will, um den Erfolg der Chemotherapie vorherzusagen.
Quellenangaben:
[1] Bordes, Antoine, et al. "Translating embeddings for modeling multi-relational data." Advances in neural information processing systems 26 (2013). [2] Trouillon, Théo, et al. "Complex embeddings for simple link prediction." International conference on machine learning. PMLR, 2016. [3] Sun, Zhiqing, et al. "Rotate: Knowledge graph embedding by relational rotation in complex space." arXiv preprint arXiv:1902.10197 (2019). [4] M. Ribeiro - “Why Should I Trust You?” Explaining the Predictions of Any Classifier - https://dl.acm.org/doi/pdf/10.1145/2939672.2939778 [5] S. Lundberg - A Unified Approach to Interpreting Model Predictions - https://www.semanticscholar.org/paper/A-Unified-Approach-to-Interpreting-Model-Lundberg-Lee/442e10a3c6640ded9408622005e3c2a8906ce4c2
Team: Michelle Tang, PD Dr. Anke Bergmann
Die akute lymphoblastische Leukämie der B-Generationen (B-ALL, engl.: B-progenitor acute lymphoblastic leukemia) ist die häufigste pädiatrische Malignität. Next Generation Sequencing (NGS)-Technologien haben Einzug in die Routinediagnostik gehalten. Unter ihnen ist die kosteneffektive gezielte RNA-Sequenzierung besonders attraktiv. Wir analysierten die gezielte RNA-Sequenzierung von ~1.500 pädiatrischen ALL-Patienten aus den deutschen pädiatrischen ALL-Studiengruppen. Wir kombinieren UMAP (Uniform Manifold Approximation and Projection) und überwachte Algorithmen des maschinellen Lernens, um ein interaktives Tool zur Visualisierung und Vorhersage von diagnostischen Untergruppen zu entwickeln. Wir erforschen eine Vielzahl von maschinellen Lerntechniken, einschließlich über Gennetzwerke informierte neuronale Netze, um unser Vorhersagemodell zu erstellen. Das Tool hilft bei der Stratifizierung von Patienten ohne aberrante Fusion oder Aneudiploidie, bei der Validierung konventioneller diagnostischer Methoden und bei der Entdeckung neuer Untergruppen. Für die Zukunft planen wir, ein solches KI-gestütztes Diagnosewerkzeug auf weitere klinische, transkriptomische und epigenetische Daten auszuweiten. Der vorgeschlagene Arbeitsablauf wird die derzeitige diagnostische Routine erheblich ergänzen, den Patienten bessere Behandlungsmöglichkeiten bieten und den Weg für die personalisierte Onkologie ebnen.Accordion Sample Description
Team: Soumyadeep Roy, Salomon Kabongo Kabenamualu, Prof. Niloy Ganguly, Prof. Dr. Helge Frieling, Dr. Stefanie Mücke, Dominik Wolff
Im Projekt "Big Data in Psychiatric Disorders" arbeitet Prof. Dr. Helge Frieling von der Klinik für Psychiatrie, Sozialpsychiatrie und Psychotherapie (MHH) gemeinsam mit dem Leibniz AI Lab an den Schwerpunkten Schizophrenie und neurodegenerative Erkrankungen. Im ersten Teilprojekt werden genetische Informationen von rund 50.000 Patienten mit der Diagnose Schizophrenie mittels künstlicher Intelligenz ausgewertet, um mögliche Subtypen zu identifizieren. Die Hypothese dabei ist, dass Schizophrenie als Phänotyp auf einer Vielzahl von Ursachen beruht, die eine differenzierte Diagnose und Therapie erfordern. Wir werden uns auf dieses Projekt konzentrieren und haben die Formalitäten der Datenanforderung abgeschlossen. Allerdings stehen die Daten vom NIMH noch aus.
Daher arbeiten wir an der Subtypisierung von Patienten mit der Parkinson-Krankheit, einer neurodegenerativen Erkrankung, unter Verwendung klinischer und genetischer Daten. Die meisten Arbeiten befassen sich mit der Subtypisierung von Parkinson-Patienten anhand der motorischen Symptome und berücksichtigen in der Regel die ältere Bevölkerung (über 60 Jahre). In jüngster Zeit beziehen Forscher auch nicht-motorische Symptome in die Definition von Patientensubtypen ein, da nicht-motorische Symptome häufig der Entwicklung klassischer motorischer Anzeichen vorausgehen und wesentlich zur Gesamtprognose beitragen. Konkret planen wir, bei jüngeren Morbus-Parkinson-Patienten (unter 60 Jahren) anhand von klinischen und genetischen Daten Patientensubtypen zu identifizieren. Wir sind auch an Patienten mit Begleiterkrankungen wie Schizophrenie und schweren Depressionen interessiert. Wir haben ein binäres Klassifikationsmodell entwickelt, mit dem wir vorhersagen können, ob ein Patient an Morbus Parkinson leidet oder nicht. Wir verwenden den trainierten Entscheidungsbaum (decision tree), um die Patientensubtypen zu bestimmen; dies ist der erste Ansatz, den wir verfolgen, um die Einschränkung zu überwinden, dass die Subtypkennzeichnungen der Patienten nicht verfügbar sind. Derzeit führen wir eine Studie zur Charakterisierung der Subtypen von Parkinson-Patienten anhand klinischer Daten durch. In Zukunft planen wir, diese klinischen Patientensubtypen anhand ihrer Genotypdaten weiter zu charakterisieren. In diesem Sinne erforschen wir derzeit einen zweiten Ansatz für die Subtypisierung von Patienten, bei dem wir die Patienten direkt anhand ihrer Genotypdaten (SNP-Daten) clustern.
Team: Leonie Basso, Jingge Xiao, Seham Nasr, Dr. Zhao Ren, Prof. Antje Wulff, PD. Dr. Thomas Jack, PD. Dr. Henning Rathert, Marcel Mast, Prof. Michael Marschollek, Prof. Wolfgang Nejdl
Im Projekt "Anwendungsfall Pädiatrische Intensivstation (PICU, engl. Pediatric Intensive Care Unit)" haben Professorin Antje Wulff, PD Dr. Thomas Jack, PD. Dr. Henning Rathert, Marcel Mast und Prof. Michael Marschollek von der Medizinischen Hochschule Hannover gemeinsam mit dem Leibniz AI Lab an dem Ziel, Organdysfunktionen auf PICUs automatisch zu erkennen. Aufgrund der unmittelbaren Entscheidungsfindung mit hohem Risiko und hohem Stress für Kliniker auf Intensivstationen, einer datenintensiven Umgebung, ist es unerlässlich, automatische Entscheidungsfindungsmodelle mit dem neuesten Stand des maschinellen Lernens und der Deep-Learning-Topologien zu entwickeln; dadurch wird die Entwicklung von Echtzeitmodellen für die Entscheidungsfindung gefördert und der Druck auf die Kliniker gemindert. Darüber hinaus gibt es bei der Entscheidungsfindung in der PICU mehrere Schwierigkeiten: i) Verschiedene Krankheiten dominieren bestimmte Altersgruppen von 0 bis 18 Jahren, und ii) normative Werte sind in verschiedenen Altersgruppen sehr unterschiedlich. Es gibt jedoch nur wenige Forschungsstudien, die sich mit der Analyse der auf PICU-Stationen erhobenen Daten befassen. In diesem Zusammenhang konzentriert sich das Projekt PICU Use Case auf die Vorhersage von Organdysfunktionen auf der Grundlage von PICU-Daten. Es gibt zwei Hauptbereiche, die in diesem Projekt geplant sind. Im Folgenden werden die beiden Zweige vorgestellt.
i) Wir werden uns auf die Verarbeitung der klinischen Daten konzentrieren, die hauptsächlich Vitalparameter (z. B. Atemfrequenz, Herzfrequenz usw.), Laborparameter (z. B. Leukozyten) und Patientendaten (z. B. Größe, Gewicht usw.) enthalten.
ii) Es wird eine neue Datenbank mit Kurvenformdaten (z. B. Elektrokardiogramm) von den bettseitigen Monitoren erfasst. Der Benchmark wird eingerichtet, wenn die Daten gesammelt und vorverarbeitet sind ( zum Beispiel Anonymisierung), und es werden eine Reihe von Ansätzen des maschinellen Lernens und des Deep Learning angewendet.
Zusammenfassend lässt sich sagen, dass die Forschung im Rahmen dieses Projekts verwandte Forschungsstudien über die Anwendung von KI auf der Intensivstation erleichtern soll.
COVID-19, eine durch SARS-CoV2 verursachte Krankheit, kann viele verschiedene Formen annehmen, die in ihrem klinischen Schweregrad von leichten oder asymptomatischen Erkrankungen bis hin zu akuten Zuständen wie ARDS ("acute respiratory distress syndrome", d. h. akutes Atemnotsyndrom) und Tod reichen. Mehrere Studien haben bereits gezeigt, dass neben demografischen Faktoren und Vorerkrankungen auch eine genetische Veranlagung eine wichtige Rolle bei der Krankheitsentwicklung spielen kann. Um die Pathophysiologie und den Verlauf von COVID-19 besser zu verstehen, sammeln Kliniker und Forscher der Medizinischen Hochschule Hannover (MHH) seit Beginn der Pandemie Patientenproben und Daten in der vom Niedersächsischen Ministerium für Wissenschaft und Kultur (MWK) finanzierten COVID-19-Biobank.
An den gesammelten Bioproben wurden umfangreiche molekulare Charakterisierungen durchgeführt, insbesondere an Material von Patienten mit schweren Krankheitsverläufen, die intensivmedizinisch betreut und beatmet werden mussten. Zu diesen globalen Analysen gehören die Sequenzierung des Patientengenoms, die Genexpression und der Methylierungszustand bestimmter Basen im Genom (Epigenom). Ergänzt werden diese Daten durch hochauflösende optische Analysen struktureller DNA-Varianten, die mit einem erhöhten Krankheitsrisiko in Verbindung gebracht werden können. Darüber hinaus wurde von der Hannover Unified Biobank (HUB) in Zusammenarbeit mit der Abteilung Pneumologie der MHH ein breiter klinischer Datensatz zu allen Patienten erhoben, der Informationen über die Vorerkrankungen, den Schweregrad der Erkrankung, therapeutische Maßnahmen, Komplikationen und den Krankheitsverlauf der COVID-19-Patienten enthält.
Um diese umfangreiche Sammlung von molekularen und klinischen Daten, die im Rohzustand bereits über 14 TB umfasst, in einer integrativen Analyse zusammenzuführen, arbeitet die HUB mit Wissenschaftlern des L3S Future Laboratory und Prof. Yang Li vom Helmholtz-Zentrum für Infektionsforschung (HZI) zusammen. Ziel der integrativen Datenanalyse ist es, die verschiedenen Datenschichten zusammenzuführen und prognostische molekulare Marker oder frühe Krankheitsmuster zu identifizieren, die mit dem weiteren Krankheitsverlauf in Verbindung stehen.
Seminare
Publikationen
2024
2023
- Evaluating Prompt-Based Question Answering for Object Prediction in the Open Research Knowledge Graph. In Database and Expert Systems Applications - 34th International Conference, {DEXA} 2023, Penang, Malaysia, August 28-30, 2023, Proceedings, Part {I} (Strauss, C., Amagasa, T., Kotsis, G., Tjoa, A. M., and Khalil, I., Eds.), pp. 508–515, Springer.(2023)
- LLMs4OL: Large Language Models for Ontology Learning. In The Semantic Web - {ISWC} 2023 - 22nd International Semantic Web Conference, Athens, Greece, November 6-10, 2023, Proceedings, Part {I} (Payne, T. R., Presutti, V., Qi, G., Poveda{-}Villal{{ó}}n, M., Stoilos, G., Hollink, L., Kaoudi, Z., Cheng, G., and Li, J., Eds.), pp. 408–427, Springer.(2023)
- Describing and Organizing Semantic Web and Machine Learning Systems in the SWeMLS-KG. In The Semantic Web - 20th International Conference, {ESWC} 2023, Hersonissos, Crete, Greece, May 28 - June 1, 2023, Proceedings (Pesquita, C., Jim{{é}}nez{-}Ruiz, E., McCusker, J. P., Faria, D., Dragoni, M., Dimou, A., Troncy, R., and Hertling, S., Eds.), pp. 372–389, Springer.(2023)
- Increasing Reproducibility in Science by Interlinking Semantic Artifact Descriptions in a Knowledge Graph. In Leveraging Generative Intelligence in Digital Libraries: Towards Human-Machine Collaboration - 25th International Conference on Asia-Pacific Digital Libraries, {ICADL} 2023, Taipei, Taiwan, December 4-7, 2023, Proceedings, Part {II} (Goh, D. H.- }Lian, Chen, S.- }Jiun, and Tuarob, S., Eds.), pp. 220–229, Springer.(2023)
- Probing BERT for Ranking Abilities. In Advances in Information Retrieval - 45th European Conference on Information Retrieval, {ECIR} 2023, Dublin, Ireland, April 2-6, 2023, Proceedings, Part {II} (Kamps, J., Goeuriot, L., Crestani, F., Maistro, M., Joho, H., Davis, B., Gurrin, C., Kruschwitz, U., and Caputo, A., Eds.), pp. 255–273, Springer.(2023)
- An Upper Ontology for Modern Science Branches and Related Entities. In The Semantic Web - 20th International Conference, {ESWC} 2023, Hersonissos, Crete, Greece, May 28 - June 1, 2023, Proceedings (Pesquita, C., Jim{{é}}nez{-}Ruiz, E., McCusker, J. P., Faria, D., Dragoni, M., Dimou, A., Troncy, R., and Hertling, S., Eds.), pp. 436–453, Springer.(2023)
2022
- Overview of Touch{é} 2022: Argument Retrieval: Argument Retrieval: Extended Abstract. In Advances in Information Retrieval (Hagen, M., Verberne, S., Macdonald, C., Seifert, C., Balog, K., N{\o}rv{\aa}g, K., and Setty, V., Eds.) Part 2., pp. 339–346, Springer Science and Business Media Deutschland GmbH, Germany.(2022)
- MTLTS: A Multi-Task Framework To Obtain Trustworthy Summaries From Crisis-Related Microblogs. In Proceedings of the Fifteenth ACM International Conference on Web Search and Data Mining, pp. 755–763, Association for Computing Machinery, Virtual Event, AZ, USA.(2022)
2021
2020
- BERTnesia: Investigating the capture and forgetting of knowledge in BERT. In Proceedings of the Third BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP, BlackboxNLP@EMNLP 2020, Online, November 2020 (Alishahi, A., Belinkov, Y., Chrupala, G., Hupkes, D., Pinter, Y., and Sajjad, H., Eds.), pp. 174–183, Association for Computational Linguistics.(2020)