Deep Learning and Integration of Semantic Knowledge

WissenschaftlerInnen:  Sören Auer , Daniel Kudenko , Mark Musen , Maria-Esther Vidal

Laufende Projekte:   ScienceGraph , KnowGraphs

Wissensgraphen haben in den letzten zehn Jahren in Wissenschaft und Technik zunehmend an Popularität gewonnen. Sie ermöglichen eine vielseitige und sich entwickelnde semantische Repräsentation von Wissen an der Kreuzung verschiedener a) Ebenen der Informationsstrukturierung – unstrukturiert, halbstrukturiert, strukturiert, b) Abstraktionsebenen – konzeptionell vs. operativ, c) Wissensrepräsentationsformalismen – Graphen, Fakten, Entity-Relationship, Logik, und d) Technologie-Ökosysteme. Bei Wissensgraphen handelt es sich jedoch derzeit um relativ einfache semantische Strukturen, die hauptsächlich eine Ansammlung von Sachaussagen darstellen, die in Entitätsbeschreibungen angeordnet sind, möglicherweise angereichert durch Klassenhierarchien und entsprechende Eigenschaftsdefinitionen.

Unser Ziel ist es, das Konzept der Wissensgraphen in Richtung kognitiver Wissensgraphen weiterzuentwickeln, bei denen die Konstituenten komplexere Elemente wie Ideen, Theorien, Ansätze und Behauptungen sind, wie sie beispielsweise in wissenschaftlichen Beiträgen oder OMICS-Datenstrukturen für die personalisierte Medizin vermittelt werden. Wir wollen drei Aspekte für das Management kognitiver Wissensgraphen eng miteinander verknüpfen: semantische Repräsentationen (semantische Intelligenz), maschinelles Lernen (maschinelle Intelligenz) sowie Crowd und Expert Sourcing (menschliche Intelligenz).

Doktoranden: Salomon Kabongo Kabenamualu , Can Aykul

Unsupervised Representation Learning

WissenschaftlerInnen:  Bodo Rosenhahn , David Suter

Laufende Projekte:

Unsere Forschung konzentriert sich auf das Repräsentationslernen, das eine Reihe von Techniken umfasst, die es ermöglichen, Daten auf unüberwachte Weise zu repräsentieren und zu strukturieren. Es wird hauptsächlich zur automatischen Generierung von Merkmalen für die weitere Verarbeitung verwendet und stellt eine implizit erlernte Alternative zur manuellen Merkmalstechnik dar.

Eine gelernte Repräsentation kann verwendet werden, um Eingabedaten für die Datenvisualisierung auf eine niedrigdimensionale Mannigfaltigkeit zu komprimieren. Ein weiterer Anwendungsfall ist die Verwendung einer niedrigdimensionalen Repräsentation als Input für eine nachfolgende maschinelle Lernmethode wie eine Support-Vektor-Maschine oder ein Random Forest.

Es gibt mehrere Methoden für die Unterraumprojektion und die Darstellung dünn besiedelter Daten, die von der Hauptkomponentenanalyse (PCA), der unabhängigen Komponentenanalyse (ICA), der lokalen linearen Einbettung (LLE), der Vektorquantisierung (VQ) bis zum Wörterbuchlernen reichen. Neuere Ansätze basieren auf Autoencodern, Variations-Autoencodern oder invertierbaren neuronalen Netzen, die die Grundlage unserer Forschung bilden:

Im Zukunftslabor werden wir uns auf das Repräsentationslernen und die Integration spezieller Bedingungen, wie z.B. spezifischer Prioren, konzentrieren. Wir untersuchen strukturierende Autokoder, die es erlauben, den latenten Raum während des Repräsentationslernens zu strukturieren [1], normalisierende Flüsse für die Erkennung von Anomalien [2] und spärliche Merkmalsselektion auf der Basis von aufgelösten Repräsentationen [3]. Basierend auf unserer Erfahrung mit gemischt-ganzzahliger linearer Programmierung (MILP) [4] werden wir auch Varianten für spärliche SVMs als MILP formulieren, ähnlich wie in [5]. Hier sind wir vor allem daran interessiert, spezifische Prioritäten durch zusätzliche Nebenbedingungen auszudrücken.

Doktoranden: Mariia Khan

[1] Marco Rudolph, Bastian Wandt, Bodo Rosenhahn Structuring Autoencoders Third International Workshop on “Robust Subspace Learning and Applications in Computer Vision” (ICCV), August 2019

[2] Marco Rudolph, Tom Wehrbein, Bodo Rosenhahn, Bastian Wandt Fully Convolutional Cross-Scale-Flows for Image-based Defect Detection Winter Conference on Applications of Computer Vision (WACV), IEEE, Hawaii, USA, January 2022

[3] Maren Awiszus, Hanno Ackermann, Bodo Rosenhahn Learning Disentangled Representations via Independent Subspaces Proceedings of the IEEE International Conference on Computer Vision Workshops (ICCVW), October 2019

[4] Andrea Hornakova*, Roberto Henschel*, Bodo Rosenhahn, Paul Swoboda, (* equal contribution) Lifted Disjoint Paths with Application in Multiple Object Tracking Proceedings of the 37th International Conference on Machine Learning (ICML), July 2020

[5] Tanveer, M. Robust and Sparse Linear Programming Twin Support Vector Machines. Cogn Comput 7, 137–149 (2015). https://doi.org/10.1007/s12559-014-9278-8

Probabilistic Methods, Spatial Data

WissenschaftlerInnen:  Wei Wu

Laufende Projekte:   CampaNeo , smashHit

Heutzutage nehmen die Daten in der Informationsgesellschaft explosionsartig zu. Große Daten haben die Data-Mining-Forschung sowohl in der Wissenschaft als auch in der Industrie vorangetrieben. Die Berechnung der Datenähnlichkeit (oder des Abstands) ist ein grundlegendes Forschungsthema, das vielen hochrangigen Anwendungen zugrunde liegt, die auf Ähnlichkeitsmaßen beim maschinellen Lernen und Data Mining beruhen, z. B. Klassifizierung, Clustering, Regression, Retrieval und Visualisierung. Die exakte Berechnung der Ähnlichkeit von Daten in großem Maßstab ist jedoch aufgrund der „3V“-Charakteristika (Volumen, Geschwindigkeit und Vielfalt) eine große Herausforderung für die Datenanalyse. Angesichts der ständig wachsenden Verfügbarkeit und des zunehmenden Bewusstseins für große Datensätze in vielen wichtigen Anwendungsbereichen, z. B. in der Bioinformatik, im Verkehrswesen, in der Epidemiologie und in der öffentlichen Sicherheit, ist die Entwicklung effizienter und dennoch präziser Algorithmen für die Ähnlichkeitsberechnung bei der Analyse großer Datenmengen unerlässlich.

Eine leistungsstarke Lösung ist die Datenhash-Technik, die eine Reihe von Hash-Funktionen anwendet, um Datenobjekte in eine Folge von Hash-Codes umzuwandeln, so dass ähnliche Objekte mit höherer Wahrscheinlichkeit demselben Hash-Code zugeordnet werden als unähnliche Objekte. Folglich können Hash-Verfahren als wichtiger Baustein für die Datenanalyse in großem Maßstab verwendet werden, um die Ähnlichkeit zwischen Datenobjekten effizient und in vielen Fällen unvoreingenommen zu ermitteln. Dies kommt vielen wichtigen Data-Mining- und Machine-Learning-Aufgaben zugute, die auf Ähnlichkeitsmessungen beruhen, wie z. B. Information Retrieval, Klassifizierung, Clustering und Visualisierung. Bislang hat Dr. Wu die folgenden hochrangigen Arbeiten veröffentlicht,

[1] Wu W, Li B, Chen L, et al. Canonical consistent weighted sampling for real-value weighted min-hash//Proceedings of the 16th IEEE International Conference on Data Mining. Barcelona, Spain, 2016: 1287-1292

[2] Wu W, Li B, Chen L, et al. K-ary tree hashing for fast graph classification. IEEE Transactions on Knowledge and Data Engineering, 2017, 30(5): 936-949

[3] Wu W, Li B, Chen L, et al. Consistent weighted sampling made more practical//Proceedings of the 26th International Conference on World Wide Web. Perth, Australia, 2017: 1035-1043

[4] Wu W, Li B, Chen L, et al. Efficient attributed network embedding via recursive randomized hashing//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm, Sweden, 2018: 2861-2867

[5] Wu W, Li B, Chen L, et al. Improved consistent weighted sampling revisited. IEEE Transactions on Knowledge and Data Engineering, 2018, 31(12): 2332-2345

[6] Wu W, Li B, Chen L, et al. A Review for Weighted MinHash Algorithms. IEEE Transactions on Knowledge and Data Engineering, 2020

[7] Wu W, Li B, Luo C, et al. Hashing-accelerated graph neural networks for link prediction//Proceedings of the 30th Web Conference. Ljubljana, Slovenia, 2021: 2910-2920

Information Extraction and Web Mining

WissenschaftlerInnen:  Niloy Ganguly , Wolfgang Nejdl

Laufende Projekte   SoBigData , Cleopatra , Oscar

Im Bereich der Informationsextraktion im medizinischen Bereich konzentrieren wir uns hauptsächlich auf die Evaluierung der Zusammenfassung biomedizinischer Literatur, wobei wir medizinische Zusammenfassungsmodelle entwickeln, die dazu beitragen, die mit der Suche nach biomedizinischer Literatur verbundene Informationsflut zu verringern.

Solche Modelle liefern prägnante Beschreibungen relevanter oder hochrangiger Artikel. Wir befassen uns auch mit Techniken zur Bewertung und Verbesserung der sachlichen Konsistenz von Zusammenfassungen im Vergleich zu den Quelldokumenten. Zweitens konzentrieren wir uns auf die Verbesserung der Suche nach klinischen Studien. Klinische Studien sind für die Praxis der evidenzbasierten Medizin von entscheidender Bedeutung. Verschiedene Beteiligte wie Probanden, Prüfer und Forscher, die Meta-Analysen durchführen, müssen häufig nach Studien suchen. Wir schlagen eine automatisierte Methode zum Auffinden relevanter Studien vor, die auf der Überschneidung von UMLS-Konzepten zwischen der Benutzeranfrage und klinischen Studien basiert. In einer anderen Arbeit arbeiten wir mit generativen Deep-Modellen. Diese Modelle sehen sich aufgrund der einzigartigen Eigenschaften von molekularen Graphen mit mehreren Schwierigkeiten konfrontiert. Hier schlagen wir einen neuartigen Autoencoder für molekulare Graphen vor, dessen Encoder und Decoder speziell für die Berücksichtigung der oben genannten Eigenschaften entwickelt wurden.

Auf dem Gebiet des Web Mining im medizinischen Bereich befassen wir uns mit COVID-19, das die Möglichkeit geschaffen hat, dass Befürworter und Gegner von Impfstoffen ihre Unterstützung und Bedenken bezüglich der Impfstoffe auf Social Media-Plattformen zum Ausdruck bringen. Das Verständnis dieses Online-Diskurses ist für politische Entscheidungsträger entscheidend. Das Ziel dieser Arbeit ist es, dieses Verständnis mit Hilfe von Twitter-Diskursdaten zu verbessern. Mit dieser Methode ermitteln und untersuchen wir bestimmte Nutzergruppen, die in der Zeit vor dem COVID und COVID über Impfstoffe gepostet haben. Zweitens haben wir uns auch mit medizinischen Online-Foren befasst, die sich zu einer wichtigen Plattform für die Beantwortung gesundheitsbezogener Informationsbedürfnisse der Verbraucher entwickelt haben. Es ist notwendig, medizinische Anfragen automatisch zu klassifizieren, basierend auf der Absicht des Verbrauchers, so dass diese Fragen an die richtigen medizinischen Experten weitergeleitet werden. Hier entwickeln wir ein neuartiges BERT-basiertes Modell, das medizinisches Wissen berücksichtigt (MedBERT) und domänenspezifische Informationen aus bekannten medizinischen Wissensdatenbanken nutzt. Drittens haben wir auch die Datenschutzpraktiken erforscht, die von Gesundheitseinrichtungen auf der ganzen Welt befolgt werden, um die Angemessenheit und rechtliche Übereinstimmung dieser Datenpraktiken mit den Gesetzen des Landes zu bewerten.

Doktorand(en): Soumyadeep Roy, Gunjan Balde und Abhilash Nandi

Robust and Reliable Machine Learning

WissenschaftlerInnen:  Niloy Ganguly , Marius Lindauer , Wolfgang Nejdl

Laufende Projekte:

Privacy Preserving Data Mining and Data Protection

WissenschaftlerInnen:  Megha Khosla , Wolfgang Nejdl

Laufende Projekte:   ZL-Gesundheit

Der Erfolg von Deep Learning (DL) hat dazu geführt, dass es in verschiedenen Bereichen eingesetzt wird, z. B. in der Bildverarbeitung, in Empfehlungssystemen, in der Verarbeitung natürlicher Sprache, in der Medizin usw. Während DL zu Verbesserungen auf dem neuesten Stand der Technik bei verschiedenen Aufgaben geführt hat, sind diese Systeme in der Regel sehr datenintensiv und benötigen beim Training große Datenmengen. Dies wirft ernste Bedenken hinsichtlich des Datenschutzes auf, da die verwendeten Daten sensible persönliche Informationen enthalten und durch verschiedene Schwachstellen missbraucht werden oder nach außen dringen können. Unser Fokus ist zweifach: Wir arbeiten daran, Schwachstellen von Deep-Learning-Systemen auf graphenstrukturierten Daten in Bezug auf Datenschutzlecks aufzudecken und entwickeln Techniken, um datenschutzkonformes Lernen mit unterschiedlichen Datenschutzgarantien zu gewährleisten.

[1] Olatunji, I. E., Nejdl, W., and Khosla, M. (2021), Membership inference attack on graph neural networks. In IEEE International Conference on Trust, Privacy and Security in Intelligent Systems, and Applications 2021.

[2] Olatunji, I. E., Funke, T., and Khosla, M. (2021). Releasing Graph Neural Networks with Differential Privacy Guarantees. arXiv preprint arXiv:2109.08907, 2021.

[3] Olatunji, I. E., Rauch, J., Katzensteiner, M., & Khosla, M. (2021). A Review of Anonymization for Healthcare Data. arXiv preprint arXiv:2104.06523, 2021.

Interpretability of Artificial Intelligence Algorithms

WissenschaftlerInnen:  Avishek Anand , Wolfgang Nejdl

Laufende Projekte:   Interpreting Neural Rankers , Simple-ML

Prognosemodelle sind allgegenwärtig und werden in Suchmaschinen, Empfehlungssystemen, im Gesundheits-, Rechts- und Finanzbereich eingesetzt. In den meisten Fällen werden sie jedoch als „Black Boxes“ verwendet, die eine Vorhersage, eine Punktzahl oder eine Rangfolge ausgeben, ohne teilweise oder sogar vollständig zu verstehen, wie verschiedene Merkmale die Modellvorhersage beeinflussen. In solchen Fällen, in denen ein Algorithmus Informationen priorisiert, um sie vorherzusagen, zu klassifizieren oder in eine Rangfolge zu bringen, wird die Transparenz des Algorithmus zu einem wichtigen Merkmal, um die Diskriminierung einzuschränken und das auf Erklärbarkeit basierende Vertrauen in das System zu stärken.

Infolgedessen erhalten wir genaue, aber nicht interpretierbare Modelle. Wir haben uns mit der Entwicklung von Modellen beschäftigt, die entweder von vornherein interpretierbar sind, oder mit Ansätzen, die die Gründe für eine Vorhersage durch ein bereits trainiertes Modell post-hoc erklären. Insbesondere haben wir verschiedene Interpretierbarkeitsansätze für Audit-Ranking-Modelle im Kontext der Websuche vorgeschlagen.

Wir haben das Problem der Interpretierbarkeit von textbasierten Ranking-Modellen untersucht, indem wir versucht haben, die Absicht der Suchanfrage, wie sie von komplexen Retrieval-Modellen verstanden wird, herauszufinden. In [1] haben wir einen modell-agnostischen Ansatz vorgeschlagen, der versucht, einen komplexen Ranker durch ein einfaches Ranking-Modell im Termraum lokal zu approximieren. In [3] beschäftigen wir uns mit der Frage, was eine gute Referenz-Eingabeverteilung für neuronale Ranker ist. Wir haben auch einen einfachen Forschungsprototyp zur Erklärung von neuronalen Rangern namens EXS [4].

Kürzlich untersuchten wir den Unterschied zwischen menschlichem und maschinellem Verständnis von Bildern mit Hilfe von Post-hoc-Interpretationsansätzen [2]. Insbesondere versuchen wir, die folgenden Fragen zu beantworten: Welche (gut funktionierenden) komplexen ML-Modelle sind bei der Verwendung von Merkmalen näher am Menschen, um genaue Vorhersagen zu treffen? Wie wirkt sich die Schwierigkeit der Aufgabe auf die Fähigkeit zur Merkmalsauswahl von Maschinen im Vergleich zu Menschen aus? Sind Menschen durchweg besser bei der Auswahl von Merkmalen, die die Bilderkennung genauer machen?

Publications

[1] Model agnostic interpretability of rankers via intent modelling. Jaspreet Singh and Avishek Anand. In Conference on Fairness, Accountability, and Transparency (FAT), 2020.

[2] Dissonance Between Human and Machine Understanding. Zijian Zhang, Jaspreet Singh, Ujwal Gadiraju, Avishek Anand. In CSCW 2019.

[3] A study on the Interpretability of Neural Retrieval Models using DeepSHAP. Zeon Trevor Fernando, Jaspreet Singh, Avishek Anand. In SIGIR 2019.

[4] EXS: Explainable Search Using Local Model Agnostic Interpretability. Jaspreet Singh and Avishek Anand. In WSDM 2019.

[5] Posthoc Interpretability of Learning to Rank Models using Secondary Training Data. Jaspreet Singh and Avishek Anand. In Workshop on ExplainAble Recommendation and Search (Co-located with SIGIR’ 18).

[6] Finding Interpretable Concept Spaces in Node Embeddings using Knowledge Bases. Maximilian Idahl, Megha Khosla and Avishek Anand. In in workshop on Advances in Interpretable Machine Learning and Artificial Intelligence & eXplainable Knowledge Discovery in Data (co-located with ECML-PKDD 2019)

Fairness and Responsibility in Artificial Intelligence

WissenschaftlerInnen:  Markus Luczak-Roesch , Bodo Rosenhahn , David Suter , Maria-Esther Vidal , Cameron Pierson

Laufende Projekte:   BIAS , NoBIAS

Die schnelle und zunehmende Entwicklung von Anwendungen des maschinellen Lernens im Gesundheitswesen (ML-HCA) erfordert eine ethische Prüfung, um die Auswirkungen neuartiger medizinischer Geräte und Methoden auf Patienten und Gesellschaft zu bewerten. Es ist zwingend erforderlich, dass solche ethischen Untersuchungen durchgeführt werden, um die damit verbundenen ethischen Erwägungen, ob bekannt oder neu, zu klären. In dem Maße, in dem die Medizintechnik voranschreitet, muss auch eine gleichzeitige ethische Prüfung der Nutzung und des Anwendungsbereichs erfolgen, z. B. der Art der Systemanwendung, der dem System zugrunde liegenden Daten und der Auswirkungen auf den Patienten, die Gesellschaft und das Gesundheitswesen. Eine solche ethische Prüfung ist unerlässlich, um zu vermeiden, dass maschinelle Lernwerkzeuge, die im Gesundheitswesen eingesetzt werden, Vorurteile einschließen oder verstärken.

Die Entwicklung von KI in der Medizin sollte interdisziplinär und/oder durch Co-Design erfolgen. Daher bietet die Implementierung einer ethischen Rahmenbewertung mit einem Forschungsteam den Vorteil einer Überprüfung (z. B. van Wynsberghe & Robbins, 2014) durch die Forscher dieser Studie und fördert gleichzeitig die Identifizierung und das Management ethischer Überlegungen vor Ort in der Forschungsgruppe. Eine solche Umsetzung würde die ethische Entwicklung von ML-HCAs fördern. Der vorgeschlagene Rahmen muss jedoch noch unabhängig evaluiert werden. Daher zielt diese Studie darauf ab, den Pipeline-Rahmen von Char und Kollegen (2020) im Kontext einer Forschungsgruppe zu bewerten, die maschinelle Lerntechniken zur Identifizierung von Biomarkern bei Brustkrebspatientinnen entwickeln will, um den Erfolg der Chemotherapie vorherzusagen.

Char, D. S., Abràmoff, M. D., & Feudtner, C. (2020). Identifying ethical considerations for machine learning healthcare applications. The American Journal of Bioethics, 20(11), 7-17. https://doi.org/10.1080/15265161.2020.1819469

van Wynsberghe, A., & Robbins, S. (2014). Ethicist as designer: A pragmatic approach to ethics in the lab. Science and Engineering Ethics, 20, 947-961. https://doi.org/10.1007/s11948-013-9498-4

Machine Learning/AI for Precision Medicine and Health Care

WissenschaftlerInnen:  Sören Auer , Niloy Ganguly , Thomas Illig , Megha Khosla , Michael Marschollek, Wolfgang Nejdl , David Suter , Maria-Esther Vidal , Cameron Pierson

Laufende Projekte:   BacData , Big Data for Cochlea implants , BigMedilytics , PRESENt

Wissensgraphen (Knowledge Graphs, KGs) haben als aussagekräftige Datenstrukturen zur Darstellung der Konvergenz von Daten und Wissen aus heterogenen Datenquellen an Bedeutung gewonnen. Insbesondere die große Menge an biomedizinischen Daten, die in KGs vorhanden sind, zeigt die Machbarkeit der Integration und Darstellung einer großen Menge an biomedizinischen Daten und Wissen als symbolische und subsymbolische Aussagen.

Wir untersuchen hybride Ansätze, die Methoden des maschinellen Lernens mit KGs kombinieren, um Vorhersagemodelle und Interpretierbarkeit zu verbessern. Als Ergebnis erwarten wir einen Paradigmenwechsel im Wissensmanagement hin zu erklärbarer KI.

Wir wenden unsere Techniken im Umgang mit Brustkrebs an. Personalisierte Therapien werden sich aus der Entwicklung der Krankheit einer Patientin ergeben, die auf der Grundlage des Patientenprofils vorhergesagt wird. Die Beschreibung von Patientenprofilen in Verbindung mit verfügbarem Wissen über Behandlungen wird ein besseres Verständnis und eine bessere Erklärung der Krankheitsentwicklung und der Wirksamkeit der Therapie ermöglichen.

Doktoranden: Can Aykul , Jonas Wallat