Ein Knowledge-Graph-Ansatz zur Aufklärung der Rolle von Organellen-Signalwegen bei Krankheiten anhand biomedizinischer Berichte

Published: October 13th, 2023

DOI:

Alexander R. Pelletier^1,2,3, Dylan Steinecke^1,3,4, Dibakar Sigdel¹, Irsyad Adam¹, J. Harry Caufield¹, Vladimir Guevara-Gonzalez¹, Joseph Ramirez¹, Aarushi Verma¹, Kaitlyn Bali¹, Katherine Downs¹, Wei Wang^1,2,3, Alex Bui^3,4, Peipei Ping^1,2,3,4,5

¹Department of Physiology, UCLA School of Medicine, ²Scalable Analytics Institute (ScAi) at Department of Computer Science, UCLA School of Engineering, ³NIH BRIDGE2AI Center at UCLA & NHLBI Integrated Cardiovascular Data Science Training Program, UCLA, ⁴Medical Informatics, University of California at Los Angeles (UCLA), ⁵Department of Medicine (Cardiology), UCLA School of Medicine

Die schnell wachsenden und riesigen Mengen an biomedizinischen Berichten, die jeweils zahlreiche Entitäten und reichhaltige Informationen enthalten, stellen eine reichhaltige Ressource für biomedizinische Text-Mining-Anwendungen dar. Diese Werkzeuge ermöglichen es Forschern, diese Entdeckungen zu integrieren, zu konzeptualisieren und zu übersetzen, um neue Erkenntnisse über die Krankheitspathologie und Therapeutika zu gewinnen. In diesem Protokoll stellen wir CaseOLAP LIFT vor, eine neue Rechenpipeline zur Untersuchung zellulärer Komponenten und ihrer Krankheitsassoziationen durch Extraktion von benutzerausgewählten Informationen aus Textdatensätzen (z. B. biomedizinischer Literatur). Die Software identifiziert subzelluläre Proteine und ihre funktionellen Partner in krankheitsrelevanten Dokumenten. Weitere krankheitsrelevante Dokumente werden über die Label-Imputationsmethode der Software identifiziert. Um die resultierenden Protein-Krankheits-Assoziationen zu kontextualisieren und Informationen aus mehreren relevanten biomedizinischen Ressourcen zu integrieren, wird automatisch ein Wissensgraph für weitere Analysen erstellt. Wir präsentieren einen Anwendungsfall mit einem Korpus von ~34 Millionen Textdokumenten, die online heruntergeladen wurden, um ein Beispiel für die Aufklärung der Rolle von mitochondrialen Proteinen bei verschiedenen Phänotypen von Herz-Kreislauf-Erkrankungen mit dieser Methode zu geben. Darüber hinaus wurde ein Deep-Learning-Modell auf den resultierenden Wissensgraphen angewendet, um bisher nicht berichtete Beziehungen zwischen Proteinen und Krankheiten vorherzusagen, was zu 1.583 Assoziationen mit vorhergesagten Wahrscheinlichkeiten >0,90 und mit einer Fläche unter der Receiver-Betriebskennlinie (AUROC) von 0,91 auf dem Testsatz führte. Diese Software verfügt über einen hochgradig anpassbaren und automatisierten Workflow mit einer breiten Palette von Rohdaten, die für die Analyse zur Verfügung stehen. Daher können mit dieser Methode Protein-Krankheits-Assoziationen mit erhöhter Zuverlässigkeit innerhalb eines Textkorpus identifiziert werden.

Explore More Videos

Biochemie

Heft 200

This article has been published

Video Coming Soon

Keep me updated: