Abstract
Biochemistry
Die schnell wachsenden und riesigen Mengen an biomedizinischen Berichten, die jeweils zahlreiche Entitäten und reichhaltige Informationen enthalten, stellen eine reichhaltige Ressource für biomedizinische Text-Mining-Anwendungen dar. Diese Werkzeuge ermöglichen es Forschern, diese Entdeckungen zu integrieren, zu konzeptualisieren und zu übersetzen, um neue Erkenntnisse über die Krankheitspathologie und Therapeutika zu gewinnen. In diesem Protokoll stellen wir CaseOLAP LIFT vor, eine neue Rechenpipeline zur Untersuchung zellulärer Komponenten und ihrer Krankheitsassoziationen durch Extraktion von benutzerausgewählten Informationen aus Textdatensätzen (z. B. biomedizinischer Literatur). Die Software identifiziert subzelluläre Proteine und ihre funktionellen Partner in krankheitsrelevanten Dokumenten. Weitere krankheitsrelevante Dokumente werden über die Label-Imputationsmethode der Software identifiziert. Um die resultierenden Protein-Krankheits-Assoziationen zu kontextualisieren und Informationen aus mehreren relevanten biomedizinischen Ressourcen zu integrieren, wird automatisch ein Wissensgraph für weitere Analysen erstellt. Wir präsentieren einen Anwendungsfall mit einem Korpus von ~34 Millionen Textdokumenten, die online heruntergeladen wurden, um ein Beispiel für die Aufklärung der Rolle von mitochondrialen Proteinen bei verschiedenen Phänotypen von Herz-Kreislauf-Erkrankungen mit dieser Methode zu geben. Darüber hinaus wurde ein Deep-Learning-Modell auf den resultierenden Wissensgraphen angewendet, um bisher nicht berichtete Beziehungen zwischen Proteinen und Krankheiten vorherzusagen, was zu 1.583 Assoziationen mit vorhergesagten Wahrscheinlichkeiten >0,90 und mit einer Fläche unter der Receiver-Betriebskennlinie (AUROC) von 0,91 auf dem Testsatz führte. Diese Software verfügt über einen hochgradig anpassbaren und automatisierten Workflow mit einer breiten Palette von Rohdaten, die für die Analyse zur Verfügung stehen. Daher können mit dieser Methode Protein-Krankheits-Assoziationen mit erhöhter Zuverlässigkeit innerhalb eines Textkorpus identifiziert werden.
ABOUT JoVE
Copyright © 2024 MyJoVE Corporation. All rights reserved