Ein computergestütztes Protokoll, CaseOLAP LIFT, und ein Anwendungsfall zur Untersuchung von mitochondrialen Proteinen und ihren Assoziationen mit kardiovaskulären Erkrankungen, wie sie in biomedizinischen Berichten beschrieben sind, werden vorgestellt. Dieses Protokoll kann leicht angepasst werden, um vom Benutzer ausgewählte zelluläre Komponenten und Krankheiten zu untersuchen.
Die schnell wachsenden und riesigen Mengen an biomedizinischen Berichten, die jeweils zahlreiche Entitäten und reichhaltige Informationen enthalten, stellen eine reichhaltige Ressource für biomedizinische Text-Mining-Anwendungen dar. Diese Werkzeuge ermöglichen es Forschern, diese Entdeckungen zu integrieren, zu konzeptualisieren und zu übersetzen, um neue Erkenntnisse über die Krankheitspathologie und Therapeutika zu gewinnen. In diesem Protokoll stellen wir CaseOLAP LIFT vor, eine neue Rechenpipeline zur Untersuchung zellulärer Komponenten und ihrer Krankheitsassoziationen durch Extraktion von benutzerausgewählten Informationen aus Textdatensätzen (z. B. biomedizinischer Literatur). Die Software identifiziert subzelluläre Proteine und ihre funktionellen Partner in krankheitsrelevanten Dokumenten. Weitere krankheitsrelevante Dokumente werden über die Label-Imputationsmethode der Software identifiziert. Um die resultierenden Protein-Krankheits-Assoziationen zu kontextualisieren und Informationen aus mehreren relevanten biomedizinischen Ressourcen zu integrieren, wird automatisch ein Wissensgraph für weitere Analysen erstellt. Wir präsentieren einen Anwendungsfall mit einem Korpus von ~34 Millionen Textdokumenten, die online heruntergeladen wurden, um ein Beispiel für die Aufklärung der Rolle von mitochondrialen Proteinen bei verschiedenen Phänotypen von Herz-Kreislauf-Erkrankungen mit dieser Methode zu geben. Darüber hinaus wurde ein Deep-Learning-Modell auf den resultierenden Wissensgraphen angewendet, um bisher nicht berichtete Beziehungen zwischen Proteinen und Krankheiten vorherzusagen, was zu 1.583 Assoziationen mit vorhergesagten Wahrscheinlichkeiten >0,90 und mit einer Fläche unter der Receiver-Betriebskennlinie (AUROC) von 0,91 auf dem Testsatz führte. Diese Software verfügt über einen hochgradig anpassbaren und automatisierten Workflow mit einer breiten Palette von Rohdaten, die für die Analyse zur Verfügung stehen. Daher können mit dieser Methode Protein-Krankheits-Assoziationen mit erhöhter Zuverlässigkeit innerhalb eines Textkorpus identifiziert werden.
Die Untersuchung krankheitsrelevanter Proteine erweitert das wissenschaftliche Wissen über die Pathogenese und hilft, potenzielle Therapeutika zu identifizieren. Mehrere große Textkorpora biomedizinischer Publikationen, wie z. B. die 34 Millionen Artikel von PubMed, die Publikationstitel, Abstracts und Volltextdokumente enthalten, berichten über neue Erkenntnisse, die Proteine mit Krankheiten in Verbindung bringen. Diese Erkenntnisse sind jedoch über verschiedene Quellen hinweg fragmentiert und müssen integriert werden, um neue biomedizinische Erkenntnisse zu generieren. Es gibt mehrere biomedizinische Ressourcen, um Protein-Krankheits-Assoziationen zu integrieren 1,2,3,4,5,6,7. Diese kuratierten Ressourcen sind jedoch oft unvollständig und umfassen möglicherweise nicht die neuesten Forschungsergebnisse. Text-Mining-Ansätze sind unerlässlich, um Protein-Krankheits-Assoziationen in großen Textkorpora zu extrahieren und zu synthetisieren, was zu einem umfassenderen Verständnis dieser biomedizinischen Konzepte in der wissenschaftlichen Literatur führen würde.
Es gibt mehrere biomedizinische Text-Mining-Ansätze, um Protein-Krankheits-Beziehungen aufzudecken 8,9,10,11,12,13,14, und andere tragen teilweise zur Bestimmung dieser Beziehungen bei, indem sie die Proteine, Krankheiten oder andere biomedizinische Entitäten identifizieren, die in Text13,15,16,17 erwähnt werden. 18,19. Viele dieser Tools haben jedoch keinen Zugang zu der aktuellsten Literatur, mit Ausnahme einiger weniger, die regelmäßig aktualisiert werden 8,11,13,15. In ähnlicher Weise haben viele Instrumente auch einen begrenzten Untersuchungsumfang, da sie auf weit gefasste vordefinierte Krankheiten oder Proteine beschränkt sind 9,13. Mehrere Ansätze sind auch anfällig für die Identifizierung von falsch positiven Ergebnissen innerhalb des Textes. Andere haben diese Probleme mit einer interpretierbaren und globalen schwarzen Liste von Proteinnamen9,11 oder weniger interpretierbaren Techniken zur Erkennung von Namensentitäten15,20 angegangen. Während die meisten Ressourcen nur vorberechnete Ergebnisse präsentieren, bieten einige Tools Interaktivität über Web-Apps oder zugänglichen Softwarecode 8,9,11.
Um die oben genannten Einschränkungen zu adressieren, stellen wir das folgende Protokoll, CaseOLAP mit Label-Imputation und Volltext (CaseOLAP LIFT), als flexible und anpassbare Plattform vor, um Assoziationen zwischen Proteinen (z.B. Proteinen, die mit einer zellulären Komponente assoziiert sind) und Krankheiten aus Textdatensätzen zu untersuchen. Diese Plattform bietet die automatisierte Kuratierung von begriffsspezifischen Genontologie-Proteinen (z. B. organellenspezifische Proteine), die Imputation fehlender Themenbezeichnungen von Dokumenten, die Analyse von Volltextdokumenten sowie Analyse- und Vorhersagewerkzeuge (Abbildung 1, Abbildung 2 und Tabelle 1). CaseOLAP LIFT kuratiert organellenspezifische Proteine unter Verwendung von vom Benutzer bereitgestellten GO-Begriffen (z. B. Organellenkompartiment) und funktionell verwandte Proteine unter Verwendung von STRING21, Reactome 22 und GRNdb23. Dokumente zur Untersuchung von Krankheiten werden durch ihre PubMed-annotated Medical Subject Header (MeSH)-Etiketten identifiziert. Für die ~15,1% der unbeschrifteten Dokumente werden Bezeichnungen zugeschrieben, wenn mindestens ein MeSH-Begriffssynonym im Titel oder mindestens zwei im Abstract gefunden werden. Dadurch können bisher nicht kategorisierte Publikationen in der Text-Mining-Analyse berücksichtigt werden. CaseOLAP LIFT ermöglicht es dem Benutzer auch, Abschnitte von Publikationen (z. B. nur Titel und Abstracts, Volltext oder Volltext ohne Methoden) innerhalb eines bestimmten Zeitraums (z. B. 2012-2022) auszuwählen. Die Software kuratiert auch halbautomatisch eine anwendungsfallspezifische Blacklist mit Proteinnamen, wodurch die falsch-positiven Protein-Krankheits-Assoziationen, die bei anderen Ansätzen vorhanden sind, erheblich reduziert werden. Insgesamt ermöglichen diese Verbesserungen eine größere Anpassbarkeit und Automatisierung, erweitern die Menge der für die Analyse verfügbaren Daten und führen zu zuverlässigeren Protein-Krankheits-Assoziationen aus großen biomedizinischen Textkorpora.
CaseOLAP LIFT integriert biomedizinisches Wissen und stellt die Beziehung verschiedener biomedizinischer Konzepte mit Hilfe eines Wissensgraphen dar, der genutzt wird, um verborgene Beziehungen im Graphen vorherzusagen. In jüngster Zeit wurden graphenbasierte Berechnungsmethoden auf biologische Umgebungen angewendet, einschließlich der Integration und Organisation biomedizinischer Konzepte 24,25, der Umwidmung und Entwicklung von Medikamenten 26,27,28 und für die klinische Entscheidungsfindung aus Proteomikdaten 29.
Um den Nutzen von CaseOLAP LIFT bei der Erstellung eines Wissensgraphen zu demonstrieren, beleuchten wir einen Anwendungsfall zur Untersuchung der Assoziationen zwischen mitochondrialen Proteinen und acht Kategorien von Herz-Kreislauf-Erkrankungen. Die Evidenz aus ~362.000 krankheitsrelevanten Dokumenten wurde analysiert, um die wichtigsten mitochondrialen Proteine und Signalwege zu identifizieren, die mit den Krankheiten verbunden sind. Als nächstes wurden diese Proteine, ihre funktionell verwandten Proteine und ihre Text-Mining-Ergebnisse in einen Wissensgraphen integriert. Diese Grafik wurde in einer Deep-Learning-basierten Link-Prediction-Analyse genutzt, um Protein-Krankheits-Assoziationen vorherzusagen, über die in biomedizinischen Publikationen bisher nicht berichtet wurde.
In der Einleitung werden die Hintergrundinformationen und Ziele unseres Protokolls beschrieben. Im folgenden Abschnitt werden die Schritte des Berechnungsprotokolls beschrieben. Anschließend werden die repräsentativen Ergebnisse dieses Protokolls beschrieben. Abschließend gehen wir kurz auf die Anwendungsfälle, Vorteile, Nachteile und zukünftigen Anwendungen des Computerprotokolls ein.
1. Ausführen des Docker-Containers
2. Vorbereitung der Krankheiten und Proteine
3. Text-Mining
4. Analyse der Ergebnisse
5. Prädiktive Analyse
Nach diesem Protokoll wurden repräsentative Ergebnisse erzielt, um die Assoziationen zwischen mitochondrialen Proteinen (Tabelle 2) und acht Kategorien von Herz-Kreislauf-Erkrankungen (Tabelle 3) zu untersuchen. In diesen Kategorien fanden wir 363.567 Publikationen, die von 2012 bis Oktober 2022 veröffentlicht wurden (362.878 kategorisiert nach MeSH-Metadaten, 6.923 kategorisiert nach Label-Imputation). Alle Publikationen hatten Titel, 276.524 hatten Abstracts und 51.065 hatten den Volltext. Insgesamt wurden 584 der 1.687 abgefragten mitochondrialen Proteine innerhalb der Publikationen identifiziert, während 3.284 der 8.026 abgefragten funktionell verwandten Proteine identifiziert wurden. Insgesamt wurden 14 einzigartige Proteine mit signifikanten Scores über alle Krankheitskategorien hinweg identifiziert, mit einem Z-Score-Schwellenwert von 3,0 (Abbildung 5). Die Analyse des Reactome-Signalwegs dieser Proteine ergab 12 Signalwege, die für alle Krankheiten von Bedeutung sind (Abbildung 6). Alle Proteine, Signalwege, Krankheiten und Scores wurden in einen Wissensgraphen integriert (Tabelle 4). Dieser Wissensgraph wurde genutzt, um 12.688 neuartige Protein-Krankheits-Assoziationen vorherzusagen, und mit einem Wahrscheinlichkeitswert von 0,90 gefiltert, um 1.583 Vorhersagen mit hoher Zuverlässigkeit zu erhalten. Ein hervorgehobenes Beispiel für zwei Protein-Krankheits-Assoziationen ist in Abbildung 7 dargestellt, dargestellt im Zusammenhang mit anderen relevanten biologischen Entitäten, die funktionell mit den Proteinen verwandt sind. Die Modellbewertungsmetriken sind in Tabelle 5 aufgeführt.
Abbildung 1: Dynamische Ansicht des Workflows. Diese Abbildung stellt die vier Hauptschritte in diesem Workflow dar. Zuerst werden relevante Proteine auf der Grundlage der vom Benutzer bereitgestellten GO-Begriffe (z. B. zelluläre Komponenten) kuratiert, und Krankheitskategorien werden auf der Grundlage der vom Benutzer bereitgestellten Krankheits-MeSH-Identifikatoren vorbereitet. Zweitens werden im Text-Mining-Schritt Assoziationen zwischen Proteinen und Krankheiten berechnet. Publikationen innerhalb eines bestimmten Datumsbereichs werden heruntergeladen und indiziert. Publikationen, die sich mit der Krankheit befassen, werden identifiziert (über MeSH-Labels und optional über imputierte Labels), und ihre Volltexte werden heruntergeladen und indiziert. Proteinnamen werden in den Publikationen abgefragt und zur Berechnung der Protein-Krankheits-Assoziationswerte verwendet. Im Anschluss an das Text-Mining helfen diese Scores dabei, die wichtigsten Protein- und Signalweg-Assoziationen zu identifizieren. Abschließend wird ein Wissensgraph erstellt, der diese Proteine, Krankheiten und ihre Beziehungen innerhalb der biomedizinischen Wissensbasis umfasst. Neue Protein-Krankheits-Assoziationen werden auf der Grundlage des konstruierten Wissensgraphen vorhergesagt. In diesen Schritten werden die neuesten verfügbaren Daten aus den biomedizinischen Wissensdatenbanken und PubMed verwendet. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 2: Technische Architektur des Workflows. Die technischen Details dieses Workflows sind in dieser Abbildung dargestellt. Der Benutzer gibt die MeSH-Baumnummern der Krankheitskategorien und GO-Begriffe an. Textdokumente werden von PubMed heruntergeladen, krankheitsrelevante Dokumente werden anhand der bereitgestellten MeSH-Labels identifiziert und Dokumente ohne themenbezogene MeSH-Labels erhalten imputierte Kategorie-Labels. Die Proteine, die mit dem/den bereitgestellten GO-Begriff(en) assoziiert sind, werden erworben. Dieser Proteinsatz wird um Proteine erweitert, die über Protein-Protein-Interaktionen, gemeinsame biologische Signalwege und die Abhängigkeit von Transkriptionsfaktoren funktionell miteinander verwandt sind. Diese Proteine werden innerhalb krankheitsrelevanter Dokumente abgefragt und von CaseOLAP bewertet. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 3: Ein Beispiel für ein verarbeitetes Dokument. Hier finden Sie ein Beispiel für ein analysiertes, indiziertes Textdokument. In den relevanten Feldern werden der Indexname (_index, _type), die PubMed-ID (_id, pmid), die Unterabschnitte des Dokuments (Titel, Abstract, full_text, Einleitung, Methoden, Ergebnisse, Diskussion) und weitere Metadaten (Jahr, MeSH, Ort, Zeitschrift) angegeben. Nur zu Anzeigezwecken werden die Unterabschnitte des Dokuments mit Auslassungspunkten abgeschnitten. Das MeSH-Feld enthält die Dokumentthemen, die manchmal durch unseren Label-Imputation-Schritt bereitgestellt werden können. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 4: Schema des Wissensgraphen und biomedizinische Ressourcen. Diese Abbildung zeigt das Schema des Wissensgraphen. Jeder Knoten und jede Kante stellt einen Knoten- bzw. Kantentyp dar. Die Grenzen zwischen kardiovaskulären Erkrankungen (CVDs) und Proteinen werden durch CaseOLAP-Scores gewichtet. Die Kanten der Protein-Protein-Interaktion (PPI) werden durch STRING-Konfidenzwerte gewichtet. Die GRNdb/GTEx-abgeleiteten Transkriptionsfaktor-Abhängigkeitskanten (TFD), die MeSH-abgeleiteten Krankheitsbaumkanten und die Reaktom-abgeleiteten Signalwegkanten sind ungewichtet. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 5: Die wichtigsten Protein-Krankheits-Assoziationen. Diese Abbildung zeigt mitochondriale Proteine, die für jede Krankheitskategorie von Bedeutung sind. Die Z-Score-Transformation wurde auf die CaseOLAP-Scores innerhalb jeder Kategorie angewendet, um signifikante Proteine mit einem Schwellenwert von 3,0 zu identifizieren. (Nach oben) Anzahl der mitochondrialen Proteine, die für jede Krankheit von Bedeutung sind: Diese Geigendiagramme zeigen die Verteilung der Z-Werte für Proteine in jeder Krankheitskategorie. Die Gesamtzahl der Proteine, die für jede Krankheitskategorie von Bedeutung sind, wird über jedem Geigendiagramm angezeigt. Insgesamt wurden 14 einzigartige Proteine als signifikant für alle Krankheiten identifiziert, und einige Proteine waren für mehrere Krankheiten von Bedeutung. (Unten) Top-Scoring-Proteine: Die Heatmap zeigt die Top-10-Proteine an, die die höchsten durchschnittlichen Z-Werte für alle Krankheiten erhalten haben. Die Leerwerte stellen keinen erhaltenen Score zwischen dem Protein und der Krankheit dar. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 6: Die wichtigsten Assoziationen zwischen Signalweg und Krankheit. Diese Abbildung veranschaulicht die wichtigsten biologischen Signalwege, die mit den untersuchten Krankheitskategorien assoziiert sind, wie sie durch die Analyse des Reaktomwegs bestimmt wurden. Alle Pathway-Analysen wurden mit p < 0,05 gefiltert. Die Heatmap-Werte stellen den durchschnittlichen Z-Score aller Proteine innerhalb des Signalwegs dar. (Nach oben) Signalwege unter allen Krankheiten: Insgesamt wurden 14 Proteine identifiziert, die für alle Krankheitskategorien relevant sind, und 12 konservierte Signalwege in allen Krankheitskategorien wurden aufgedeckt. Basierend auf der hierarchischen Struktur des Pfades wurde ein Dendrogramm erstellt, um die Pfade mit ähnlichen biologischen Funktionen zu verbinden. Die Dendrogrammhöhe stellt die relative Tiefe innerhalb der Pfadhierarchie dar. Breite biologische Funktionen haben längere Gliedmaßen, und spezifischere Bahnen haben kürzere Gliedmaßen. (Unten) Signalwege, die sich von einer Krankheitskategorie unterscheiden: Die Signalweganalyse wurde anhand von Proteinen durchgeführt, die bei jeder Krankheit einen signifikanten Z-Score erreichten. Die drei wichtigsten Signalwege mit den niedrigsten p-Werten, die mit jeder Krankheit assoziiert sind, sind dargestellt und mit Sternchen gekennzeichnet. Die Signalwege könnten bei mehreren Krankheiten unter den ersten drei liegen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 7: Anwendung von Deep Learning für die Vervollständigung von Wissensgraphen. Ein Beispiel für die Anwendung von Deep Learning auf einen krankheitsspezifischen Wissensgraphen ist in dieser Abbildung dargestellt. Verborgene Zusammenhänge zwischen Proteinen und Krankheiten werden vorhergesagt, und diese sind blau dargestellt. Es werden berechnete Wahrscheinlichkeiten für beide Vorhersagen angezeigt, wobei Werte im Bereich von 0,0 bis 1,0 liegen und 1,0 eine starke Vorhersage angibt. Es sind mehrere Proteine mit bekannten Wechselwirkungen enthalten, die Protein-Protein-Interaktionen, die Abhängigkeit von Transkriptionsfaktoren und gemeinsame biologische Signalwege repräsentieren. Zur Veranschaulichung wird ein Teildiagramm mit einigen Knoten angezeigt, die für das hervorgehobene Beispiel relevant sind. Schlüssel: IHD = ischämische Herzkrankheit; R-HSA-1430728 = Stoffwechsel; O14949 = Untereinheit des Cytochrom-B-C1-Komplexes 8; P17568 = NADH-Dehydrogenase (Ubichinon) 1 Beta-Unterkomplex-Untereinheit 7; Q9NYF8 Bcl-2-assoziierter Transkriptionsfaktor 1, Punktzahl: 7,24 x 10−7; P49821 = NADH-Dehydrogenase (Ubichinon) Flavoprotein 1, mitochondrial, Score: 1,06 x 10−5; P31930 = Cytochrom-b-c1-Komplex-Untereinheit 1, mitochondrial, Score: 4,98 x 10−5; P99999 = Cytochrom c, Punktzahl: 0,399. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Tabelle 1: Workflow und ratenbegrenzende Schritte. Diese Tabelle enthält grobe Schätzungen der Rechenzeit für jede Phase des Workflows. Optionen zum Einbeziehen von Komponenten der Pipeline ändern die Gesamtlaufzeit, die zum Abschließen der Analyse erforderlich ist. Die geschätzte Gesamtzeit hängt von den verfügbaren Rechenressourcen ab, einschließlich der Hardwarespezifikationen und Softwareeinstellungen. Als grobe Schätzung dauerte die Ausführung des Protokolls auf unserem Rechenserver mit sechs Kernen, 32 GB RAM und 2 TB Speicher 36 Stunden aktive Laufzeit, aber dies kann auf anderen Geräten schneller oder langsamer sein. Bitte klicken Sie hier, um diese Tabelle herunterzuladen.
Tabelle 2: Automatischer Zusammenbau der zellulären Komponentenproteine. Diese Tabelle zeigt die Anzahl der Proteine, die mit einer bestimmten zellulären Komponente (d. h. GO-Begriff) assoziiert sind, Proteine, die über Protein-Protein-Interaktionen (PPI), gemeinsame Signalwege (PW) und Transkriptionsfaktorabhängigkeit (TFD) funktionell mit ihnen verbunden sind. Die Anzahl der Gesamtproteine ist die Anzahl der Proteine aus allen vorherigen Kategorien zusammen. Alle funktionell verwandten Proteine wurden mit den Standardparametern von CaseOLAP LIFT erhalten. Bitte klicken Sie hier, um diese Tabelle herunterzuladen.
Tabelle 3: MeSH-Label-Imputationsstatistiken. Diese Tabelle zeigt die Krankheitskategorien, die MeSH-Baumnummern, die als übergeordneter Begriff aller in der Kategorie enthaltenen Krankheiten verwendet werden, die Anzahl der PubMed-Artikel, die in jeder Kategorie von 2012 bis 2022 gefunden wurden, und die Anzahl der zusätzlichen Artikel, die auf der Grundlage des Label-Imputationsschritts enthalten sind. Bitte klicken Sie hier, um diese Tabelle herunterzuladen.
Tabelle 4: Knowledge Graph Baustatistik. In dieser Tabelle werden die Statistiken für die Größe des erstellten Wissensgraphen beschrieben, einschließlich der verschiedenen Knoten und Kantentypen. Die CaseOLAP-Scores stellen die Beziehung zwischen einem Protein und einer Kategorie von Herz-Kreislauf-Erkrankungen (CVD) dar. Bitte klicken Sie hier, um diese Tabelle herunterzuladen.
Tabelle 5: Vorhersagestatistiken und Validierungen von Wissensgraphen. Diese Tabelle zeigt die Auswertungsmetriken für die Vorhersage des Wissensgraphen-Links von neuartigen/versteckten Protein-Krankheits-Assoziationen. Die Ränder des Wissensgraphen wurden in 70/30-Trainings- und Testdatensätze partitioniert, und die Graphkonnektivität der Kanten wurde in beiden Datensätzen beibehalten. Die Genauigkeit gibt den Anteil der korrekt klassifizierten Vorhersagen an, während die ausgeglichene Genauigkeit das Klassenungleichgewicht korrigiert. Die Spezifität gibt den Anteil der negativen Vorhersagen an, die korrekt klassifiziert wurden. Die Genauigkeit gibt den Anteil der richtigen positiven Vorhersagen an allen positiven Vorhersagen an, während der Rückruf den Anteil der richtigen positiven Vorhersagen an allen positiven Kanten angibt (d. h. Protein-Krankheits-Assoziationen, die durch Text-Mining identifiziert wurden). Der F1-Score ist das harmonische Mittel der Präzision und des Abrufs. Der Bereich unter der Receiver Operating Characteristic Curve (AUROC) beschreibt, wie gut das Modell zwischen positiven und negativen Vorhersagen unterscheidet, wobei 1,0 einen perfekten Klassifikator anzeigt. Der Bereich unter der Precision-Recall-Kurve (AUPRC) misst den Kompromiss zwischen Präzision und Abruf bei unterschiedlichen Wahrscheinlichkeitsschwellenwerten, wobei höhere Werte eine bessere Leistung anzeigen. Bitte klicken Sie hier, um diese Tabelle herunterzuladen.
CaseOLAP LIFT ermöglicht es Forschern, Zusammenhänge zwischen funktionellen Proteinen (z. B. Proteine, die mit einer zellulären Komponente, einem biologischen Prozess oder einer molekularen Funktion assoziiert sind) und biologischen Kategorien (z. B. Krankheiten) zu untersuchen. Das beschriebene Protokoll sollte in der angegebenen Reihenfolge ausgeführt werden, wobei Protokollabschnitt 2 und Protokollabschnitt 3 die kritischsten Schritte sind, da Protokollabschnitt 4 und Protokollabschnitt 5 von ihren Ergebnissen abhängen. Alternativ zu Protokollabschnitt 1 kann der CaseOLAP-LIFT-Code geklont und über das GitHub-Repository (https://github.com/CaseOLAP/caseolap_lift) aufgerufen werden. Es ist zu beachten, dass trotz Tests während der Softwareentwicklung Fehler auftreten können. Wenn dies der Fall ist, sollte der fehlgeschlagene Schritt wiederholt werden. Wenn das Problem weiterhin besteht, wird empfohlen, Protokollabschnitt 1 zu wiederholen, um sicherzustellen, dass die neueste Version des Docker-Containers verwendet wird. Weitere Unterstützung erhalten Sie, indem Sie ein Problem im GitHub-Repository erstellen, um zusätzliche Unterstützung zu erhalten.
Diese Methode unterstützt die Hypothesengenerierung, indem sie es den Forschern ermöglicht, interessante Entitäten zu identifizieren und die potenziellen Assoziationen zwischen ihnen aufzudecken, die in bestehenden biomedizinischen Ressourcen möglicherweise nicht ohne weiteres zugänglich sind. Die daraus resultierenden Protein-Krankheits-Assoziationen ermöglichen es den Forschern, neue Erkenntnisse über die interpretierbaren Metriken der Scores zu gewinnen: Die Popularitätswerte zeigen die am häufigsten untersuchten Proteine in Bezug auf eine Krankheit an, die Distinctiveness-Scores zeigen Krankheiten an, die für ein Protein am einzigartigsten sind, und der kombinierte CaseOLAP-Score ist eine Kombination aus beiden. Um falsch-positive Identifikationen (z. B. aufgrund von Homonymen) zu verhindern, verwenden einige Text-Mining-Tools eine Blacklist von Begriffen, um 9,11 zu vermeiden. Ebenso verwendet CaseOLAP LIFT ebenfalls eine Blacklist, ermöglicht es dem Benutzer jedoch, die Blacklist an seinen Anwendungsfall anzupassen. Bei der Untersuchung der koronaren Herzkrankheit (KHK) sollte beispielsweise "KHK" nicht als Bezeichnung für das Protein "Caspase-aktivierte Desoxyribonuklease" angesehen werden. Wenn Sie sich jedoch mit anderen Themen befassen, kann sich "CAD" in der Regel auf das Protein beziehen.
CaseOLAP LIFT passt sich der Datenmenge an, die für das Text-Mining zur Verfügung steht. Die Datumsbereichsfunktionalität verringert den Rechenaufwand und schafft Flexibilität bei der Hypothesenerstellung (z. B. um zu untersuchen, wie sich die wissenschaftlichen Erkenntnisse über eine Protein-Krankheits-Assoziation im Laufe der Zeit verändert haben). In der Zwischenzeit erweitern die Label-Imputation und die Volltextkomponenten den Umfang der Daten, die für das Text-Mining zur Verfügung stehen. Beide Komponenten sind standardmäßig deaktiviert, um die Rechenkosten zu reduzieren, aber der Benutzer kann sich entscheiden, eine der beiden Komponenten einzubeziehen. Die Label-Imputation ist konservativ und kategorisiert die meisten Publikationen korrekt (87 % Genauigkeit), übersieht aber andere Kategorie-Labels (2 % Recall). Diese Methode beruht derzeit auf einer regelbasierten Heuristik, die Krankheitsschlüsselwörter abgleicht, und es gibt Pläne, die Leistung durch den Einsatz von Techniken zur Modellierung von Dokumentthemen zu verbessern. Da es sich bei vielen nicht kategorisierten Berichten in der Regel um aktuelle Veröffentlichungen handelt, ist es für Studien, die einen aktuellen Zeitraum untersuchen (z. B. alle Veröffentlichungen innerhalb der letzten 3 Jahre), besser, wenn die Label-Imputation deaktiviert wird. Die Volltextkomponente erhöht den Laufzeit- und Speicherbedarf. Bemerkenswert ist, dass nur für eine Minderheit der Dokumente der Volltext verfügbar ist (~14% der Dokumente in unserer Studie). Unter der Annahme, dass die Proteinnamen, die im Methodenteil der Publikationen erwähnt werden, mit geringerer Wahrscheinlichkeit mit den Krankheitsthemen in Verbindung stehen, wird empfohlen, Volltextartikel ohne Methodenabschnitt abzufragen.
Die resultierenden Protein-Krankheits-Assoziationswerte sind nützlich für traditionelle Analysen wie Clustering, Dimensionalitätsreduktion oder Anreicherungsanalysen (z. B. GO, Signalwege), wobei einige Implementierungen in diesem Softwarepaket enthalten sind. Um diese Scores in den Kontext des vorhandenen biomedizinischen Wissens zu stellen, wird automatisch ein Wissensgraph erstellt, der mit Hilfe von Graphenvisualisierungswerkzeugen (z. B. Neo4j32, Cytoscape33) untersucht werden kann. Der Wissensgraph kann auch für prädiktive Analysen verwendet werden (z. B. Link-Vorhersage von nicht gemeldeten Protein-Krankheits-Beziehungen, Community-Erkennung von Proteinnetzwerken, preisgekrönte Path-Walking-Methoden).
Wir haben die Modellbewertungsmetriken für die vorhergesagten Protein-Krankheits-Assoziationen untersucht (Tabelle 5). Das Modell weist jeder Protein-Krankheits-Assoziation einen Wahrscheinlichkeitswert zwischen 0,0 und 1,0 zu, wobei Werte näher an 1,0 auf ein höheres Maß an Vertrauen in die Vorhersage hinweisen. Die interne Bewertung der Modellleistung, die auf verschiedenen Metriken wie AUROC, Genauigkeit, ausgewogener Genauigkeit, Spezifität und Erinnerungswert basierte, deutete auf eine hervorragende Gesamtleistung seiner Arbeit hin. Die Auswertung ergab jedoch auch eine eher schlechte Bewertung für die Genauigkeit (0,15) des Modells, was sowohl zu einem niedrigeren AUPRC- als auch zu einem F1-Wert führte. Zukünftige Studien zur Verbesserung dieser Metrik werden dazu beitragen, die Gesamtleistung des Modells zu erhöhen. Wir stellen uns vor, dass dies durch die Implementierung ausgefeilterer Einbettungs- und Graphvorhersagemodelle erreicht werden könnte. Basierend auf der Genauigkeit des Modells von 0,15 sollten die Ermittler mit etwa 15 % positiven Identifizierungen rechnen. Insbesondere von allen 12.688 Protein-Krankheits-Assoziationen, die vom Modell vorhergesagt werden, sind etwa 15 % richtig-positive Assoziationen. Dies kann gemildert werden, indem nur Protein-Krankheits-Assoziationen mit einem hohen Wahrscheinlichkeitswert (z. B. >0,90) berücksichtigt werden. In unserem Anwendungsfall führte die Filterung mit einem Wahrscheinlichkeitsschwellenwert von 0,90 zu Vorhersagen mit hoher Zuverlässigkeit von 1.583 Assoziationen. Für die Forscher kann es hilfreich sein, diese Vorhersagen auch manuell zu überprüfen, um eine hohe Validität zu gewährleisten (siehe Abbildung 7 als Beispiel). Eine externe Auswertung unserer Vorhersagen ergab, dass von den 310 Protein-Krankheits-Assoziationen aus einer umfangreichen kuratierten Datenbank DisGeNet19.103 in unserer Text-Mining-Studie identifiziert wurden und 88 weitere Assoziationen durch unsere Knowledge-Graph-Analyse mit einem Wahrscheinlichkeitswert >0,90 vorhergesagt wurden.
Insgesamt zeichnet sich CaseOLAP LIFT durch eine verbesserte Flexibilität und Benutzerfreundlichkeit bei der Gestaltung benutzerdefinierter Analysen der Assoziationen zwischen funktionellen Proteingruppen und mehreren Krankheitskategorien in großen Textkorpora aus. Dieses Paket wird in einer neuen benutzerfreundlichen Befehlszeilenschnittstelle optimiert und als Docker-Container veröffentlicht, wodurch die Probleme im Zusammenhang mit der Konfiguration der Programmierumgebungen und Softwareabhängigkeiten reduziert werden. Die CaseOLAP LIFT-Pipeline zur Untersuchung von mitochondrialen Proteinen bei Herz-Kreislauf-Erkrankungen kann leicht angepasst werden. Zukünftige Anwendungen dieser Technik könnten beispielsweise die Untersuchung der Assoziationen zwischen Proteinen umfassen, die mit GO-Begriffen und biomedizinischen Kategorien assoziiert sind. Darüber hinaus sind die von dieser Text-Mining-Plattform identifizierten Assoziationen zwischen Proteinen und Krankheiten wichtig für die Vorbereitung des Datensatzes für den Einsatz fortschrittlicher natürlicher Sprachtechniken. Der daraus resultierende Wissensgraph ermöglicht es den Forschern, diese Erkenntnisse in biologisch aussagekräftiges Wissen umzuwandeln und legt den Grundstein für weitere graphenbasierte Analysen.
Die Autoren haben nichts zu verraten.
Diese Arbeit wurde von den National Institutes of Health (NIH) R35 HL135772 an P.P., NIH T32 HL13945 an A.R.P. und D.S., NIH T32 EB016640 an A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 an A.R.P. und D.S., NIH R01 HL146739 für I.A., J.R., A.V., K.B. und die TC Laubisch Endowment an P.P. an der UCLA unterstützt.
Name | Company | Catalog Number | Comments |
Software - Docker | Docker | N/A | docker.com |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten