Dieses Computerprotokoll ist von Bedeutung, da es eine Arbeit ermöglicht, Assoziationen zwischen zellulären Komponenten, z. B. Mitochondrienproteinen, und deren Assoziationen mit Krankheiten zu untersuchen, wie in biomedizinischen Publikationen berichtet wird. CaseOLAP LIFT ermöglicht es Forschern, Informationen aus biomedizinischen Berichten und Wissensdatenbanken zu extrahieren und zu integrieren. Diese Ergebnisse sind als Wissensgraph organisiert und können genutzt werden, um neue Beziehungen vorherzusagen.
Diese Forschungsergebnisse unterstützen die Hypothesenbildung, indem sie eine priorisierte Liste identifizierter und vorhergesagter Proteinkrankheitsassoziationen hervorheben, die nützlich sind, um neue Erkenntnisse über die Krankheitspathologie und -therapie zu gewinnen. Dieser hochgradig anpassbare Workflow kann auf jede zelluläre Komponente über ihren GO-Begriff, auf jede Liste von Krankheiten über ihren MeSH-Begriff innerhalb eines beliebigen Veröffentlichungsdatumsbereichs angewendet werden. Dieses benutzerfreundliche Protokoll minimiert die für die Analyse erforderliche Rechenkompetenz.
Die Software wird als Docker-Container veröffentlicht und benötigt nur ausreichend Rechenspeicher und Ressourcen für die Ausführung. Öffnen Sie zunächst das Terminalfenster, um den Docker-Container CaseOLAP LIFT herunterzuladen, und geben Sie docker pull CaseOLAP slash CaseOLAP_LIFT latest ein. Erstellen Sie ein Verzeichnis, in dem alle Programmdaten und -ausgaben gespeichert werden.
Starten Sie den Docker-Container mit dem auf dem Bildschirm angezeigten Befehl, und ersetzen Sie PATH_TO_FOLDER als vollständigen Dateipfad für den Ordner. Um die Elasticsearch innerhalb des Containers zu starten, öffnen Sie ein neues Terminalfenster und geben Sie den auf dem Bildschirm angezeigten Befehl ein. Navigieren Sie zum Ordner CaseOLAP_LIFT.
Stellen Sie sicher, dass die Download-Links und der Konfigurations-Schrägstrich knowledge_base_links. JSON sind für die neueste Version jeder Wissensdatenbankressource auf dem neuesten Stand und genau. Um die Gen-Ontologie oder den GO-Begriff zu bestimmen, gehen Sie auf die Website Geneontologie.
org und suchen Sie die Bezeichner für alle GO-Begriffe. In ähnlicher Weise finden Sie die Krankheitskategorien über den Medical Subject Header oder die MeSH-Identifikatoren auf der auf dem Bildschirm angezeigten Website. Um das Vorverarbeitungsmodul auszuführen, geben Sie die benutzerdefinierten untersuchten GO-Begriffe mit dem Strich-C-Flag, die MeSH-Baumnummern der Krankheit mit dem Bindestrich-D-Flag und die Abkürzungen mit dem Bindestrich-A-Flag an.
Geben Sie zum Ausführen des Textminingmoduls Python, space CaseOLAP_LIFT ein. py, Leerzeichen, text_mining und fügen Sie das Bindestrich-L-Flag hinzu, um die Themen von nicht kategorisierten Dokumenten zu imputieren, und das Bindestrich-T-Flag, um den Volltext der krankheitsrelevanten Dokumente herunterzuladen. Stellen Sie sicher, dass sich die Text Mining-Ergebnisse im Ergebnisordner befinden.
Geben Sie die Text-Mining-Ergebnisse an, die für die Analyse verwendet werden sollen, indem Sie entweder alle Proteine analysieren, um alle funktionell verwandten Proteine einzuschließen, oder Kernproteine analysieren, um nur die GO-Begriffsproteine einzubeziehen. Um die wichtigsten Proteine und Signalwege für jede Krankheit zu identifizieren, werden die CaseOLAP-Scores innerhalb jeder Krankheitskategorie um den Z-Score transformiert. Geben Sie das Z-Flag mit dem Bindestrich an, um einen bestimmten Schwellenwert anzugeben, ab dem die Proteine als signifikant eingestuft werden.
Überprüfen Sie die Analyseergebnisse und passen Sie sie bei Bedarf an. Öffnen Sie die Datei z_score_cutoff_table. csv, um die generierte Z-Score-Tabelle anzuzeigen, die die Anzahl der Proteine enthält, die für jede Krankheitskategorie von Bedeutung sind.
Dies hilft dem Benutzer, einen geeigneten Z-Score-Schwellenwert auszuwählen. Öffnen Sie den Ergebnisordner, und stellen Sie sicher, dass sich die erforderlichen Dateien, einschließlich des Ordners, der aus der Vorverarbeitung generiert wurde, im Ordner befinden. Suchen Sie nach allen Proteinen in den wichtigsten Proteinordnern.
Um den Knowledge Graph zu entwerfen, schließen Sie den MeSH-Krankheitsbaum mit dem Flag include MeSH ein. Die Protein-Protein-Interaktionen aus dem String mit dem PPI-Flag, den gemeinsamen Reactome-Signalwegen mit dem PW-Flag und der Transkriptionsfaktorabhängigkeit von GRNdb GTEx mit dem TFD-Flag. Führen Sie das Modul zum Erstellen des Wissensgraphen aus, indem Sie die Option "Kernproteine analysieren" so angeben, dass nur die mit dem GO-Begriff verbundenen Proteine enthalten sind.
Um die Kantengewichtungen zu skalieren, verwenden Sie die Z-Punktzahl für nicht negative Z-Werte anstelle der standardmäßigen CaseOLAP-Bewertungen. Überprüfen Sie die Ausgabe und stellen Sie sicher, dass die Knowledge Graph-Dateien merged_edges. TSV und merged_nodes.
tsv-Dateien vorhanden sind. Geben Sie abschließend den auf dem Bildschirm angezeigten Befehl ein, um das Skript für die Vorhersage des Wissensgraphen zur Vorhersage der Proteinkrankheitsassoziationen auszuführen. Diese Abbildung zeigt das mitochondriale Protein, das für jede Krankheitskategorie von Bedeutung ist.
Die Z-Score-Transformation wurde auf die CaseOLAP-Scores innerhalb jeder Kategorie angewendet, um signifikante Proteine mit einem Schwellenwert von drei zu identifizieren. Die Gesamtzahl der Proteine, die für jede Krankheitskategorie von Bedeutung sind, wird über jedem Geigendiagramm angezeigt. Die Analyse des Reactome-Signalwegs dieser Proteine ergab 12 Signalwege, die für alle Krankheiten von Bedeutung sind.
Ein Beispiel für die Anwendung von Deep Learning auf einen krankheitsspezifischen Wissensgraphen ist in dieser Abbildung dargestellt. Die verborgenen Beziehungen zwischen den Proteinen und der Krankheit werden vorhergesagt, und die berechneten Wahrscheinlichkeiten für beide Vorhersagen werden hier mit Werten von null bis eins angezeigt, wobei eins eine starke Vorhersage angibt. Die festgelegte Reihenfolge ist entscheidend für die Ausführung dieses Protokolls, insbesondere der Pre-Processing- und Text-Mining-Module.
Diese beiden Schritte beeinflussen direkt die Identifizierung der wichtigsten Proteine und Signalwege für jede Krankheit sowie die Konstruktion für den krankheitsspezifischen Wissensgraphen. Der resultierende Wissensgraph wird durch Graph-Tools wie Neo4j und Cytoscape effektiv visualisiert und kann für erweiterte Deep-Learning-Vorhersagen neuer Beziehungen genutzt werden. CaseOLAP LIFT ermöglicht die Untersuchung von Zusammenhängen zwischen beliebigen zellulären Komponenten und Krankheitskategorien.
Der daraus resultierende Wissensgraph und die Rangfolge der Proteinkrankheitsassoziationen unterstützen die Verarbeitung natürlicher Sprache und die anschließende graphenbasierte Analyse.