Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.
Wir präsentieren einen flexiblen, erweiterbaren Jupyter-Lab-basierten Workflow für die unüberwachte Analyse komplexer Multi-Omics-Datensätze, der verschiedene Vorverarbeitungsschritte, die Schätzung des Multi-Omics-Faktorenanalysemodells und mehrere nachgelagerte Analysen kombiniert.
Krankheitsmechanismen sind in der Regel komplex und werden durch das Zusammenspiel mehrerer unterschiedlicher molekularer Prozesse bestimmt. Komplexe, mehrdimensionale Datensätze sind eine wertvolle Ressource, um mehr Einblicke in diese Prozesse zu gewinnen, aber die Analyse solcher Datensätze kann aufgrund der hohen Dimensionalität, die sich beispielsweise aus unterschiedlichen Krankheitszuständen, Zeitpunkten und Omics ergibt, die den Prozess mit unterschiedlichen Auflösungen erfassen, eine Herausforderung darstellen.
Hier stellen wir einen Ansatz vor, um einen solch komplexen Multiomics-Datensatz auf unüberwachte Weise zu analysieren und zu erforschen, indem wir die Multi-Omics-Faktorenanalyse (MOFA) auf einen Datensatz anwenden, der aus Blutproben generiert wurde, die die Immunantwort bei akuten und chronischen Koronarsyndromen erfassen. Der Datensatz besteht aus mehreren Assays mit unterschiedlichen Auflösungen, darunter Zytokindaten auf Probenebene, Plasma-Proteomics und Neutrophilen-Prime-Seq sowie Einzelzell-RNA-Seq-Daten (scRNA-seq). Weitere Komplexität wird durch die Messung mehrerer verschiedener Zeitpunkte pro Patient und mehreren Patientenuntergruppen erhöht.
Der Analyse-Workflow beschreibt, wie die Daten in mehreren Schritten integriert und analysiert werden können: (1) Datenvorverarbeitung und -harmonisierung, (2) Schätzung des MOFA-Modells, (3) Downstream-Analyse. In Schritt 1 wird beschrieben, wie die Features der verschiedenen Datentypen verarbeitet, Features mit geringer Qualität herausgefiltert und normalisiert werden, um ihre Verteilungen für die weitere Analyse zu harmonisieren. Schritt 2 zeigt, wie Sie das MOFA-Modell anwenden und die wichtigsten Varianzquellen innerhalb des Datasets über alle Omics und Features hinweg untersuchen. Schritt 3 stellt verschiedene Strategien für die nachgelagerte Analyse der erfassten Muster vor und verknüpft sie mit den Krankheitszuständen und potenziellen molekularen Prozessen, die diese Bedingungen bestimmen.
Insgesamt stellen wir einen Workflow für die unüberwachte Datenexploration komplexer Multi-Omics-Datensätze vor, um die Identifizierung von Hauptvariationsachsen zu ermöglichen, die sich aus unterschiedlichen molekularen Merkmalen zusammensetzen und auch auf andere Kontexte und Multi-Omics-Datensätze angewendet werden können (einschließlich anderer Assays, wie im beispielhaften Anwendungsfall vorgestellt).
Krankheitsmechanismen sind in der Regel komplex und werden durch das Zusammenspiel mehrerer unterschiedlicher molekularer Prozesse bestimmt. Die komplexen molekularen Mechanismen zu entschlüsseln, die zu bestimmten Krankheiten führen oder die Evolution einer Krankheit steuern, ist eine Aufgabe von hoher medizinischer Relevanz, da sie neue Erkenntnisse für das Verständnis und die Behandlung von Krankheiten liefern kann.
Jüngste technologische Fortschritte ermöglichen es, diese Prozesse mit höherer Auflösung (z.B. auf Einzelzellebene) und gleichzeitig auf verschiedenen biologischen Schichten (z.B. DNA, MRNA, ....
1. Vorbereitungen: Technische Einrichtung und Installation
HINWEIS: Um dieses Programm auszuführen, müssen wget, git und Apptainer auf dem Gerät vorinstalliert sein. Eine Anleitung zur Installation von Apptainer auf verschiedenen Systemen (Linux, Windows, Mac) finden Sie hier: https://apptainer.org/docs/admin/main/installation.html. Informationen zur Installation von git finden Sie hier: https://git-scm.com/book/en/v2/Getting-Started-Installing-Git. Abhängig von der Größe der verschiedenen Eingabedatasets wird empfohlen, den Workflow auf einem geeigneten Computer (16 CPUs, 64 GB Arbeitsspeich....
Nach der erfolgreichen Ausführung des Workflows werden mehrere Tabellen und Abbildungen generiert, wie in Abbildung 2 dargestellt. Die Abbildungen werden im Ordner /figures abgelegt (Abbildung 6, Abbildung 7, Abbildung 8, Ergänzende Abbildung 1, Ergänzende Abbildung 2, Ergänzende Abbildung 3,
Mit dem skizzierten Protokoll wird ein modularer und erweiterbarer Jupyter-Notebook-basierter Workflow vorgestellt, mit dem ein komplexer Multi-Omics-Datensatz schnell untersucht werden kann. Die Hauptteile des Workflows bestehen aus dem Vorverarbeitungs- und Datenharmonisierungsteil (mit verschiedenen Standardschritten zur Filterung und Normalisierung der Daten), der Schätzung des MOFA9-Modells und einigen beispielhaften nachgelagerten Analysen. Einer der wichti.......
Die Autoren erklären, dass kein Interessenkonflikt besteht.
C.L. wird von der Helmholtz-Gemeinschaft im Rahmen der Joint Research School "Munich School for Data Science - MUDS" gefördert.
....Name | Company | Catalog Number | Comments |
Apptainer | NA | NA | https://apptainer.org/docs/admin/main/installation.html |
Compute server or workstation or cloud (Linux, Mac or Windows environment). Depending on the size of the different input datasets we recommend running the workflow on a suitable machine (in our setting we use: 16 CPU, 64GB Memory) | Any manufacturer | 16 CPU, 64GB Memory | Large Memory is only required for the processing of the raw single cell data. After preprocessing the later analysis steps can also be performed on regular desktop or laptop computers |
git | NA | NA | https://git-scm.com/book/en/v2/Getting-Started-Installing-Git |
GitHub | GitHub | NA | https://github.com/heiniglab/mofa_workflow |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenWeitere Artikel entdecken
This article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten