Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.
Method Article
DeepOmicsAE ist ein Workflow, der sich auf die Anwendung einer Deep-Learning-Methode (d. h. eines Autoencoders) konzentriert, um die Dimensionalität von Multi-Omics-Daten zu reduzieren, und bietet eine Grundlage für Vorhersagemodelle und Signalisierungsmodule, die mehrere Schichten von Omics-Daten darstellen.
Große Omics-Datensätze werden zunehmend für die Erforschung der menschlichen Gesundheit verfügbar. In diesem Artikel wird DeepOmicsAE vorgestellt, ein Workflow, der für die Analyse von Multi-Omics-Datensätzen, einschließlich Proteomik, Metabolomik und klinischer Daten, optimiert ist. Dieser Workflow verwendet eine Art neuronales Netzwerk namens Autoencoder, um einen präzisen Satz von Features aus den hochdimensionalen Multi-Omics-Eingabedaten zu extrahieren. Darüber hinaus bietet der Workflow eine Methode zur Optimierung der Schlüsselparameter, die für die Implementierung des Autoencoders erforderlich sind. Um diesen Arbeitsablauf zu veranschaulichen, wurden klinische Daten aus einer Kohorte von 142 Personen analysiert, die entweder gesund waren oder bei denen Alzheimer diagnostiziert wurde, zusammen mit dem Proteom und Metabolom ihrer postmortalen Gehirnproben. Die aus der latenten Schicht des Autoencoders extrahierten Merkmale behalten die biologischen Informationen bei, die gesunde und kranke Patienten trennen. Darüber hinaus stellen die einzelnen extrahierten Merkmale unterschiedliche molekulare Signalmodule dar, von denen jedes einzigartig mit den klinischen Merkmalen der Individuen interagiert und ein Mittel zur Integration der Proteomik, Metabolomik und klinischen Daten bietet.
Ein immer größerer Teil der Bevölkerung altert und die Belastung durch altersbedingte Krankheiten wie Neurodegeneration wird in den kommenden Jahrzehnten voraussichtlich stark zunehmen1. Die Alzheimer-Krankheit ist die häufigste Form der neurodegenerativen Erkrankung2. Der Fortschritt bei der Suche nach einer Behandlung war langsam, da wir die grundlegenden molekularen Mechanismen, die den Ausbruch und das Fortschreiten der Krankheit bestimmen, nur unzureichend verstehen. Der Großteil der Informationen über die Alzheimer-Krankheit wird post mortem aus der Untersuchung von Hirngewebe gewonnen, was die Unterscheidung von Ursachen und Folgen zu einer schwierigen Aufgabe gemacht hat3. Das Religious Orders Study/Memory and Aging Project (ROSMAP) ist ein ehrgeiziges Vorhaben, ein breiteres Verständnis der Neurodegeneration zu erlangen, das die Untersuchung von Tausenden von Personen beinhaltet, die sich verpflichtet haben, sich jährlich medizinischen und psychologischen Untersuchungen zu unterziehen und ihr Gehirn nach ihrem Tod für die Forschung zur Verfügung zu stellen4. Die Studie konzentriert sich auf den Übergang von der normalen Funktion des Gehirns zur Alzheimer-Krankheit2. Im Rahmen des Projekts wurden postmortale Gehirnproben mit einer Vielzahl von Omics-Ansätzen analysiert, darunter Genomik, Epigenomik, Transkriptomik, Proteomik5 und Metabolomik.
Omics-Technologien, die funktionelle Auslesungen zellulärer Zustände ermöglichen (d. h. Proteomik und Metabolomik)6,7 sind aufgrund des direkten Zusammenhangs zwischen Protein- und Metabolitenhäufigkeit und zellulären Aktivitäten der Schlüssel zur Interpretation von Krankheiten 8,9,10,11,12. Proteine sind die primären Exekutoren zellulärer Prozesse, während Metaboliten die Substrate und Produkte für biochemische Reaktionen sind. Die Multi-Omics-Datenanalyse bietet die Möglichkeit, die komplexen Zusammenhänge zwischen Proteomics- und Metabolomics-Daten zu verstehen, anstatt sie isoliert zu betrachten. Multi-Omics ist eine Disziplin, die mehrere Schichten hochdimensionaler biologischer Daten untersucht, einschließlich molekularer Daten (Genomsequenz und Mutationen, Transkriptom, Proteom, Metabolom), klinischer Bildgebungsdaten und klinischer Merkmale. Insbesondere zielt die Multi-Omics-Datenanalyse darauf ab, solche Schichten biologischer Daten zu integrieren, ihre wechselseitige Regulation und Interaktionsdynamik zu verstehen und ein ganzheitliches Verständnis des Auftretens und Fortschreitens von Krankheiten zu liefern. Methoden zur Integration von Multi-Omics-Daten befinden sich jedoch noch in einem frühen Entwicklungsstadium13.
Autoencoder, eine Art unüberwachtes neuronales Netzwerk14, sind ein leistungsfähiges Werkzeug für die Multi-Omics-Datenintegration. Im Gegensatz zu überwachten neuronalen Netzen ordnen Autoencoder Proben weder bestimmten Zielwerten (z. B. gesund oder krank) zu, noch werden sie zur Vorhersage von Ergebnissen verwendet. Eine ihrer Hauptanwendungen liegt in der Dimensionalitätsreduktion. Autoencoder bieten jedoch mehrere Vorteile gegenüber einfacheren Methoden zur Dimensionalitätsreduktion wie Hauptkomponentenanalyse (PCA), t-verteilter stochastischer Nachbareinbettung (tSNE) oder gleichmäßiger Mannigfaltigkeitsapproximation und Projektion (UMAP). Im Gegensatz zu PCA können Autoencoder nichtlineare Beziehungen innerhalb der Daten erfassen. Im Gegensatz zu tSNE und UMAP können sie hierarchische und multimodale Beziehungen innerhalb der Daten erkennen, da sie auf mehreren Schichten von Recheneinheiten beruhen, die jeweils nichtlineare Aktivierungsfunktionen enthalten. Daher stellen sie attraktive Modelle dar, um die Komplexität von Multi-Omics-Daten zu erfassen. Während die primäre Anwendung von PCA, tSNE und UMAP das Clustering der Daten ist, komprimieren Autoencoder die Eingabedaten in extrahierte Merkmale, die sich gut für nachgelagerte Vorhersageaufgaben eignen15,16.
Kurz gesagt, neuronale Netze bestehen aus mehreren Schichten, die jeweils mehrere Recheneinheiten oder "Neuronen" enthalten. Die erste und letzte Schicht werden als Eingabe- bzw. Ausgabeschicht bezeichnet. Autoencoder sind neuronale Netze mit einer Sanduhrstruktur, bestehend aus einer Eingabeschicht, gefolgt von ein bis drei versteckten Schichten und einer kleinen "latenten" Schicht, die typischerweise zwischen zwei und sechs Neuronen enthält. Die erste Hälfte dieser Struktur wird als Encoder bezeichnet und ist mit einem Decoder kombiniert, der den Encoder spiegelt. Der Decoder endet mit einer Ausgabeschicht, die die gleiche Anzahl von Neuronen wie die Eingabeschicht enthält. Autoencoder nehmen die Eingabe durch den Flaschenhals und rekonstruieren sie in der Ausgabeschicht, mit dem Ziel, eine Ausgabe zu erzeugen, die die ursprünglichen Informationen so genau wie möglich widerspiegelt. Dies wird durch die mathematische Minimierung eines Parameters erreicht, der als "Rekonstruktionsverlust" bezeichnet wird. Die Eingabe besteht aus einer Reihe von Merkmalen, die in der hier gezeigten Anwendung Protein- und Metabolitenhäufigkeiten und klinische Merkmale (d. h. Geschlecht, Bildung und Alter zum Zeitpunkt des Todes) sein werden. Die latente Schicht enthält eine komprimierte und informationsreiche Darstellung der Eingabe, die für nachfolgende Anwendungen wie Vorhersagemodelle verwendet werden kann17,18.
Dieses Protokoll stellt einen Workflow, DeepOmicsAE, dar, der Folgendes umfasst: 1) Vorverarbeitung von Proteomik-, Metabolomik- und klinischen Daten (d. h. Normalisierung, Skalierung, Entfernung von Ausreißern), um Daten mit einer konsistenten Skala für die Analyse des maschinellen Lernens zu erhalten; 2) Auswahl geeigneter Autoencoder-Eingangsmerkmale, da eine Überlastung der Merkmale relevante Krankheitsmuster verschleiern kann; 3) Optimierung und Training des Autoencoders, einschließlich der Bestimmung der optimalen Anzahl von Proteinen und Metaboliten für die Selektion und von Neuronen für die latente Schicht; 4) Extrahieren von Merkmalen aus der latenten Schicht; und 5) Nutzung der extrahierten Merkmale für die biologische Interpretation durch Identifizierung molekularer Signalmodule und ihrer Beziehung zu klinischen Merkmalen.
Dieses Protokoll soll einfach und für Biologen mit begrenzter Computererfahrung anwendbar sein, die über ein grundlegendes Verständnis der Programmierung mit Python verfügen. Das Protokoll konzentriert sich auf die Analyse von Multi-Omics-Daten, einschließlich Proteomik, Metabolomik und klinischer Merkmale, aber seine Verwendung kann auf andere Arten von molekularen Expressionsdaten, einschließlich Transkriptomik, ausgeweitet werden. Eine wichtige neue Anwendung, die durch dieses Protokoll eingeführt wurde, ist die Zuordnung der Wichtigkeitswerte ursprünglicher Merkmale auf einzelne Neuronen in der latenten Schicht. Infolgedessen stellt jedes Neuron in der latenten Schicht ein Signalmodul dar, das die Wechselwirkungen zwischen spezifischen molekularen Veränderungen und den klinischen Merkmalen der Patienten detailliert beschreibt. Die biologische Interpretation der molekularen Signalmodule erfolgt mit MetaboAnalyst, einem öffentlich zugänglichen Werkzeug, das Gen-/Protein- und Metabolitendaten integriert, um angereicherte Stoffwechsel- und Zellsignalwege abzuleiten17.
HINWEIS: Bei den hier verwendeten Daten handelt es sich um ROSMAP-Daten, die vom AD Knowledge-Portal heruntergeladen wurden. Für das Herunterladen und Wiederverwenden der Daten ist keine Einwilligung nach Aufklärung erforderlich. Das hierin vorgestellte Protokoll verwendet Deep Learning, um Multi-Omics-Daten zu analysieren und Signalmodule zu identifizieren, die bestimmte Patienten- oder Stichprobengruppen beispielsweise basierend auf ihrer Diagnose unterscheiden. Das Protokoll liefert auch einen kleinen Satz extrahierter Merkmale, die die ursprünglichen großen Daten zusammenfassen und für weitere Analysen verwendet werden können, z. B. zum Trainieren eines Vorhersagemodells mit Algorithmen des maschinellen Lernens (Abbildung 1). In der Zusatzdatei 1 und in der Materialtabelle finden Sie Informationen zum Zugriff auf den Code und zum Einrichten der Rechenumgebung vor dem Ausführen des Protokolls. Die Methoden sollten in der unten angegebenen Reihenfolge ausgeführt werden.
Abbildung 1: Schematische Darstellung des DeepOmicsAE-Workflows. Schematische Darstellung des Workflows zur Analyse von Multi-Omics-Daten mithilfe des Workflows. In der Autoencoder-Darstellung stellen Rechtecke Schichten des neuronalen Netzwerks und Kreise Neuronen innerhalb von Schichten dar. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
1. Datenvorverarbeitung
HINWEIS: Das Ziel dieses Abschnitts ist die Vorverarbeitung der Daten, einschließlich der Behandlung fehlender Daten. Normalisierung und Skalierung von proteomischen, metabolomischen Expressions- und klinischen Daten; und das Entfernen von Ausreißern. Das Protokoll ist für einen Datensatz konzipiert, der Proteomikdaten enthält, die als log2(ratio) ausgedrückt werden; Metabolomik-Daten, ausgedrückt als Faltungsänderung; und klinische Merkmale, einschließlich kontinuierlicher und kategorischer Merkmale. Die Patienten oder Proben sollten auf der Grundlage der Diagnose oder anderer ähnlicher Parameter gruppiert werden. Proben oder Patienten sollten sich über die Zeilen und Features über die Spalten erstrecken.
2. Individuelle Optimierung des Workflows (optional)
HINWEIS: Abschnitt 2 ist optional, da er rechenintensiv ist. Benutzer sollten direkt zu Abschnitt 4 springen, wenn sie sich entscheiden, Abschnitt 2 nicht auszuführen. Dieses Protokoll führt den Benutzer automatisiert durch die Optimierung des Workflows. Insbesondere identifiziert die Methode die Parameter, die die beste Leistung des Autoencoders in Bezug auf die Generierung extrahierter Features liefern, die die Stichprobengruppen gut trennen. Zu den optimierten Parametern, die als Ausgabe generiert werden, gehören die Anzahl der Merkmale, die für die Merkmalsauswahl verwendet werden sollen (k_prot und k_met) und die Anzahl der Neuronen in der latenten Schicht des Autoencoders (latent). Diese Parameter können dann in dem in Abschnitt 3 beschriebenen Protokoll verwendet werden, um das Modell zu generieren.
3. Workflow-Implementierung mit individuell optimierten Parametern
HINWEIS: Führen Sie dieses Protokoll nur nach der Methodenoptimierung (Abschnitt 2) durch. Wenn Benutzer keine Methodenoptimierung durchführen möchten, fahren Sie direkt mit Abschnitt 4 fort. Dieses Protokoll führt den Benutzer durch die Generierung eines Modells mit den benutzerdefinierten optimierten Parametern, die aus Abschnitt 2 abgeleitet wurden. Der Autoencoder erzeugt 1) eine Reihe extrahierter Merkmale, die die Originaldaten rekapitulieren, und 2) identifiziert die wichtigen Merkmale, die jedes Neuron in der latenten Schicht antreiben und effektiv einzigartige Signalmodule darstellen. Die Signalisierungsmodule werden unter Verwendung des in Abschnitt 5 bereitgestellten Protokolls interpretiert.
4. Workflow-Implementierung mit voreingestellten Parametern
5. Biologische Interpretation mit MetaboAnalyst
Um das Protokoll zu präsentieren, analysierten wir einen Datensatz, der das Proteom, das Metabolom und klinische Informationen aus postmortalen Gehirnen von 142 Personen umfasste, die entweder gesund waren oder bei denen Alzheimer diagnostiziert wurde.
Nach Durchführung des Protokollabschnitts 1 zur Vorverarbeitung der Daten enthielt der Datensatz 6.497 Proteine, 443 Metaboliten und drei klinische Merkmale (Geschlecht, Sterbealter und Bildung). Das Zielmerkmal ist die klinische Konse...
Die Struktur des Datensatzes ist entscheidend für den Erfolg des Protokolls und sollte sorgfältig überprüft werden. Die Daten sollten wie in Protokollabschnitt 1 angegeben formatiert sein. Auch die korrekte Zuordnung von Spaltenpositionen ist entscheidend für den Erfolg der Methode. Proteomik- und Metabolomik-Daten werden unterschiedlich vorverarbeitet und die Merkmalsauswahl wird aufgrund der unterschiedlichen Art der Daten separat durchgeführt. Daher ist es wichtig, die Spaltenpositionen in den Protokollschritten...
Der Autor erklärt, dass er keine Interessenkonflikte hat.
Diese Arbeit wurde durch NIH Grant CA201402 und den Cornell Center for Vertebrate Genomics (CVG) Distinguished Scholar Award unterstützt. Die hier veröffentlichten Ergebnisse basieren ganz oder teilweise auf Daten aus dem AD Knowledge Portal (https://adknowledgeportal.org). Die Studiendaten wurden von der Accelerating Medicine Partnership for AD (U01AG046161 und U01AG061357) auf der Grundlage von Proben bereitgestellt, die vom Rush Alzheimer's Disease Center, Rush University Medical Center, Chicago, zur Verfügung gestellt wurden. Die Datenerhebung wurde durch NIA-Zuschüsse P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, das Illinois Department of Public Health und das Translational Genomics Research Institute unterstützt. Der Metabolomics-Datensatz wurde bei Metabolon generiert und vom ADMC vorverarbeitet.
Name | Company | Catalog Number | Comments |
Computer | Apple | Mac Studio | Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory |
Conda v23.3.1 | Anaconda, Inc. | N/A | package management system and environment manager |
conda environment DeepOmicsAE | N/A | DeepOmicsAE_env.yml | contains packages necessary to run the worflow |
github repository DeepOmicsAE | Microsoft | https://github.com/elepan84/DeepOmicsAE/ | provides scripts, Jupyter notebooks, and the conda environment file |
Jupyter notebook v6.5.4 | Project Jupyter | N/A | a platform for interactive data science and scientific computing |
DT01-metabolomics data | N/A | ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv | This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org |
DT02-TMT proteomics data | N/A | C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817x400.csv | |
DT03-clinical data | N/A | ROSMAP_clinical.csv | |
DT04-biospecimen metadata | N/A | ROSMAP_biospecimen_metadata .csv | |
Python 3.11.3 | Python Software Foundation | N/A | programming language |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten