Klicken Sie zunächst auf der Jupyter-Notebook-Homepage auf die Modelloptimierung M02-DeepOmicsAE. ipynb notebook, um es in einem neuen Tab zu öffnen. Geben Sie in der zweiten Zelle des Notebooks anstelle von M01_output_data.csv den Namen der Ausgabedatei ein, die bei der Datenvorverarbeitung generiert wird.
Geben Sie in der fünften Zelle die Spaltenpositionen für verschiedene Datentypen an, z. B. Proteomikdaten, Metabolomikdaten, klinische Daten und alle molekularen Expressionsdaten. Ersetzen Sie col_start und col_end durch die entsprechenden Spaltenindizes für jeden Datentyp. Geben Sie den Namen der Spalte an, die die Zielvariable anstelle von y_column_name als y_label enthält.
Definieren Sie in der sechsten Zelle die Anzahl der Rundungen für die Modelloptimierung, indem Sie n_comb einen Wert zuweisen. Weitere Optimierungsrunden helfen bei der Feinabstimmung der Modellparameter und der Verbesserung der Modellleistung, aber wir erhöhen auch die Verarbeitungszeit. Führen Sie das Notebook aus, indem Sie in der Menüleiste Zelle und dann Alle ausführen auswählen.
Um den Workflow zu implementieren, klicken Sie auf die M03a-DeepOmicsAE-Implementierung mit benutzerdefinierten optimierten Parametern. ipynb notebook auf der Jupyter Notebook-Homepage. Geben Sie in der zweiten Zelle des Notebooks anstelle von M01_output_data.csv den Namen der Ausgabedatei ein, die bei der Datenvorverarbeitung generiert wird.
Geben Sie in der fünften Zelle die Spaltenpositionen für verschiedene Datentypen an, z. B. Proteomikdaten, Metabolomikdaten, klinische Daten und alle molekularen Expressionsdaten. Ersetzen Sie col_start und col_end durch die entsprechenden Spaltenindizes für jeden Datentyp. Geben Sie den Namen der Spalte an, die die Zielvariable anstelle von y_column_name als y_label enthält.
Wählen Sie Zelle gefolgt von Alle ausführen aus der Menüleiste. Die PCA-Diagramme und die Verteilung wichtiger Feature-Scores werden automatisch im lokalen Ordner gespeichert. Listen wichtiger Merkmale für jedes identifizierte Signalisierungsmodul werden auch als Textdateien im lokalen Ordner mit den Namen module_n.txt gespeichert.
Um den Workflow mit voreingestellten Parametern zu implementieren, klicken Sie auf die M03b-DeepOmicsAE-Implementierung mit voreingestellten Parametern. ipynb notebook auf der Jupyter Notebook-Homepage. Gehen Sie dann genauso vor.
Beachten Sie, dass die Parameter kprot, kmet und latent in der siebten Zelle der Notebooks automatisch innerhalb des Skripts basierend auf den Ergebnissen früherer Optimierungsrunden berechnet werden. Proteom-, Metabolom- und klinische Daten von 142 postmortalen menschlichen Gehirnproben von Personen, die entweder gesund waren oder bei denen Alzheimer diagnostiziert wurde, wurden mit diesem Workflow analysiert, der auf einem Deep-Learning-Auto-Encoder-Modell basiert, um einen präzisen Satz von Merkmalen aus den hochdimensionalen Multi-Omics-Eingabedaten zu extrahieren. Die Ergebnisse der Modellparameteroptimierung zeigen, dass die Auswahl einer kleinen Anzahl von proteomischen und metabolomischen Merkmalen, die als Input für das Modell verwendet werden sollen, einen höheren Grad an Trennung zwischen gesunden und Alzheimer-Patienten ermöglicht.
Während die Anzahl der Neuronen in der latenten Schicht keinen großen Einfluss auf die Leistung des Modells hatte. Unter Verwendung der optimalen Parameter wurde eine kleine Gruppe von Features, die die Eingabedaten zusammenfassen, sogenannte extrahierte Features, aus der latenten Schicht des Auto-Encoder-Modells extrahiert. Die PCA-Analyse zeigte, dass die diagnostischen Gruppen durch die extrahierten Merkmale getrennt waren.
Die Gruppen wurden jedoch nicht gut durch die ursprünglichen Merkmale unterschieden, was darauf hindeutet, dass die extrahierten Merkmale die Informationen erfassen, die für die Bestimmung des Krankheitszustands entscheidend sind.