Initiieren Sie zunächst eine neue Jupyter Notebook-Sitzung, indem Sie ein neues Terminalfenster öffnen und Jupyter Notebook eingeben. Drücken Sie dann die Eingabetaste. Wählen Sie auf der Jupyter Notebook-Homepage das Notebook mit dem Titel M01 expression data pre-processing aus.
ipynb, um es in einem neuen Browser-Tab zu öffnen. Dieses Notebook normalisiert und skaliert die Eingabedaten, verarbeitet fehlende Daten und entfernt Ausreißer. Ersetzen Sie in der zweiten Zelle des Notizbuchs den Platzhalter your_dataset_name.
csv mit dem tatsächlichen Namen der Datensatzdatei. Ersetzen Sie in der letzten Zelle des Notebooks M01_output_data. CSV mit dem bevorzugten Namen für die Ausgabedatendatei.
Verwenden Sie für jeden Datentyp, z. B. Proteomik, Metabolomik, kontinuierliche klinische Daten und binäre klinische Daten, den Befehl in der vierten Zelle, um die Indizes zu bestimmen, die der ersten und letzten Spalte entsprechen. Überprüfen Sie die Spaltennamen, um die Spalten zu finden, die den Proteomikdaten, Metabolomikdaten und klinischen Daten entsprechen. Geben Sie die Spaltenpositionen für verschiedene Datentypen in der fünften Zelle an, indem Sie col_start und col_end durch die ersten und letzten Spaltenindizes für jeden Datentyp ersetzen.
Wählen Sie Zelle und dann Alle ausführen aus der Menüleiste in Jupyter, um die Ausgabedatendatei im angegebenen Ordner zu erstellen.