For at begynde skal du starte en ny Jupyter Notebook-session ved at åbne et nyt terminalvindue og skrive Jupyter Notebook. Tryk derefter på Enter. På Jupyter Notebook-startsiden skal du vælge notesbogen med titlen M01-forbehandling af udtryksdata.
ipynb for at åbne den i en ny browserfane. Denne notesbog normaliserer og skalerer inputdataene, håndterer manglende data og fjerner afvigende værdier. I den anden celle i notesbogen skal du erstatte pladsholderen your_dataset_name.
CSV med det faktiske navn på datasætfilen. I den sidste celle i notesbogen skal du erstatte M01_output_data. CSV med det foretrukne navn til outputdatafilen.
For hver datatype, f.eks. proteomics, metabolomics, kontinuerlige kliniske data og binære kliniske data, skal du bruge kommandoen i den fjerde celle til at bestemme de indekser, der svarer til den første og sidste kolonne. Kontroller kolonnenavnene for at finde de kolonner, der svarer til proteomics-dataene, metabolomics-dataene og de kliniske data. Angiv kolonnepositionerne for forskellige datatyper i den femte celle ved at erstatte col_start og col_end med det første og sidste kolonneindeks for hver datatype.
Vælg Celle og derefter Kør alle fra menulinjen i Jupyter for at oprette outputdatafilen i den angivne mappe.