Per iniziare, nella home page del notebook Jupyter, fare clic sull'ottimizzazione del modello M02-DeepOmicsAE. ipynb notebook per aprirlo in una nuova scheda. Nella seconda cella del notebook digitare il nome del file di output generato durante la pre-elaborazione dei dati al posto di M01_output_data.csv.
Nella quinta cella, specificare le posizioni delle colonne per i diversi tipi di dati, ad esempio i dati di proteomica, i dati di metabolomica, i dati clinici e tutti i dati di espressione molecolare. Sostituire col_start e col_end con gli indici di colonna appropriati per ogni tipo di dati. Specificare il nome della colonna contenente la variabile di destinazione al posto di y_column_name come y_label.
Nella sesta cella, definite il numero di arrotondamenti per l'ottimizzazione del modello assegnando un valore a n_comb. Un maggior numero di cicli di ottimizzazione consentirà di ottimizzare i parametri del modello e di migliorarne le prestazioni, ma aumenterà anche il tempo di elaborazione. Eseguire il blocco appunti selezionando Cella, quindi Esegui tutto dalla barra dei menu.
Per implementare il flusso di lavoro, fare clic sull'implementazione M03a-DeepOmicsAE con parametri ottimizzati personalizzati. ipynb notebook nella home page del notebook Jupyter. Nella seconda cella del notebook digitare il nome del file di output generato durante la pre-elaborazione dei dati al posto di M01_output_data.csv.
Nella quinta cella, specificare le posizioni delle colonne per i diversi tipi di dati, ad esempio i dati di proteomica, i dati di metabolomica, i dati clinici e tutti i dati di espressione molecolare. Sostituire col_start e col_end con gli indici di colonna appropriati per ogni tipo di dati. Specificare il nome della colonna contenente la variabile di destinazione al posto di y_column_name come y_label.
Selezionare Cella seguita da Esegui tutto dalla barra dei menu. I grafici PCA e la distribuzione dei punteggi delle caratteristiche importanti verranno salvati automaticamente nella cartella locale. Gli elenchi delle caratteristiche importanti per ogni modulo di segnalazione identificato verranno anche memorizzati come file di testo nella cartella locale con i nomi module_n.txt.
Per implementare il flusso di lavoro con parametri preimpostati, fare clic sull'implementazione M03b-DeepOmicsAE con parametri preimpostati. ipynb notebook nella home page del notebook Jupyter. Quindi seguire la stessa procedura.
Si noti che i parametri kprot, kmet e latent nella settima cella dei notebook vengono calcolati automaticamente all'interno dello script in base ai risultati dei cicli di ottimizzazione precedenti. I dati di proteoma, metaboloma e clinici di 142 campioni di cervello umano post-mortem derivati da individui sani o con diagnosi di Alzheimer sono stati analizzati utilizzando questo flusso di lavoro basato su un modello di codifica automatica di deep learning per estrarre un insieme conciso di caratteristiche dai dati di input multi-omici ad alta dimensionalità. I risultati dell'ottimizzazione dei parametri del modello mostrano che la selezione di un piccolo numero di caratteristiche proteomiche e metabolomiche da utilizzare come input per il modello fornisce un più alto grado di separazione tra i pazienti sani e quelli con malattia di Alzheimer.
Mentre il numero di neuroni nello strato latente non ha avuto un impatto importante sulle prestazioni del modello. Utilizzando i parametri ottimali, un piccolo set di funzionalità che riepilogano i dati di input, denominate funzionalità estratte, sono state estratte dal livello latente del modello di codifica automatica. L'analisi PCA ha mostrato che i gruppi diagnostici erano separati dalle caratteristiche estratte.
Tuttavia, i gruppi non si distinguevano bene dalle caratteristiche originali, indicando che le caratteristiche estratte catturano le informazioni cruciali per determinare lo stato della malattia.