Para começar, na página inicial do notebook Jupyter, clique na otimização do modelo M02-DeepOmicsAE. IPYNB para abri-lo em uma nova guia. Na segunda célula do bloco de anotações, digite o nome do arquivo de saída gerado no pré-processamento de dados no lugar de M01_output_data.csv.
Na quinta célula, especifique as posições da coluna para diferentes tipos de dados, como dados proteômicos, dados metabolômicos, dados clínicos e todos os dados de expressão molecular. Substitua col_start e col_end pelos índices de coluna apropriados para cada tipo de dados. Especifique o nome da coluna que contém a variável de destino no lugar de y_column_name como y_label.
Na sexta célula, defina o número de rodadas para otimização do modelo atribuindo um valor a n_comb. Mais rodadas de otimização ajudarão a ajustar os parâmetros do modelo e melhorar o desempenho do modelo, mas também aumentaremos o tempo de processamento. Execute o bloco de anotações selecionando Célula e Executar Tudo na barra de menus.
Para implementar o fluxo de trabalho, clique na implementação M03a-DeepOmicsAE com parâmetros otimizados personalizados. Bloco de anotações ipynb na página inicial do bloco de anotações Jupyter. Na segunda célula do bloco de anotações, digite o nome do arquivo de saída gerado no pré-processamento de dados no lugar de M01_output_data.csv.
Na quinta célula, especifique as posições da coluna para diferentes tipos de dados, como dados proteômicos, dados metabolômicos, dados clínicos e todos os dados de expressão molecular. Substitua col_start e col_end pelos índices de coluna apropriados para cada tipo de dados. Especifique o nome da coluna que contém a variável de destino no lugar de y_column_name como y_label.
Selecione Célula seguida de Executar tudo na barra de menus. Os gráficos de PCA e a distribuição de pontuações de recursos importantes serão salvos automaticamente na pasta local. Listas de recursos importantes para cada módulo de sinalização identificado também serão armazenadas como arquivos de texto na pasta local com os nomes module_n.txt.
Para implementar o fluxo de trabalho com parâmetros predefinidos, clique na implementação M03b-DeepOmicsAE com parâmetros predefinidos. Bloco de anotações ipynb na página inicial do bloco de anotações Jupyter. Em seguida, siga o mesmo procedimento.
Observe que os parâmetros kprot, kmet e latente na sétima célula dos blocos de anotações são computados automaticamente dentro do script com base nos resultados das rodadas de otimização anteriores. Proteoma, metaboloma e dados clínicos de 142 amostras de cérebro humano post-mortem derivadas de indivíduos saudáveis ou diagnosticados com doença de Alzheimer foram analisados usando esse fluxo de trabalho baseado em um modelo de autocodificador de aprendizado profundo para extrair um conjunto conciso de recursos dos dados de entrada multi-ômicos de alta dimensão. Os resultados da otimização de parâmetros do modelo mostram que a seleção de um pequeno número de características proteômicas e metabolômicas a serem usadas como entrada para o modelo proporciona um maior grau de separação entre os pacientes saudáveis e os pacientes com doença de Alzheimer.
Já o número de neurônios na camada latente não teve grande impacto no desempenho do modelo. Usando os parâmetros ótimos, um pequeno conjunto de características resumindo os dados de entrada, chamados recursos extraídos, foram extraídos da camada latente do modelo autocodificador. A análise da ACP mostrou que os grupos diagnósticos foram separados pelas características extraídas.
No entanto, os grupos não se distinguiram bem pelas características originais, indicando que as características extraídas capturam as informações cruciais para determinar o estado da doença.