Para empezar, en la página principal de Jupyter Notebook, haga clic en la optimización del modelo M02-DeepOmicsAE. ipynb notebook para abrirlo en una nueva pestaña. En la segunda celda del bloc de notas, escriba el nombre del archivo de salida generado tras el preprocesamiento de datos en lugar de M01_output_data.csv.
En la quinta celda, especifique las posiciones de columna para diferentes tipos de datos, como datos proteómicos, datos metabolómicos, datos clínicos y todos los datos de expresión molecular. Reemplace col_start y col_end por los índices de columna adecuados para cada tipo de datos. Especifique el nombre de la columna que contiene la variable de destino en lugar de y_column_name como y_label.
En la sexta celda, defina el número de rondas para la optimización del modelo asignando un valor a n_comb. Más rondas de optimización ayudarán a ajustar los parámetros del modelo y mejorar el rendimiento del modelo, pero también aumentaremos el tiempo de procesamiento. Para ejecutar el bloc de notas, seleccione Celda y, a continuación, Ejecutar todo en la barra de menús.
Para implementar el flujo de trabajo, haga clic en la implementación de M03a-DeepOmicsAE con parámetros optimizados personalizados. ipynb notebook en la página principal de Jupyter Notebook. En la segunda celda del bloc de notas, escriba el nombre del archivo de salida generado tras el preprocesamiento de datos en lugar de M01_output_data.csv.
En la quinta celda, especifique las posiciones de columna para diferentes tipos de datos, como datos proteómicos, datos metabolómicos, datos clínicos y todos los datos de expresión molecular. Reemplace col_start y col_end por los índices de columna adecuados para cada tipo de datos. Especifique el nombre de la columna que contiene la variable de destino en lugar de y_column_name como y_label.
Seleccione Celda y, a continuación, Ejecutar todo en la barra de menús. Los gráficos de PCA y la distribución de las puntuaciones de características importantes se guardarán automáticamente en la carpeta local. Las listas de características importantes para cada módulo de señalización identificado también se almacenarán como archivos de texto en la carpeta local con los nombres module_n.txt.
Para implementar el flujo de trabajo con parámetros preestablecidos, haga clic en la implementación M03b-DeepOmicsAE con parámetros preestablecidos. ipynb notebook en la página principal de Jupyter Notebook. A continuación, siga el mismo procedimiento.
Tenga en cuenta que los parámetros kprot, kmet y latent en la séptima celda de los cuadernos se calculan automáticamente dentro del script en función de los resultados de las rondas de optimización anteriores. El proteoma, el metaboloma y los datos clínicos de 142 muestras de cerebro humano postmortem derivadas de individuos sanos o diagnosticados con la enfermedad de Alzheimer se analizaron utilizando este flujo de trabajo basado en un modelo de codificador automático de aprendizaje profundo para extraer un conjunto conciso de características de los datos de entrada multiómicos de alta dimensión. Los resultados de la optimización de los parámetros del modelo muestran que la selección de un pequeño número de características proteómicas y metabolómicas que se utilizarán como entrada para el modelo proporciona un mayor grado de separación entre los pacientes sanos y los pacientes con enfermedad de Alzheimer.
Mientras que el número de neuronas en la capa latente no tuvo un gran impacto en el rendimiento del modelo. Utilizando los parámetros óptimos, se extrajo un pequeño conjunto de características que resumían los datos de entrada, denominadas entidades extraídas, de la capa latente del modelo de codificador automático. El análisis de PCA mostró que los grupos diagnósticos estaban separados por las características extraídas.
Sin embargo, los grupos no se distinguieron bien por las características originales, lo que indica que las características extraídas capturan la información crucial para determinar el estado de la enfermedad.