首先,在 Jupyter 笔记本主页中,单击 M02-DeepOmicsAE 模型优化。ipynb notebook 以在新标签页中打开它。在笔记本的第二个单元格中,键入数据预处理时生成的输出文件的名称,而不是M01_output_data.csv。
在第五个单元格中,指定不同数据类型的列位置,例如蛋白质组学数据、代谢组学数据、临床数据和所有分子表达数据。将 col_start 和 col_end 替换为每种数据类型的相应列索引。指定包含目标变量的列的名称,而不是y_column_name作为y_label。
在第六个单元格中,通过为n_comb赋值来定义模型优化的轮数。更多的优化轮次将有助于微调模型参数并提高模型性能,但我们也会增加处理时间。通过选择“单元格”,然后从菜单栏中选择“全部运行”来执行笔记本。
要实现工作流程,请单击具有自定义优化参数的 M03a-DeepOmicsAE 实现。Jupyter notebook 主页上的 ipynb notebook。在笔记本的第二个单元格中,键入数据预处理时生成的输出文件的名称,而不是M01_output_data.csv。
在第五个单元格中,指定不同数据类型的列位置,例如蛋白质组学数据、代谢组学数据、临床数据和所有分子表达数据。将 col_start 和 col_end 替换为每种数据类型的相应列索引。指定包含目标变量的列的名称,而不是y_column_name作为y_label。
从菜单栏中选择单元格,然后选择“全部运行”。重要特征分数的 PCA 图和分布将自动保存在本地文件夹中。每个已识别的信令模块的重要功能列表也将作为文本文件存储在本地文件夹中,名称为 module_n.txt。
要使用预设参数实现工作流程,请单击带有预设参数的 M03b-DeepOmicsAE 实现。Jupyter notebook 主页上的 ipynb notebook。然后按照相同的步骤操作。
请注意,笔记本第七单元格中的参数 kprot、kmet 和 latent 是根据之前优化轮次的结果在脚本中自动计算的。蛋白质组、代谢组和来自142个来自健康或被诊断患有阿尔茨海默病的个体的死后人脑样本的临床数据,使用基于深度学习自动编码器模型的工作流程进行分析,该模型从高维多组学输入数据中提取一组简洁的特征。模型参数优化结果表明,选择少量蛋白质组学和代谢组学特征作为模型的输入,可以在健康患者和阿尔茨海默病患者之间实现更高程度的分离。
而潜层中的神经元数量对模型的性能没有重大影响。使用最优参数,从自动编码器模型的潜在层中提取一小组汇总输入数据的特征,称为提取特征。PCA分析显示,诊断组由提取的特征分开。
然而,这些组不能很好地通过原始特征来区分,这表明提取的特征捕获了对确定疾病状态至关重要的信息。