登录

需要订阅 JoVE 才能查看此. 登录或开始免费试用。

本文内容

  • 摘要
  • 摘要
  • 引言
  • 研究方案
  • 代表性结果
  • 讨论
  • 披露声明
  • 致谢
  • 材料
  • 参考文献
  • 转载和许可

摘要

DeepOmicsAE是一个以应用深度学习方法(即自动编码器)为中心的工作流程,以降低多组学数据的维度,为代表多层组学数据的预测模型和信号转导模块提供基础。

摘要

大型组学数据集正越来越多地用于人类健康研究。本文介绍了 DeepOmicsAE,这是一种针对多组学数据集分析(包括蛋白质组学、代谢组学和临床数据)进行优化的工作流程。该工作流程采用一种称为自动编码器的神经网络,从高维多组学输入数据中提取一组简洁的特征。此外,该工作流还提供了一种优化实现自动编码器所需的关键参数的方法。为了展示这一工作流程,分析了142名健康或被诊断患有阿尔茨海默病的个体的临床数据,以及他们死后大脑样本的蛋白质组和代谢组。从自动编码器的潜在层提取的特征保留了区分健康和患病患者的生物信息。此外,单个提取的特征代表了不同的分子信号转导模块,每个模块都与个体的临床特征相互作用,为整合蛋白质组学、代谢组学和临床数据提供了一种手段。

引言

老龄化人口的比例越来越大,预计未来几十年神经退行性疾病等与年龄相关的疾病的负担将急剧增加1。阿尔茨海默病是最常见的神经退行性疾病类型 2.鉴于我们对驱动疾病发作和进展的基本分子机制知之甚少,寻找治疗方法的进展缓慢。关于阿尔茨海默病的大部分信息都是在死后通过脑组织检查获得的,这使得区分病因和后果成为一项艰巨的任务3.宗教秩序研究/记忆和衰老项目 (ROSMAP) 是一项雄心勃勃的努力,旨在更广泛地了解神经退行性疾病,其中包括对数千名致力于每年接受医学和心理检查并在他们去世后为研究贡献大脑的人的研究 4.该研究的重点是从大脑正常功能到阿尔茨海默病的过渡 2.在该项目中,使用多种组学方法分析了死后脑样本,包括基因组学、表观基因组学、转录组学、蛋白质组学5 和代谢组学。

由于蛋白质和代谢物丰度与细胞活性之间的直接关系,提供细胞状态功能读数的组学技术(即蛋白质组学和代谢组学)6,7是解释疾病8,9,10,11,12

研究方案

注意:此处使用的数据是从 AD 知识门户下载的 ROSMAP 数据。下载和重复使用数据不需要知情同意。本文介绍的方案利用深度学习来分析多组学数据并识别信号转导模块,这些模块根据例如他们的诊断来区分特定的患者或样本组。该协议还提供了一小组提取的特征,这些特征汇总了原始的大规模数据,可用于进一步分析,例如使用机器学习算法训练预测模型(图 1)。有关在执行协议之前访问代码和设置计算环境的信息,请参阅 补充文件 1材料表 。这些方法应按照下面指定的顺序执行。

figure-protocol-391
图 1:DeepOmicsAE 工作流程示意图。 使用工作流程分析多组学数据的工作流程示意图。在自动编码器描述中,矩形表示神经网络的层,圆圈表示层内的神经元。

代表性结果

为了展示该协议,我们分析了一个数据集,该数据集包括蛋白质组、代谢组和来自 142 名健康或被诊断患有阿尔茨海默病的个体的死后大脑的临床信息。

在执行协议第 1 部分对数据进行预处理后,数据集包括 6,497 种蛋白质、443 种代谢物和三个临床特征(性别、死亡年龄和教育程度)。目标特征是死亡时认知状态的临床共识诊断,编码为 cogdx?.......

讨论

数据集的结构对于协议的成功至关重要,应仔细检查。数据的格式应如协议第 1 节所示。正确分配列位置对于该方法的成功也至关重要。蛋白质组学和代谢组学数据的预处理方式不同,由于数据性质不同,特征选择是分开进行的。因此,在协议步骤 1.5、2.3 和 3.3 中正确分配色谱柱位置至关重要。

如果临床数据包含非数值(连续值或二进制值)的数据类型,则用户在运行协议?.......

披露声明

提交人声明他们没有利益冲突。

致谢

这项工作得到了美国国立卫生研究院CA201402资助和康奈尔大学脊椎动物基因组学中心(CVG)杰出学者奖的支持。此处发布的结果全部或部分基于从 AD 知识门户 (https://adknowledgeportal.org) 获得的数据。研究数据是通过AD加速医学伙伴关系(U01AG046161和U01AG061357)提供的,基于芝加哥拉什大学医学中心拉什阿尔茨海默病中心提供的样本。数据收集得到了NIA赠款的支持,P30AG10161、R01AG15819、R01AG17917、R01AG30146、R01AG36836、U01AG32984、U01AG46152、伊利诺伊州公共卫生部和转化基因组学研究所。代谢组学数据集在 Metabolon 生成,并由 ADMC 进行预处理。

....

材料

NameCompanyCatalog NumberComments
ComputerAppleMac StudioApple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory
Conda v23.3.1Anaconda, Inc.N/Apackage management system and environment manager
conda environment
DeepOmicsAE
N/ADeepOmicsAE_env.ymlcontains packages necessary to run the worflow
github repository DeepOmicsAEMicrosofthttps://github.com/elepan84/DeepOmicsAE/provides scripts, Jupyter notebooks, and the conda environment file
Jupyter notebook v6.5.4Project JupyterN/Aa platform for interactive data science and scientific computing
DT01-metabolomics dataN/AROSMAP_Metabolon_HD4_Brain
514_assay_data.csv
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64.
The data is available at https://adknowledgeportal.synapse.org
DT02-TMT proteomics dataN/AC2.median_polish_corrected_log2
(abundanceRatioCenteredOn
MedianOfBatchMediansPer
Protein)-8817x400.csv
DT03-clinical dataN/AROSMAP_clinical.csv
DT04-biospecimen metadataN/AROSMAP_biospecimen_metadata
.csv
Python 3.11.3 Python Software FoundationN/Aprogramming language

参考文献

  1. Hou, Y., et al. Ageing as a risk factor for neurodegenerative disease. Nature Reviews Neurology. 15 (10), 565-581 (2019).
  2. Scheltens, P., et al. Alzheimer’s disease. The Lancet. 397 (10284), 1577-1590 (2021).
  3. Brei....

转载和许可

请求许可使用此 JoVE 文章的文本或图形

请求许可

探索更多文章

202

This article has been published

Video Coming Soon

JoVE Logo

政策

使用条款

隐私

科研

教育

关于 JoVE

版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。