需要订阅 JoVE 才能查看此. 登录或开始免费试用。
我们提出了一种灵活、可扩展的基于 Jupyter 实验室的工作流程,用于复杂多组学数据集的无监督分析,该工作流程结合了不同的预处理步骤、多组学因子分析模型的估计和多种下游分析。
疾病机制通常很复杂,并受几个不同分子过程的相互作用控制。复杂的多维数据集是生成对这些过程的更多见解的宝贵资源,但此类数据集的分析可能具有挑战性,因为例如,来自不同疾病状况、时间点和组学以不同分辨率捕获该过程的高维结果。
在这里,我们展示了一种以无监督方式分析和探索如此复杂的多组学数据集的方法,方法是将多组学因子分析 (MOFA) 应用于从捕获急性和慢性冠状动脉综合征免疫反应的血液样本生成的数据集。该数据集由不同分辨率的几种分析组成,包括样本水平的细胞因子数据、血浆蛋白质组学和中性粒细胞引物 seq 以及单细胞 RNA-seq (scRNA-seq) 数据。通过测量每个患者和几个患者亚组的几个不同时间点,进一步增加了复杂性。
分析工作流程概述了如何分几个步骤整合和分析数据:(1) 数据预处理和协调,(2) MOFA 模型的估计,(3) 下游分析。步骤 1 概述了如何处理不同数据类型的特征,过滤掉低质量的特征,并对其进行归一化以协调其分布以供进一步分析。第 2 步展示了如何应用 MOFA 模型并探索数据集中所有组学和特征的主要方差来源。第 3 步提出了几种用于捕获模式下游分析的策略,将它们与疾病状况和控制这些条件的潜在分子过程联系起来。
总体而言,我们提出了一种对复杂的多组学数据集进行无监督数据探索的工作流程,以能够识别由不同分子特征组成的主要变异轴,这些变异轴也可以应用于其他环境和多组学数据集(包括示例性用例中介绍的其他分析)。
疾病机制通常很复杂,并受几个不同分子过程的相互作用控制。破译导致特定疾病或控制疾病演变的复杂分子机制是一项具有高度医学相关性的任务,因为它可能会为理解和治疗疾病提供新的见解。
最近的技术进步能够同时在更高分辨率(例如,在单细胞水平上)和各种生物层(例如,DNA、mRNA、染色质可及性、DNA 甲基化、蛋白质组学)上测量这些过程。这导致大型多维生物数据集的生成越来越多,可以对其进行联合分析以生成对基本过程的更多见解。与此同时,以具有生物学意义的方式组合和分析不同的数据源仍然是一项具有挑战性的任务1。
不同组学之间的不同技术限制、噪音和变异范围构成了一个挑战。例如,单细胞 RNA 测序 (scRNA-seq) 数据非常稀疏,并且经常受到大型技术或批次效应的影响。此外,特征空间通常非常大,范围涵盖数千个测量基因或蛋白质,而样本量有限。复杂的设计使情况更加复杂,其中可能包括多种疾病状况、混杂因素、时间点和分辨率。例如,在所展示的用例中,在单单元或样本(批量)级别上提供了不同的数据类型。除此之外,数据可能不完整,并且并非所有测量结果都适用于所有分析对象。
由于这些挑战,不同的组学和包含的特征通常仍然只单独分析2,即....
1. 准备工作:技术设置和安装
注意:要运行此程序,请在设备上预装 wget、git 和 Apptainer。在不同系统(Linux、Windows、Mac)上安装 Apptainer 的指南如下:https://apptainer.org/docs/admin/main/installation.html。有关 git 的安装信息,请访问:https://git-scm.com/book/en/v2/Getting-Started-Installing-Git。根据不同输入数据集的大小,建议在合适的计算机(16 个 CPU,64GB 内存)上运行工作流。可以使用提供的示例数据在本地计算机上执行冒烟测试。补充文件 1 中给出了对示例数据运行协议的说明和预期输出。有关在上述数据集上执行的协议的重要步骤,请参阅 补充视频文件 1 。
成功执行工作流后,将生成多个表格和数字,如图 2 所示。图表放置在 /figures 文件夹中(图 6、 图 7、 图 8、 补充图 1、 补充图 2、 补充图 3、 补充图 4),表格将放置在指定的 /results 文件夹中。
通过概述的协议,提出了一个模块化且可扩展的基于 Jupyter 笔记本的工作流程,可用于快速探索复杂的多组学数据集。工作流程的主要部分包括预处理和数据协调部分(为数据过滤和标准化提供不同的标准步骤)、MOFA9 模型的估计和一些示例性的下游分析。主要的关键步骤之一是预处理、整合和协调不同的组学数据集。在这里,我们提出了一种数据集策.......
作者声明没有利益冲突。
C.L. 得到了亥姆霍兹协会在联合研究学院“慕尼黑数据科学学院 - MUDS”下的支持。
....Name | Company | Catalog Number | Comments |
Apptainer | NA | NA | https://apptainer.org/docs/admin/main/installation.html |
Compute server or workstation or cloud (Linux, Mac or Windows environment). Depending on the size of the different input datasets we recommend running the workflow on a suitable machine (in our setting we use: 16 CPU, 64GB Memory) | Any manufacturer | 16 CPU, 64GB Memory | Large Memory is only required for the processing of the raw single cell data. After preprocessing the later analysis steps can also be performed on regular desktop or laptop computers |
git | NA | NA | https://git-scm.com/book/en/v2/Getting-Started-Installing-Git |
GitHub | GitHub | NA | https://github.com/heiniglab/mofa_workflow |
请求许可使用此 JoVE 文章的文本或图形
请求许可探索更多文章
This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。