JUMPn:蛋白质共表达聚类和网络分析在蛋白质组学中的简化应用

David Vanderwall; Poudel Suresh; Yingxue Fu; Ji-Hoon Cho; Timothy I. Shaw; Ashutosh Mishra; Anthony A. High; Junmin Peng; Yuxin Li

doi:10.3791/62796

需要订阅 JoVE 才能查看此. 登录或开始免费试用。

本文内容

摘要
摘要
引言
研究方案
结果
讨论
披露声明
致谢
材料
参考文献
转载和许可

摘要

我们提出了一个系统生物学工具JUMPn，用于执行和可视化定量蛋白质组学数据的网络分析，其详细的方案包括数据预处理，共表达聚类，途径富集和蛋白质 - 蛋白质相互作用网络分析。

摘要

随着基于质谱的蛋白质组学技术的最新进展，对数百个蛋白质组进行深度分析变得越来越可行。然而，从这些有价值的数据集中获取生物学见解是具有挑战性的。在这里，我们介绍了一个基于生物学的系统软件JUMPn及其相关协议，以将蛋白质组组织成跨样品的蛋白质共表达簇和由模块连接的蛋白质 - 蛋白质相互作用（PPI）网络（例如，蛋白质复合物）。使用R/Shiny平台，JUMPn软件通过集成的数据可视化和用户友好的界面，简化了共表达聚类、通路富集和PPI模块检测的分析。该协议的主要步骤包括安装JUMPn软件，定义差异表达的蛋白质或（dys）调节的蛋白质组，确定有意义的共表达簇和PPI模块，以及结果可视化。虽然该方案使用基于等压标记的蛋白质组谱进行演示，但JUMPn通常适用于广泛的定量数据集（例如，无标记蛋白质组学）。因此，JUMPn软件和协议为定量蛋白质组学中的生物学解释提供了强大的工具。

引言

基于质谱的鸟枪鱼蛋白质组学已成为分析复杂样品蛋白质组多样性的关键方法¹。随着质谱仪器²^，³，色谱⁴，⁵，离子淌度检测⁶，采集方法（与数据无关^的7和数据依赖的采集⁸），定量方法（多重等压肽标记方法，例如TMT⁹^，¹⁰和无标记定量¹¹^，¹²）和数据分析策略的最新进展/软件开发¹³^，¹⁴^，¹⁵^，¹⁶^，¹⁷^，¹⁸，整个蛋白质组（例如，超过10，000个蛋白质）的定量现在是常规的¹⁹^，²⁰^，²¹。然而，如何从如此深入的定量数据集中获得机械洞察力仍然是一个挑战²²。研究这些数据集的最初尝试主要依赖于对数据中各个元素的注释，独立处理每个组分（蛋白质）。然而，生物系统及其行为不能仅仅通过检查单个组分²³来解释。因此，将量化的生物分子置于相互作用网络背景下的系统方法对于理解复杂系统和相关过程（例如胚胎发生，免疫反应和人类疾病的发病机制）至关重要²⁴。

基于网络的系统生物学已成为分析大规模定量蛋白质组学数据^25，26^，^27，28^，²⁹^，^30，31^，³²^，³³的强大范^式。从概念上讲，诸如哺乳动物细胞之类的复杂系统可以建模为分层网络³⁴^，³⁵，其中整个系统以层表示:首先由许多大型组件表示，然后由较小的子系统迭代建模。从技术上讲，蛋白质组动力学的结构可以通过共表达蛋白质簇的相互连接的网络（因为共表达的基因/蛋白质通常具有相似的生物学功能或调节^机制36）和物理相互作用的PPI模块³⁷来呈现。作为最近的示例²⁵，我们在T细胞活化过程中生成了整个蛋白质组和磷酸蛋白质组的时间谱，并使用具有PPI的整合共表达网络来鉴定介导T细胞静止退出的功能模块。突出了多个生物能量相关模块并进行了实验验证（例如，线粒体和复合IV模块²⁵，以及单碳模块³⁸）。在另一个示例²⁶中，我们进一步扩展了我们的方法来研究阿尔茨海默病的发病机制，并成功地优先考虑与疾病进展相关的蛋白质模块和分子。重要的是，我们的许多无偏倚发现都得到了独立患者队列²⁶^，²⁹和/或疾病小鼠模型^26的验证。这些例子说明了系统生物学方法在通过定量蛋白质组学和其他组学整合来解剖分子机制方面的力量。

在这里，我们介绍 JUMPn，这是一款简化的软件，它使用基于网络的系统生物学方法探索定量蛋白质组学数据。JUMPn作为已建立的JUMP蛋白质组学软件套件¹³^，¹⁴^，³⁹的下游组件，旨在使用系统生物学方法填补从单个蛋白质定量到生物学上有意义的途径和蛋白质模块的空白。通过以差异表达（或最可变）蛋白质的定量基质作为输入，JUMPn旨在将蛋白质组组织成跨样品和密集连接的PPI模块（例如，蛋白质复合物）共表达的蛋白质簇的分层层次结构，这些模块通过过度表示（或富集）分析进一步注释公共途径数据库（图1）。JUMPn与R/Shiny平台⁴⁰ 一起开发，具有用户友好的界面，并集成了三个主要功能模块:共表达聚类分析，途径富集分析和PPI网络分析（图1）。每次分析后，结果都会自动可视化，并可通过R / shiny小部件功能进行调整，并可轻松下载为Microsoft Excel格式的发布表。在以下实验方案中，我们使用定量全蛋白质组数据作为示例，并描述使用JUMPn的主要步骤，包括安装JUMPn软件，定义差异表达的蛋白质或（dys）调节的蛋白质组，共表达网络分析和PPI模块分析，结果可视化和解释以及故障排除。JUMPn 软件在 GitHub⁴¹ 上免费提供。

研究方案

注意:在该协议中，JUMPn的使用通过利用由TMT等压标记试剂²⁷定量的B细胞分化期间全蛋白质组分析的已发表数据集来说明。

1. JUMPn 软件的设置

注:为设置 JUMPn 软件提供了两个选项:（i）在本地计算机上安装以供个人使用;（ii）在本地计算机上安装以供个人使用;（iii）在本地计算机上安装以供个人使用;（ii）在远程闪亮服务器上为多个用户部署JUMPn。对于本地安装，具有Internet访问权限和≥4 Gb RAM的个人计算机足以对样本量较小的数据集（n <30）运行JUMPn分析;大队列分析需要更大的RAM（例如，16 Gb）（例如，n = 200个样本）。

在本地计算机上安装软件。安装后，允许 Web 浏览器启动 JUMPn，并让分析在本地计算机上运行。
1. 按照在线说明安装 anaconda⁴² 或 miniconda⁴³ 。
2. 下载 JUMPn 源代码⁴¹.双击解压缩下载的文件 JUMPn_v_1.0.0.zip;将创建一个名为 JUMPn_v_1.0.0 的新文件夹。
3. 打开命令行终端。在 Windows 上，使用 Anaconda Prompt。在 MacOS 上，使用内建的"终端"应用程序。
4. 创建 JUMPn Conda 环境:获取 JUMPn_v_1.0.0 文件夹的绝对路径（例如，/path/to/JUMPn_v_1.0.0）。要创建并激活空的 Conda 环境，请在终端上键入以下命令
  conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
  conda activate /path/to/JUMPn_v_1.0.0/JUMPn
5. 安装 JUMPn 依赖项:安装 R（在终端上，键入 conda install -c conda-forge r=4.0.0 -y），将当前目录更改为 JUMPn_v_1.0.0 文件夹（在终端上，键入 cd path/to/JUMPn_v_1.0.0），然后安装依赖项包（在终端上，键入 Rscript 引导程序）。R)
6. 在 Web 浏览器上启动 JUMPn:将当前目录更改为执行文件夹（在终端上，键入 cd execution）并启动 JUMPn（在终端上，键入 R -e"shiny::runApp（）"）
7. 执行上述操作后，终端屏幕将显示在 http://127.0.0.1:XXXX 上侦听 （此处 XXXX 表示 4 个随机数）。将 http://127.0.0.1:XXXX 复制并粘贴到 Web 浏览器上，JUMPn 欢迎页面将显示在该浏览器上（图 2）。
在闪亮服务器上部署。Shiny Server的示例包括商业 shinyapps.io 服务器或任何机构支持的Shiny服务器。
1. 按照说明⁴⁴ 下载并安装 RStudio。
2. 获取闪亮服务器的部署权限。对于 shinyapps.io 服务器，按照说明⁴⁵设置用户帐户。对于机构 Shiny 服务器，请与服务器管理员联系以请求权限。
3. 将 JUMPn 源代码⁴¹ 下载到本地计算机;无需安装。打开任一服务器。R 或 ui。R 文件中的 R 文件，然后单击 RStudio IDE 右上角的 "发布到服务器 "下拉菜单。
4. 在 "发布到帐户" 面板中，键入服务器地址。按" 发布 "按钮。通过从 RStudio 自动重定向到部署应用程序的 RShiny 服务器，将验证部署是否成功。

2. 使用示例数据集进行演示运行

注意:JUMPn使用已发布的B细胞蛋白质组学数据集提供演示运行。该演示运行演示了一个简化的工作流程，该工作流程以差异表达蛋白的定量矩阵作为输入，并按顺序执行共表达聚类、通路富集和 PPI 网络分析。

在 JUMPn 主页（图 2）上，单击" 开始分析 "按钮以启动 JUMPn 分析。
在 开始分析 页面（图3）的左下角，单击 上传演示B细胞蛋白质组学数据 按钮;将出现一个对话框，通知数据上传成功。
在页面右下角，单击" 提交 JUMPn 分析 "按钮，使用默认参数启动演示运行;将出现一个进度条，表示分析过程。等到进度条完成（预计3分钟）。
演示运行完成后，将出现一个对话框，其中包含成功运行消息和结果文件夹的绝对路径。单击" 继续到结果" 以继续。
该网页将首先引导用户查看WGCNA的共表达聚类结果。单击对话框窗口中的" 查看结果 "以继续。
在 结果第1页:WGCNA输出 页面的左侧找到蛋白质共表达模式。单击 "选择表达式格式 "下拉框以在两种图形格式之间导航:
1. 选择 "趋势 "以显示趋势图，每条线代表样品中单个蛋白质丰度。每条线的颜色表示表达式模式与共表达聚类共识（即WGCNA算法定义的"特征基因"）的接近程度。
2. 选择 箱线图 以箱线图格式显示每个样本的共表达式模式。
查看WGCNA输出页面右侧的途径/本体富集热图。每个聚类中高度丰富的路径一起显示在热图中，颜色强度反映了Benjamini-Hochberg调整后的p值。
向下滚动网页以查看单个蛋白质的表达模式。
1. 使用下拉框 选择共表达簇 以查看每个簇中的蛋白质（默认为簇 1）。在表格中选择一种特定的蛋白质，在此基础上，表格下方的条形图将自动更新以反映其蛋白质丰度。
2. 使用表格右侧的"搜索"框搜索特定蛋白质名称，以查找特定蛋白质。
若要查看 PPI 结果，请单击顶部的" 结果页面 2:PPI 输出 "。
单击 "选择共表达式聚类" 以查看特定共表达式聚类的结果（默认为聚类 1）。此页面上所有图形面板的显示将针对新选择的集群进行更新。
在左图面板上查看所选共表达聚类的 PPI 网络:
1. 单击 按组选择 下拉框以突出显示网络中的各个 PPI 模块。单击 "选择网络布局格式 "下拉框以更改网络布局（默认为 Fruchterman Reingold）。
2. 使用鼠标和触控板执行步骤 2.11.3-2.11.5。
3. 根据需要放大或缩小 PPI 网络。当充分放大时，将显示网络中每个节点的基因名称。
4. 放大后，选择并单击某个蛋白质以突出显示该蛋白质及其网络邻居。
5. 拖动网络中的某个节点（蛋白质）以更改其在布局中的位置;因此，用户可以重新组织网络布局。
在 PPI 结果页面的右侧面板上，查看有助于解释 PPI 结果的共表达聚类级别信息:
1. 默认情况下，以箱线图形式查看所选聚类的共表达式模式。
2. 单击 "选择表达式格式 "下拉框以获取更多信息，或按步骤 2.12.3-2.12.5 中所述进行显示。
3. 选择" 趋势 "以显示共表达式模式的趋势图。
4. 选择 通路条形图 以显示共表达簇的显著富集通路。
5. 选择 通路圆图 以圆图格式显示共表达聚类的显著富集途径。
向下滚动 "结果页面 2:PPI 输出" 网页，查看各个 PPI 模块级别的结果。单击 "选择模块" 下拉框以选择要显示的特定 PPI 模块（群集 1:默认情况下显示模块 1 ）。
查看左侧面板上的 PPI 模块。要操作网络显示，请按照步骤 2.11.2-2.11.5 操作。
在右侧面板上查看通路/本体富集结果。单击 "选择路径注释样式 "下拉框以获取更多信息，并显示:
1. 选择 条形图 以显示所选 PPI 模块的显著丰富的路径。
2. 选择 "圆图 "以圆图的格式显示所选 PPI 模块的显著丰富的路径。
3. 选择 "热图 "以显示所选 PPI 模块中显著富集的通路和相关基因名称。
4. 选择表以显示详细的途径富集结果，包括途径/本体术语的名称，基因名称以及Fisher精确检验的P值。
以电子表格格式查看出版物表格:按照绝对路径（打印在两个结果页面的顶部）并找到名为 ComprehensiveSummaryTables 的出版物电子表格.xlsx。

3. 准备输入文件并上传到 JUMPn

注意:JUMPn将差异表达蛋白（监督法）或最可变蛋白质（无监督法）的定量基质作为输入。如果项目的目标是了解在多种条件下变化的蛋白质（例如，不同的疾病组或生物过程的时间序列分析），则首选执行DE分析的监督方法;否则，选择最可变蛋白质的无监督方法可用于探索目的。

生成蛋白质定量表，其中每个蛋白质为行，每个样品为列。通过基于现代质谱的蛋白质组学软件套件（例如，JUMP套件^13，14^，³⁹，蛋白质组发现者，Maxquant¹⁵^，⁴⁶）实现这一目标。
定义可变蛋白质组。
1. 使用蛋白质组学软件套件提供的统计分析结果来定义差异表达（DE）蛋白质（例如，调整p值<0.05）。
2. 或者，用户可以按照示例R代码⁴⁷ 来定义DE或大多数可变蛋白质。
使用定义的变量蛋白质组设置输入文件的格式。
注意:所需的输入文件格式（图4）包括标题行;这些列包括蛋白质加入（或任何唯一ID），GN（官方基因符号），蛋白质描述（或任何用户提供的信息），然后是单个样品的蛋白质定量。
1. 按照步骤 3.1 中指定的列的顺序进行操作，但标题的列名对用户来说是灵活的。
2. 对于TMT（或类似）量化蛋白质组，使用汇总的TMT报告基因强度作为输入量化值。对于无标记数据，使用归一化光谱计数（例如，NSAF⁴⁸）或基于强度的方法（例如，Maxquant⁴⁶报告的LFQ强度或iBAQ蛋白强度）。
3. JUMPn 分析允许缺少值。确保在定量基质中将其标记为NA。但是，建议仅在超过50%的样品中使用定量的蛋白质。
4. 将生成的输入文件另存为.txt、.xlsx或.csv格式（JUMPn 支持这三种格式）。
上传输入文件:
1. 单击 浏览器 按钮并选择输入文件（图3，左侧面板）;将自动检测文件格式（支持 xlsx、 csv 和 txt ）。
2. 如果输入文件包含类似强度的量化值（例如，由 JUMP 套件³⁹ 生成的值）或类似比率的值（例如，来自蛋白质组发现器），则为"执行 Log2-数据转换选项"选择"是";否则，数据可能已经过日志转换，因此请选择此选项选择"否"。

4. 共表达聚类分析

注:我们的组²⁵^，²⁶^，²⁷ 和其他²⁸^，²⁹^，³¹ 组已经证明了WGCNA⁴⁹ 是定量蛋白质组学共表达聚类分析的有效方法。JUMPn遵循WGCNA分析²⁵^，⁵⁰的3步程序:（i）通过基于拓扑重叠基质的动态树切割⁵¹ （TOM;通过基因/蛋白质之间的定量相似性确定）的共表达基因/蛋白质簇的初始定义;（ii）合并相似的聚类以减少冗余（基于特征相似性的树状图）;（iii）最终将超过最小Pearson相关截止值的基因/蛋白质分配给每个簇。

配置 WGCNA 参数（图 3，中间面板）。以下三个参数分别控制这三个步骤:
1. 将最小群集大小设置为 30。此参数定义了基于 TOM 的混合动态树切割的初始步骤（i）中每个共表达簇所需的最小蛋白数量。该值越大，算法返回的聚类数就越少。
2. 将最小聚类距离设置为 0.2。增加此值（例如，从 0.2-0.3）可能会在步骤（ii）期间导致更多的簇合并，从而导致簇数减少。
3. 将最小 kME 设置为 0.7。蛋白质将被分配到步骤（ii）中定义的最相关的簇，但只有具有Pearson相关性通过此阈值的蛋白质才会被保留。在此步骤中失败的蛋白质将不会被分配到任何簇（最终报告中失败蛋白质的"NA"簇）。
启动分析。提交共表达聚类分析的方法有两种:
1. 点击右下角的 提交JUMPn分析 按钮，自动启动WGCNA综合分析，然后进行PPI网络分析。
2. 或者，选择仅执行 WGCNA 步骤（特别是出于参数调整的目的;请参阅步骤 4.2.3-4.2.4）:
3. 单击"开始分析"页面底部的"高级参数"按钮;将弹出一个新的参数窗口。在底部微件中选择分析模式，选择仅 WGCNA，然后单击"关闭"以继续。
4. 在 "开始分析" 页上，单击" 提交 JUMPn 分析" 按钮。
5. 在上述任一情况下，提交分析时都会出现一个进度条。
  注意:分析完成后（ 仅 WGCNA 分析通常 <为 1 分钟，综合分析通常为 <3 分钟），将出现一个对话框，其中包含成功运行消息和结果文件夹的绝对路径。
检查 WGCNA 结果，如步骤 2.4-2.8 所示（图 5）。请注意，文件co_exp_clusters_3colums.txt的绝对路径在 结果页面的顶部突出显示:WGCNA输出 记录每个蛋白质的簇成员身份，并将其用作 仅PPI 分析的输入。
故障排除。讨论了以下三种常见情况。更新参数后，如下所述，请按照步骤4.2.2-4.2.4生成新的WCCNA结果。
1. 如果数据中预期有一个重要的共表达模式，但算法遗漏了，请按照步骤 4.4.2-4.4.4
2. 对于小的共表达簇，缺失的簇尤其可能，即只有有限数量（例如，<30）的蛋白质表现出这种模式。在重新分析之前，重新检查蛋白质定量基质的输入文件，并找到几种符合该重要共表达模式的阳性对照蛋白。
3. 要拯救小聚类，请减小 最小聚类大小 （例如，10;小于 10 的聚类大小可能不可靠，因此不建议这样做），并减少 最小聚类距离 （例如，0.1;此处也允许设置为 0，这意味着将跳过自动聚类合并）。
4. 使用更新的参数执行共表达聚类步骤后，首先检查是否从 共表达模式图中拯救了该簇，然后通过从 详细蛋白质定量 中搜索其蛋白质种质来检查阳性对照（确保在搜索之前从左侧下拉小部件中选择适当的共表达簇）。
  注意:可能需要多次迭代参数调整和重新运行才能进行救援。
5. 如果有太多的蛋白质无法分配给任何簇，请按照步骤4.4.6-4.4.7进行操作。
  注意:通常，一小部分（通常为<10%）的蛋白质可能不会被分配到任何簇，因为这些蛋白质可能是不遵循数据集的任何常见表达模式的异常值蛋白质。然而，如果该百分比显著（例如，>30%），则表明存在其他不可忽视的共表达模式。
6. 同时减小 "最小聚类大小"和 "最小聚类距离"参数，以通过检测"新"共表达聚类来缓解这种情况。
7. 此外，降低 最小皮尔逊相关（kME） 参数以缩小这些"NA簇"蛋白。
  注意:调整此参数不会生成新的簇，而是通过接受阈值较低的更多以前失败的蛋白质来增加"现有"簇的大小;然而，这也将增加每个簇的异质性，因为现在允许更多嘈杂的蛋白质。
8. 两个集群的模式差异非常小;按照步骤 4.4.9-4.4.11 将它们合并到一个群集中。
9. 增加 最小聚类距离参数以解决问题。
10. 但是，在某些情况下，算法可能永远不会返回所需的模式;在这样的时刻，手动调整或编辑文件中的集群成员资格，co_exp_clusters_3colums.txt（步骤4.3中的文件）进行合并。
11. 将经过编辑后的文件作为下游 PPI 网络分析的输入。在手动编辑的情况下，请证明聚类分配的标准，并记录手动编辑的过程。

5. 蛋白质-蛋白质相互作用网络分析

注意:通过将共表达簇叠加到 PPI 网络上，每个共表达簇进一步分层为更小的 PPI 模块。对每个共表达簇进行分析，包括两个阶段:在第一阶段，JUMPn将共表达簇中的蛋白质叠加到PPI网络上，并找到所有连接的组分（即，连接节点/蛋白质的多个簇;例如，参见 图6A）;然后，将使用拓扑重叠矩阵（TOM）方法⁵²迭代地检测每个连接组件的社区或模块（密集连接的节点）。

配置 PPI 网络分析的参数（图 3，右面板）。
1. 将 最小 PPI 模块大小 设置为 2。此参数定义第一阶段分析中断开连接的组件的最小尺寸。任何小于指定参数的组件都将从最终结果中删除。
2. 将 最大 PPI 模块大小 设置为 40。通过此阈值的大型断开连接组件将进行基于 TOM 的第二阶段分析。第二阶段的分析将进一步将每个大组件拆分为更小的模块:每个模块可能包含比原始组件作为一个整体更密集连接的蛋白质。
启动分析。提交 PPI 网络分析的方法有两种:
1. 点击 "提交 JUMPn 分析 "按钮，默认在 WGCNA 分析之后自动执行 PPI 分析。
2. 或者，上传自定义的共表达聚类结果，并按照步骤 5.2.3-5.2.5 执行 仅 PPI 分析。
3. 按照文件的格式准备输入文件co_exp_clusters_3colums.txt（请参阅第 4.4 小节）。
4. 单击"开始分析"页面底部的"高级参数"按钮;将弹出一个新的参数窗口。在上一个会话上传"仅PPI"分析的共表达式聚类结果中，单击浏览器以上传步骤5.2.3准备的输入文件。
5. 在底部微件 的"选择分析模式"中，选择" 仅 PPI"， 然后单击" 关闭 "以继续。在 "开始分析" 页上，单击" 提交 JUMPn 分析" 按钮。
分析完成后（通常为<3分钟），检查步骤2.10-2.15所示的PPI结果（图6）。
可选高级步骤）通过调整参数来调整 PPI 模块化:
1. 增加 最大模块大小 参数以允许 PPI 结果中包含更多蛋白质。按照步骤 5.4.2-5.4.3 上传自定义的 PPI 网络以涵盖未记录的交互。
2. 单击"开始分析"页面底部的"高级参数"按钮;将弹出一个新的参数窗口。准备自定义的PPI文件，其中包含三列，格式为，C;这里由每种蛋白质的官方基因名称表示。
3. 在 "上载 PPI 数据库"中，单击" 浏览 "按钮以上载自定义的 PPI 文件。

6. 通路富集分析

注意:其中共表达簇和 PPI 模块的 JUMPn 派生分层结构使用 Fisher 的精确测试，使用过度表示的途径自动注释。使用的途径/拓扑数据库包括Gene Ontology（GO），KEGG，Hallmark和Reactome。用户可以使用高级选项上传用于分析的定制数据库（例如，在分析来自非人类物种的数据的情况下）。

默认情况下，通路富集分析通过共表达聚类和 PPI 网络分析自动启动。
查看通路富集结果:
1. 按照步骤 2.7、2.12 和 2.15 在结果页面上可视化不同的格式。在综合摘要表.xlsx文件中的电子表格发布表中查看详细结果（步骤 2.16）。
（可选高级步骤）上传用于通路富集分析的定制数据库:
1. 准备基因背景文件，该文件通常包含一个物种所有基因的官方基因名称。
2. 按照步骤 6.3.3-6.3.4 准备本体库文件。
3. 从公共网站下载本体库文件，包括 EnrichR⁵³ 和 MSigDB⁵⁴。例如，从EnrichR网站⁵⁵下载果蝇的本体。
4. 使用两列编辑所需格式的下载文件:途径名称作为第一列，然后官方基因符号（由"/"分隔）作为第二列。详细的文件格式在 JUMPn R 闪亮软件 的帮助 页面中进行了描述。
  注意:在 JUMPn GitHub 站点⁵⁶ 中查找基因背景和本体文库（以果蝇为实例）的示例文件。
5. 单击"开始分析"页面底部的" 高级参数 "按钮;将弹出一个新的参数窗口。
6. 找到 "上传路径富集分析"项的后台文件 ，然后单击 "浏览器 "以上传在步骤 6.3.1 中准备的后台文件。然后在会话中， 选择要用于途径富集分析的背景，单击 "用户提供的背景"。
7. 查找 "上传本体库文件以进行通路富集分析" 项目，然后单击 "浏览器 "以上传在步骤 6.3.2-6.3.4 中准备的本体库文件。然后在会话中， 选择"用于路径扩充分析的数据库"，单击" 用户提供的.xlsx格式的数据库"。
单击右下角的 提交 JUMPn 分析 按钮，使用自定义数据库启动分析。

7. 大样本量数据集分析

注意:JUMPn 支持分析具有大样本量的数据集（测试的样本多达 200 个）。为了便于大样本量的可视化，需要一个指定样本组的附加文件（名为"meta file"）来促进共表达聚类结果的显示。

准备并上传元文件。
1. 按照步骤 7.1.2-7.1.3 为每个样本准备指定组信息（例如，对照组和疾病组）的 meta 文件。
2. 确保meta文件至少包含两列:列1必须包含与蛋白质定量基质文件中的列名称和顺序相同的样品名称和顺序（如步骤3.3中准备的那样）;第 2 列以后将用于用户定义的任意数量要素的组分配。列数是灵活的。
3. 确保元文件的第一行包含每列的列名;从第二行开始，应列出组的单个样本信息或其他特征（例如，性别，年龄，治疗等）。
4. 通过单击"开始分析"页面底部的"高级参数"按钮上传元文件;将弹出一个新的参数窗口。继续执行步骤 7.1.5
5. 找到 上传元文件 项目，然后单击 浏览器 上传背景文件。如果 JUMPn 检测到意外的格式或不匹配的示例名称，则会弹出一条错误消息，以便进一步格式化元文件（步骤 7.1.1-7.1.3）。
调整共表达聚类分析的参数:将 最小皮尔逊相关设置为 0.2。由于样本量较大，因此需要放宽此参数。
单击右下角的" 提交 JUMPn 分析 "按钮以提交分析。
查看分析结果:除了显示共表达聚类模式外，所有数据输出都相同。
1. 在 结果页面 1:WGCNA 输出 页面中，将共表达聚类可视化为箱线图，其中的样本由用户定义的样本组或要素分层。图中的每个点都表示由 WGCNA 算法计算的特征基因（即聚类的共识模式）。
2. 如果用户提供了多个特征（例如，年龄、性别、治疗等）对样本进行分组，请单击 "选择表达式格式 "下拉框以选择其他要素对样本进行分组。

结果

我们使用已发布的深度蛋白质组学数据集²⁵^、²⁶^、²⁷^、³⁰ （图 5 和 图 6）以及数据模拟⁵⁷ （表 1）来优化和评估 JUMPn 性能。对于通过WGCNA进行的共表达蛋白聚类分析，我们建议使用样品之间显着变化的蛋白质作为输入（例如，通...

讨论

在这里，我们介绍了我们的JUMPn软件及其协议，它们已应用于多个项目中，使用深度定量蛋白质组学数据^25，26^，²⁷^，³⁰^，⁶⁴解剖分子机制。JUMPn软件和实验方案已经过全面优化，包括考虑用于共表达网络分析的DE蛋白，综合和高质量PPI网络的汇编，严格的统计分析（例如，通过?...

披露声明

作者没有什么可透露的。

致谢

美国国立卫生研究院（NIH）（R01AG047928，R01AG053987，RF1AG064909，RF1AG068581和U54NS110435）和ALSAC（美国黎巴嫩叙利亚联合慈善机构）提供了资金支持。MS分析在圣裘德儿童研究医院的蛋白质组学和代谢组学中心进行，该中心由NIH癌症中心支持补助金（P30CA021765）部分支持。内容完全由作者负责，并不一定代表美国国立卫生研究院的官方观点。

材料

Name	Company	Catalog Number	Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7.	Apple Inc.	MacBook Pro 13''	Hardware used for software development and testing
Anoconda	Anaconda, Inc.	version 4.9.2	https://docs.anaconda.com/anaconda/install/
miniconda	Anaconda, Inc.	version 4.9.2	https://docs.conda.io/en/latest/miniconda.html
RStudio	RStudio Public-benefit corporation	version 4.0.3	https://www.rstudio.com/products/rstudio/download/
Shiny Server	RStudio Public-benefit corporation		https://shiny.rstudio.com/articles/shinyapps.html

参考文献

Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, 2301-2319 (2021).
. JUMPn Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021)
. Anaconda Available from: https://docs.anaconda.com/anaconda/install/ (2021)
. miniconda Available from: https://docs.conda.io/en/latest/miniconda.html (2021)
. RStudio Available from: https://www.rstudio.com/products/rstudio/download/ (2021)
. Shiny Server Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021)
Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
. R code Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021)
Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
. FlyEn rich r Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021)
. JUMPn GitHub Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly (2021)
Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

转载和许可

请求许可使用此 JoVE 文章的文本或图形

请求许可

探索更多文章

176

This article has been published

Video Coming Soon

Keep me updated: