Method Article
OpenProt 是一个可自由访问的数据库, 它实施了真核细胞基因组的多聚模型。在这里, 我们提出了一个在询问质谱数据集时使用 OpenProt 数据库的协议。利用 OpenProt 数据库分析蛋白质组学实验, 可以发现新的和以前无法检测到的蛋白质。
基因组注释是当今蛋白质组学研究的核心, 因为它绘制了蛋白质组景观的轮廓。开放阅读框架 (ORF) 注释的传统模型施加了两个任意标准: 每个编码器的最小长度为100个密码子和单个 ORF。然而, 越来越多的研究报告了来自所谓非编码区域的蛋白质表达, 这对当前基因组注释的准确性提出了挑战。这些新的蛋白质被发现编码要么在非编码 Rna, 5 ' 或 3 ' 未翻译的区域 (Ucs) 的 Mrna, 或重叠已知的编码序列 (CDS) 在一个替代 ORF。OpenProt 是第一个为真核细胞基因组实施多国模型的数据库, 允许对每个转录体的多个 Orf 进行注释。OpenProt 可免费访问, 并提供10个物种的蛋白质序列的自定义下载。利用 OpenProt 数据库进行蛋白质组学实验, 可以发现新的蛋白质, 并突出真核细胞基因的多因素性质。OpenProt 数据库 (所有预测的蛋白质) 的大小是巨大的, 需要在分析中加以考虑。但是, 通过适当的错误发现率 (FDR) 设置或使用受限制的 OpenProt 数据库, 用户将获得更逼真的蛋白质组景观视图。总体而言, OpenProt 是一个免费可用的工具, 将促进蛋白质组的发现。
在过去的几十年里, 基于质谱 (ms-) 的蛋白质组学已成为破译真核细胞 1,2,3, 4,5的蛋白质组的黄金技术。此方法依赖于当前的基因组注释来生成一个参考蛋白质序列数据库, 该数据库概述了可能性的范围6, 7,8.但是, 基因组注释包含 orf 注释的任意标准, 例如每个转录条 9、10的最小长度为100个密码子和一个 orf。越来越多的研究对目前的注释模型提出了挑战, 并报告了在真核细胞基因组 8、11、12、13中发现的未注释功能 orf。 14岁这些新的蛋白质被发现编码在据称非编码 Rna, 在 5 ' 或 3 ' 未翻译的区域 (UTR) 的 mrna, 或重叠的规范编码序列 (cCDS) 在一个替代的框架。尽管这些发现大多是偶然的, 但它们证明了当前基因组注释的警示和真核基因的多国性质8。
在这里, 我们重点介绍了 OpenProt 数据库在基于 ms 的蛋白质组学中的应用。OpenProt 是第一个保存真核细胞转录多核注释模型的数据库。客房 www.openprot.org15可免费使用。这些预测的 Orf 中有一部分是随机的和非功能性的, 这就是为什么 OpenProt 累积实验和功能证据以增加信心的原因。实验证据包括蛋白质表达 (由 ms) 和翻译证据 (通过核糖体分析)15。功能证据包括蛋白质正畸 (类似偏执狂的方法) 和功能域预测15。
OpenProt 提供了下载多个数据库的可能性, 从只包含支持良好的蛋白质到定制数据库。在这里, 我们将介绍一个用于 OpenProt 数据库的管道, 并将提供有关考虑实验目的的数据库选择的见解。这里介绍的蛋白质组学分析管道是由 galaxy 框架支持的, 因为它是开放访问和易于使用的, 但数据库可以与任何工作流16、17、18 一起使用。我们还将介绍如何利用 OpenProt 网站收集有关 ms 检测到的新蛋白质的进一步信息. 利用 OpenProt 数据库将提供更详尽的蛋白质组学视图, 并将促进蛋白质组学和生物标志物的发现。比目前的方法更系统的方法。
该协议突出了 OpenProt 数据库15在询问 ms 数据集时的使用情况;它不会审查实验本身的设计, 实验已经在其他地方彻底审查了20、21、22.为了保持完全的开源, 该协议是免费提供的 (补充材料 s1-s4)。为了便于阅读, 在 Opopenprot 和本协议中使用的所有术语都在表 1中定义。
1. OpenProt 数据库下载
注: 例如, 还可以获取基于 RNA-seq 数据的自定义数据库, 并在本协议的第二部分详细介绍了该过程。如果需要自定义数据库, 请跳到下一节。
2. 自定义 OpenProt 数据库下载
注: 本节详细介绍如何获取自定义数据库。如果不需要自定义数据库, 请跳到下一节。
3. 数据库处理
注: 从现在开始, 将使用 Galaxy 平台, 但同样的原则可以应用于其他蛋白质组学软件。
4. 质谱文件的制备
注: Galaxy 实例上提供的大多数蛋白质组学工具都使用 mzML 格式, 而肽搜索引擎更喜欢质心模式下的数据。
5. 多肽和蛋白质鉴定/定量
注: 管道的这一部分使用 OpenMS 套件中的工具, 这是一个多功能且易于使用的框架18。
6. 质量控制
注: 由于基于 ms 的蛋白质组学是一个复杂过程的结果, 在这个过程中, 每个步骤都需要进行优化以产生可重现的结果, 因此质量控制是工作流33中的一个必要过程。
7. OpenProt 数据库挖掘
注: 一旦对 OpenProt 预测的一种新蛋白质 (从 AltProts 的 ip _ 开始, 对于新的等形式的 Ii _) 进行了可靠的识别, 就可以从 OpenProt 网站15中收集到更多的生物信息。
上述工作流应用于提请使用的用作存储库38、39上的 ms 数据集。最初的研究开发了一种方法 (Imippro), 使用稳定的同位素标记的氨基酸在细胞培养 (SIAC), 以消除假阳性从亲和力纯化 MS (AP-MS) 实验38。简而言之, AP-MS 实验包括使用珠子结合抗体获取感兴趣的蛋白质 (诱饵) 及其相互作用器 (preys)。然后对收集到的蛋白质进行消化, 并为 MS 做好准备。在原始研究和 PRIDE 存储库 (PXD004246) 中介绍了样品制备方法和仪器设置。在这些实验中, 一个挑战是假阳性的丰富, 特别是从与珠子结合的蛋白质, 但不是诱饵。在这里, 我们用 SIAC 生成了真正的猎物和假阳性之间不同的同位素比率: 3个控制样本 (无诱饵) 在轻介质中培养, 1个样本表示在轻介质中培养的诱饵, 1个样本表示在重介质中培养的诱饵, 共用珠子和进一步的质谱分析进行处理。有了这样的设计, 与珠子结合的非特定蛋白质的重光比将为 1:4;当真正的前置将有 1:1 38 的比率。
我们使用 OpenProt 数据库重新分析了他们的 AP-MS 数据;诱饵包括三种内源性蛋白质 (PTPN14、JIP3 和 IQGAP1) 和两种过度表达的蛋白质 (RAF1 和 RNF41)。由于实验使用了 SIAC, 使用了用于蛋白质定量的 galaxy 工作流程 (补充材料 S3,图 2)。工作流使用整个 OpenProt 数据库 (OpenProt _ all) 或受限制的 OpenProt 数据库 (OpenProt_2pep (仅包括以前至少检测到两个独特肽的蛋白质) 运行。
蛋白质鉴定和定量在不同的使用数据库中都是良好和可重现的。如图 3所示, 原始文件中确定的大多数蛋白质也是使用 OpenProt_2pep 或 openprot _ all 数据库识别的 (补充材料 s5中提供了详细清单)。这一结果表明, 此处描述的管道和 OpenProt 数据库能够根据 Unikb Protkb 数据库40进行与当前程序相当的蛋白质识别和定量。然而, 使用 OpenProt 数据库具有独特的优势, 它允许检测新的和以前无法检测到的蛋白质, 正如本案例研究所证明的那样。
利用 OpenProt_2pep 数据库 (所有蛋白质加入以及支持的数量), 在所有数据集中, 在所有数据集中都发现了11种支持良好的蛋白质 (1个等异形体和 10个 AltProts), 这些蛋白质在所有数据集中都有自信的肽多肽, 可在补充材料 S5)。该数据库允许使用传统的 1% FDR, 因为搜索空间的增加保持不变。这11种蛋白质在最初的研究中没有被识别, 因为它们不在数据库中。
使用 OpenProt _ all 数据库, 在所有数据集中发现了29种新的蛋白质 (16个异形和 13个 AltProts), 并使用 opentprot _ all 数据库 (补充材料 S6 中提供了所有蛋白质加入以及支持肽的数量) ).如图 3所示, 推荐的严格的 fdr 并不影响最自信的蛋白质鉴定, 尽管它确实减少了已识别蛋白质的总数。与 OpenProt_2pep 数据库相比, 可以自信地识别出更多的新型蛋白质。所有这些新的蛋白质都不在 OpenProt_2pep 数据库中。这突出了所选数据库在基于 ms 的蛋白质组学中的关键作用。
一种新的蛋白质被发现为 RAF1 蛋白 (IP_637643) 的相互作用。使用 OpenProt 网站, 人们可以看到这种蛋白质直到现在还没有被 ms 或核糖体分析检测到 (OpenProt v1.3)。这种蛋白质有46个氨基酸, 在胰蛋白酶消化时只能给予两种独特的肽。在 RAF1 AP-MS 数据集中检测到的肽 (第18部分) 具有良好的质量谱, 如图 4所示, 并显示了 1, 09 的重光比。该蛋白被编码在nanognp1基因中, Nanogn1 基因是Nanognb的伪基因。根据 GTEx 门户网站40, 在多个组织中检测到了记录 (enst00000448444), 该成绩单 (ENST0000044844) 被注释为非编码。该蛋白质包含与 DNA 结合相关的预测功能域 (基因本体论 GO:0003677)41。
图 1: 蛋白质组学分析图的数据库选择.MS 数据的分析, 特别是数据库的选择, 取决于研究目标。三个共同的目标概述了蓝色 (经典的蛋白质组学管道), 绿色 (详尽的蛋白质组学搜索) 和橙色 (蛋白质组学发现)。每个目标都取决于适当的数据库和管道。一个单一的识别工具可用于详尽和经典的蛋白质组学管道。对于蛋白质组发现管道, 我们强烈建议使用多个识别引擎。推荐的 Fdr 以红色表示, 蛋白质数据库大小以灰色框表示。请点击这里查看此图的较大版本.
图 2* 使用的银河工作流程的图形表示.用于重新分析 Eyckerman 等人数据38的蛋白质组分析工作流的分步表示。输入文件、肽搜索和蛋白质定量由橙色框表示。蓝色框对应于使用的工具, 灰色框对应于生成的输出文件。不同的搜索引擎 (MS-GF + 和 X!串联) 由不同的颜色 (分别为红色和紫色) 以及表示其必要输入和输出的箭头表示。绿色框突出显示了生成蛋白质识别列表的工具。生成多个输出时, 用于下游步骤的输出将显示为最接近箭头的输出。此工作流程可在补充材料 S2中免费获得。X!"补充材料 S4" 中提供了串联默认参数配置文件。请点击这里查看此图的较大版本.
图 3: 使用不同的数据库比较每个诱饵的交互器标识.使用最自信的 OpenProt 数据库 (橙色, 至少2个独特肽的支持证据, OpenProt_2pep) 与1% 的 FDR 或整个 OpenProt 数据库 (蓝色, OpenProt _ all) 与0.001% 的 Fdr 或报告的蛋白质识别图, 或报告的蛋白质识别图在原纸 (灰色)38。每个图对应于上述诱饵的已识别的相互关系: RAF1、RNF41、PTPN14、JIP3 和 IQGAP1。请点击这里查看此图的较大版本.
图 4: 已识别的 MMNLWAK 谱(13c6) 来自新型蛋白质 IP_637643 的肽.强度是相对的 (0到100%)。选定的峰用红色表示, y 离子注解用深红色表示, b 离子注解用绿色表示。从 Topview 软件34中提取。前体错误 = 2.70 ppm, PEP 分数 = 0.12。请点击这里查看此图的较大版本.
术语 | 定义 | 参考 |
替代 ORF (AltORF) | 非规范 ORF 目前没有在基因组注释中注释, 但在 OpenProt 中注释。 | 15 |
参考 ORF (Refof) | 在基因组注释和 OpenProt 中注释的规范 ORF。 | 15 |
替代蛋白 (AltProt) | 由 AltORF 编码的新蛋白质, 与 RefProt 没有明显的相似性。加入前缀: IP _。 | 15 |
参考蛋白 (RefProt) | 目前在蛋白质序列数据库 (如 Unidpkb、Ensembl 或 NCBI RefSeq) 中注释的蛋白质, 以及 OpenProt 中注释的蛋白质。 | 15 |
新颖的等形 | 由 AltORF 编码的新蛋白质, 与 RefProt 有显著相似之处。加入前缀: II _。 | 15 |
OpenProt_2pep 数据库 | 包含 Opopenprot 预测的所有 RefProts 和新蛋白质的序列, 它已经检测到至少有2个独特的肽。 | 15 |
OpenProt_1pep 数据库 | 包含 Opopprot 预测的所有 RefProts 和新蛋白质的序列, 这些蛋白质已经检测到至少有1个唯一的肽。 | 15 |
所有数据库 | 包含所有 RefProts 的序列和 OpenProt 预测的新蛋白质。 | 15 |
表 1: OpenProt 和整个协议中使用的术语的定义
补充材料 s1: 用于数据库处理的银河工作流程.这将附加一个框架序列和诱饵序列 (反向) 到输入数据库中。输出是 Fasta 文件。请点击此处下载.
补充材料 s2: 用于蛋白质鉴定的银河工作流程.这将识别蛋白质从质谱数据文件使用两个搜索引擎 (MS-GF + 和 X!串联)。在运行工作流之前, 可以根据需要对每个参数进行调整。请点击此处下载.
补充材料 s3: 使用稳定同位素标记 (SIL) 进行蛋白质定量的银河工作流程.这将识别和量化蛋白质从质谱数据文件使用两个搜索引擎 (MS-GF + 和 X!串联)。在运行工作流之前, 可以根据需要对每个参数进行调整。请点击此处下载.
补充材料 S4:x!串联默认参数配置文件。此 XML 文件是运行 x 所必需的!银河平台上的 TandemAdapter 工具。请点击此处下载.
补充材料 s5: Immispro 数据集中的定量蛋白质.Eyckerman 等人的数据文件来自 2016年 38 人, 使用 OpenProt 数据库进行了处理, 并列出了每种情况下的量化蛋白质。诱饵是 PTPN14、JIP3、IQGAP1、RAF1 和 RNF41。绿色中表示的基因名称与原始论文38中也识别的蛋白质相对应。根据生物网格, 橙色表示的基因名称对应于原始论文中没有报告的已知的相互作用。浅蓝色表示的基因名称对应于被确定为相互作用的新蛋白质 (相应的蛋白质加入编号在括号中表示)。浅灰色和斜体中表示的基因名称对应于可能的污染物 (角蛋白)。请点击此处下载.
补充材料 s6: 从 Immispro 数据集中识别出新的蛋白质.Eyckerman 等人的数据文件于 2016年 38 使用 OpenProt 数据库进行处理, 并列出了每种情况下的新的已识别蛋白质。诱饵是 PTPN14、JIP3、IQGAP1、RAF1 和 RNF41。列出了蛋白质加入数, 从已知蛋白质的新等形式的 II _ 开始, 从 ip _ 开始, 从替代 ORF (AltProt) 的新蛋白质开始。支持肽的数量在括号中表示。请点击此处下载.
在分析质谱仪的数据时, 蛋白质识别的质量在一定程度上取决于所使用的数据库6,20的准确性。目前的方法传统上使用 Unprotkb 数据库, 但这些数据库支持每个转录件的单个 ORF 和100个密码子的最小长度 (以前演示的示例除外) 的基因组注释模型40.多项研究将这类数据库的缺点与从据称非编码区域8、11、12、13中发现功能 orf 联系起来。现在, OpenProt 允许更详尽的蛋白质识别, 因为它从多个转录体注释中提取蛋白质序列。Openprot 检索 ncbi refseq (grch38. p7) 和 ensembl (grch38.83) 转录本和 uniprotkb 注释 (uniprotkb-swissprot, 2017-09-27)40,42,43。由于当前的注释几乎没有重叠, OpenProt 因此显示了潜在蛋白质组景观的更详尽的视图, 而不是仅限于一个注释15时。
此外, 由于 OpenProt 强制实施了多政务模型, 因此它允许每个转录点具有多个蛋白质注释。出于统计和计算方面的原因, OpenProt 仍然持有30个密码子15的最小长度阈值。然而, 它预测了数千个新的蛋白质序列, 从而扩大了蛋白质鉴定的可能性范围。通过这种方法, OpenProt 以更系统的方式支持蛋白质组的发现。
蛋白质识别的质量也会受到所使用参数的影响。基于 ms 的蛋白质组学分析通常持有1% 的蛋白质 FDR。但是, 整个 OpenProt 数据库包含的条目大约是 6倍 (图 1)。为了解释搜索空间的大幅增加, 我们建议使用更严格的 FDR 0.001%。利用基准研究和对随机选择的光谱15的手动评估对该参数进行了优化。不过, 假阳性仍然是有可能的, 我们鼓励对一种新蛋白质的佐证进行彻底的检查和验证。推荐的标准可以是识别来自两个不同 MS 运行的蛋白质, 因为背景数据和误报在数据集 15之间有所不同。
此处提供并用于案例研究的管道可以根据实验设计和参数进行随意修改。我们建议使用多个搜索引擎, 因为它增加了肽识别32的敏感性和敏感性.此外, 我们鼓励使用与实验目标最对应的数据库 (图 1)。由于使用整个 OpenProt 数据库带有严格的 FDR, 因此可能会丢失真正的标识。因此, 整个数据库应用于发现新的蛋白质, 而经典的蛋白质组学分析应该使用较小的 OpenProt 数据库 (如 OpenProt_2pep 在上面的案例研究中使用)。
Openprot 目前预测的序列从 atg 密码子开始, 而几项研究强调了其他密码子 44,45的翻译开始。当一种新的蛋白质被一个或几个独特的肽识别时, 真正的起始密码子可能不是假定的 ATG。用户可以在 OpenProt 网站上查找翻译证据。目前, OpenProt 仅报告翻译事件, 如果它们涉及整个预测的蛋白质序列 (100% 重叠)15。因此, 缺乏翻译证据并不意味着蛋白质没有被翻译, 但启动密码子可能不是所谓的 ATG。
尽管目前存在局限性, OpenProt 还是提供了对真核基因组编码潜力的更详尽的看法。OpenProt 数据库促进蛋白质组发现和对蛋白质组功能和相互作用的理解。OpenProt 数据库的未来发展将包括对其他物种的注释、来自非 atg 起始密码子的翻译证据以及将新蛋白质纳入全基因组和外显子组测序研究的管道的开发。
提交人声明没有利益冲突。
我们感谢维维安·德尔考特对这项工作的帮助、讨论和建议。Xr. 是由法国和加勒比大学支助的魁北克桑特大学中心基金会的成员。这项研究得到了加拿大功能蛋白质组学和发现 x. r. 和 CIHR 赠款 mop-137056 的研究主席的支持。我们感谢魁北克 Calcul 和加拿大计算公司的团队对 Sherbrooke 大学的超级计算机 mp2 的支持。Mp2 超级计算机的运营由加拿大创新基金会、魁北克科学与创新组织 (MESI) 和《魁北克自然与技术》 (FRQ-NT) 资助。用于一些蛋白质组学计算的 Galaxy 服务器部分由协作研究中心992医疗表观遗传学 (DFG 赠款 sfsfsfs92 1 2012) 和德国联邦教育和研究部 (BMBF 赠款 031 a538c RBC, 031L0101B/031L0101C de。NBI-epi, 031L0106 de。STAIR (de。NBI))))。
Name | Company | Catalog Number | Comments |
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。