我们的研究重点是检测和定量微生物蛋白以及了解它们在临床疾病中的作用。这个研究领域称为临床宏蛋白质组学。在这项研究中,我们开发了一种生物信息学工作流程,使研究人员能够了解细菌活动如何影响疾病进展。
临床样品的宏蛋白质组学分析面临许多挑战,包括处理非常大的蛋白质序列数据库,以便从质谱数据中灵敏准确地鉴定微生物肽和蛋白质,此外还要对定量肽和蛋白质进行分类和功能注释,以便对结果进行生物学解释。该工作流程具有多种优势,包括使用我们的数据库缩减工作流程进行数据库缩减、使用多种搜索算法搜索微生物肽的能力、验证质谱数据中检测到的微生物肽的能力、量化微生物蛋白质和宿主蛋白的能力,以及使用统计和视觉分析对数据进行生物学解释。我们利用临床宏蛋白质组学工作流程来确定用于囊性纤维化疾病进展研究的微生物肽组,以研究 COVID-19 大流行浪潮期间的混合感染状态。
这些研究已发表在同行评审的学术期刊上。我们目前正在将此工作流程用于一项正在进行的研究,以开发卵巢癌的预测性靶肽组合。Galaxy P 团队参与了多组学研究,我们正在开发几种用于蛋白质基因组学和宏蛋白质组学分析的先进工作流程。
我们目前还致力于开发免疫肽组学工作流程,这将使研究人员能够检测和表征呈递给免疫系统的肽,其中一些在癌症进展过程中称为新抗原,以及其他也可能是微生物肽的疾病。首先,获取与疾病或感兴趣的病症相关的物种列表。使用标题为 Species 的物种列表文件。
tabular“作为 UniProt 的输入。下载 FASTA 格式的蛋白质组以生成蛋白质序列数据库。运行蛋白质数据库下载器以生成两个额外的蛋白质序列数据库,一个仅包含已审查条目的人类 Swiss-Prot 数据库和一个包含外源蛋白质通用存储库 (cRAP) 的污染物蛋白质数据库。
使用三个蛋白质数据库作为 FASTA 合并文件的输入,并过滤唯一序列以排除重复序列。使用生成的大型数据库和质谱数据集作为输入,运行 MetaNovo 以生成还原蛋白序列数据库,然后运行 FASTA 合并文件并在 MetaNovo 生成的数据库、人类 Swiss-Prot 和 cRAP 数据库上筛选唯一序列,以创建一个缩减的目标数据库,其中包含用于肽检测的微生物、人类和污染物蛋白质序列。执行搜索 GUI“以生成包含肽谱匹配或 PSM 的存档文件。
使用搜索 GUI“存档文件作为 Peptide-Shaker 的输入”生成 PSM、肽和蛋白质报告。运行 MaxQuant“生成蛋白质组和肽文件。使用文本作工具,组织从 Search GUI、Peptide-Shaker“和 MaxQuant 获得的输出。
将两个肽列表连接到标记为 SGPS-MQ-Peptides.tabular 的单个数据集中。对连接肽列表进行分组,以消除重复的肽序列并获得独特微生物肽的最终列表。对于 PepQuery2 验证,请输入不同微生物肽的列表、MS 光谱数据集、带有亚型的人类 UniProt 参考数据库和污染物蛋白质序列数据库。
对搜索 GUI、Peptide-Shaker“和 MaxQuant 中的肽报告运行 Cut”以提取肽序列和相关蛋白质条目。将两个程序中的肽序列和蛋白质条目连接起来,创建一个新的组合肽蛋白质数据集,然后在组合的肽蛋白质数据集和经过验证的肽上运行查询表格,将每个经过验证的肽分配给其相关的蛋白质条目。分组以保留唯一经过验证的肽段及其相关的 UniProt ID。
接下来,运行 Query Tabular“提取 UniProt ID,从已验证的 Peptides.tabular 生成一个标记为 Uniprot-ID 的列表。将 UniProt ID 上传到 UniProt 以检索相关的蛋白质序列并将其保存为新的 UniProt FASTA 文件。在新生成的 UniProt FASTA、带有亚型的人 UniProt 数据库和 cRAP 污染物数据库上运行 FASTA 合并文件并过滤独特序列,以创建经过验证的肽定量数据库。
使用经过验证的蛋白质序列数据库和 MS 数据集作为 MaxQuant 的输入。从 MaxQuant“peptides 文件中,仅选择微生物肽并运行 Cut”以从选择文件中仅提取微生物肽序列。对 Cut“文件进行分组,以编制定量微生物肽的列表。
使用定量微生物肽列表文件作为 Unipept 的输入,以执行分类和功能注释。提取 Unipept 输出,特别是微生物分类树和微生物酶委托蛋白树。要查看微生物分类和 EC 蛋白树,请选择数据集并打开选项。
单击 Visualize,然后单击 Unipept Taxonomy Viewer。对于表格格式的分类和功能注释,请单击名为 Unipept_peptinfo 的表格数据集的眼睛图标。滚动以查看每个肽段在其自己的行及其相应的信息列中。
在使用 MSstatsTMT 进行统计分析之前,请在 MaxQuant 上运行 Select“蛋白质组文件,为微生物和人类蛋白质创建单独的数据集。这些蛋白质包含指示其来源的分类标签。排除任何标有标签 con_ 的污染物蛋白。
在 Microbial_Proteins“表格和 Human_Proteins”表格中分别保留带有 _9laco“等标签的微生物蛋白和带有 _human”标签的人类蛋白质。最后,使用 MSstatsTMT,使用 MaxQuant“证据文件和选定的微生物或人类蛋白质进行统计分析。单击眼睛图标可查看结果图。
总共 2, 595, 745 个蛋白质序列被编译成一个综合数据库,然后将其简化为一个更具针对性的数据库,其中包含 21, 289 个蛋白质序列,以便进行有效的肽鉴定。使用 Search GUI、Peptide-Shaker“和 MaxQuant 鉴定了 196 种不同的微生物肽。PepQuery2 确认了 134 个微生物肽与 73 个蛋白质序列相关,形成了一个经过验证的定量数据库。
MaxQuant 分析提供了一个包含 3, 203 个肽的肽文件,其中包含 155 个定量的微生物肽。Unipept 分析显示,乳酸菌是最丰富的属,2 类转移酶是 155 种定量微生物肽中最普遍的酶类别。MSstatsTMT“分析产生了说明差异表达蛋白的火山和比较图,表明三种乳酸菌蛋白在卵巢癌病例中下调,而在良性病例中。