应用系统进化分析研究真核基因的起源

Dechun Zhang; Xianzhao Kan; Sarah Elizabeth Huss; Lan Jiang; Li-Qing Chen; Yibing Hu

doi:10.3791/56684

需要订阅 JoVE 才能查看此. 登录或开始免费试用。

本文内容

摘要
摘要
引言
研究方案
结果
讨论
披露声明
致谢
材料
参考文献
转载和许可

摘要

本文介绍了一种基于原核生物中的真核生物和 SemiSWEETs 的糖序列同源性建立系统进化树的方法。系统进化分析是解释同源蛋白或不同生物体基因之间进化相关性的有用工具。

摘要

系统发育分析使用核苷酸或氨基酸序列或其他参数, 如域序列和三维结构, 建立一棵树, 以显示不同分类群之间的进化关系 (归类单位) 在分子水平。系统进化分析也可以用来研究单个分类中的领域关系, 特别是对于那些经历了形态学和生理学上发生了实质性变化的有机体, 但由于研究人员缺乏化石证据,生物体的长期演化史或石化的稀缺性。

在本文中, 描述了一个详细的协议, 使用系统进化方法, 包括氨基酸序列对 Clustal 欧米茄, 和随后的系统进化树建设使用最大似然 (ML) 的分子进化遗传学分析 (兆) 和贝叶斯推理通过 MrBayes。为了研究真核糖的起源,最终将出口转运体 (甜) 基因, 分析了228种甜食, 包括35种来自单细胞真核生物的甜蛋白和来自原核生物的57甜蛋白。有趣的是, SemiSWEETs 被发现在原核生物, 但糖果被发现在真核生物。用理论上不同的方法构建的两种系统进化树一致认为, 第一真核甜基因可能来源于细菌甜基因和古细菌甜基因的融合。值得注意的是, 一个人应该谨慎地得出一个结论, 只基于系统进化分析, 虽然它是有用的, 以解释不同的分类群之间的潜在关系, 这是很难甚至不可能辨别通过实验手段.

引言

DNA 或 RNA 序列携带遗传信息的基础表型, 可以分析通过生理和生化方法或观察通过形态学和化石证据。从某种意义上说, 遗传信息比评价外部表型更为可靠, 因为前者是后者的基础。在进化研究中, 化石证据是非常直接和令人信服的。然而, 许多有机体, 例如微生物, 在长的地质时代几乎没有机会形成化石。因此, 分子信息, 如核苷酸序列和氨基酸序列从相关现存的有机体是有价值的探索进化关系¹。在本研究中, 为需要自行构建系统进化树的新来者提供了基本的系统发育知识和易于学习的协议的简单介绍。

DNA (核苷酸) 和蛋白质 (氨基酸) 序列可以用来推断同源基因, 细胞器, 甚至有机体之间的系统发育关系²。DNA 序列更可能受到进化过程中变化的影响。相比之下, 由于核苷酸序列中的同义突变不会导致氨基酸序列的突变, 氨基酸序列的稳定性要稳定得多。因此, DNA 序列是有用的比较密切相关的生物体同源基因, 而氨基酸序列是适当的同源基因从远亲相关的生物³。

系统发育分析始于氨基酸或核苷酸序列⁴从一个带注释的基因组测序数据库中检索到的⁵ FASTA 格式,即假定或表达的蛋白质序列, RNA 序列或 DNA 序列。值得注意的是, 收集高质量的序列进行分析是至关重要的, 只有同源序列可以用来分析系统的系统关系。许多不同的平台, 如 Clustal W, Clustal X, 肌肉, T 咖啡, MAFFT, 可用于序列对准。最广泛使用的是 Clustal 欧米茄⁶^,⁷ (http://www.ebi.ac.uk/Tools/msa/clustalo/), 可以在线使用或可以免费下载。对齐工具有许多参数, 用户可以在开始对齐之前进行调整, 但默认参数在大多数情况下都很好地工作。完成该过程后, 对齐的序列应以正确的格式保存到下一步。然后, 应使用编辑软件 (如 BioEdit) 对其进行编辑或修剪, 因为巨型系统的进化树结构要求序列的长度相等 (包括氨基酸缩写和连字符)。在对齐序列中, 任何没有氨基酸或核苷酸的位置都用连字符 "-" 表示。一般来说, 在对齐的任何一端的突起的氨基酸或核苷酸都应该被移除。此外, 在对齐中包含不协调的序列的列可以被删除, 因为它们传递的信息很少, 有时会给出混淆或错误的信息³。包含一个或多个连字符的列可以在此时或在以后的树结构阶段删除。或者, 它们可以用于系统系统计算。当序列对齐和修剪完成后, 对齐序列应以 FASTA 格式或所需格式保存, 供以后使用。

许多软件平台使用不同的方法或算法提供树构造函数。通常, 这些方法可以分为距离矩阵法或离散数据法两种。距离矩阵方法计算简单、快速, 而离散数据方法复杂、耗时。对于与氨基酸或核苷酸序列标识高度共享的非常紧密相关的类群, 距离矩阵法 (邻域: 新泽西州;加权对群法与算术平均值: UPGMA) 是适当的;对于远亲群, 一种离散数据方法 (最大似然: ML;最大吝啬: MP;贝叶斯推断) 是最佳³^,⁸。本研究将兆 (6.0.6) 和贝叶斯推理 (MrBayes 3.2) 的 ML 方法应用于构造系统进化树⁹。理想情况下, 当使用适当的模型和参数时, 从不同方法得出的结果可能是一致的, 因此它们更可靠、更有说服力。

对于使用巨型¹⁰构建的 ML 系统进化树, 必须将 FASTA 格式的对齐序列文件上载到程序中。然后, 第一步是为上载的数据选择最佳替代模型。所有可用替换模型都是根据上传的序列进行比较, 最后的分数将显示在结果表中。选择具有最小贝叶斯信息准则 (BIC) 评分 (表中第一列) 的模型, 根据推荐的模型设置 ML 参数, 并开始计算。计算时间从几分钟到数天不等, 具体取决于加载数据的复杂性 (序列的长度和分类数) 以及运行程序的计算机的性能。计算完成后, 将在新窗口中显示系统系统树。将文件另存为 "文件名. 垫"。设置参数以指定树的外观后, 再保存一次。利用该方法可以生成发布级系统树形图。

对于 MrBayes¹¹的树结构, 第一步是将对齐序列 (通常以 FASTA 格式列出) 转换为关联格式 (. 作为文件类型的执行)。将 FASTA 文件转换为关联格式可以在兆超中进行处理。接下来, 将关联格式的对齐序列可以上载到 MrBayes 中。当文件成功上载时, 指定树计算的详细参数。这些参数包括氨基酸替代模型、变异率、马尔可夫链蒙特卡罗 (MCMC) 耦合的链数、ngen 数、分裂频率的平均标准偏差等细节。指定这些参数后, 开始计算。最后, 在 ASC II 代码中的两个树图, 一个显示分支可信度, 另一个显示分支长度, 将显示在屏幕上。

树结果将自动保存为 "FileName.nex.con"。此树文件可以由 FigTree 打开和编辑, 并且在 FigTree 中显示的图形可以进一步修改以使其更适合发布。

在本研究中, 分析了228甜蛋白, 包括单细胞真核生物35糖和 57 SemiSWEETs 的原核生物。糖和 SemiSWEETs 的特点是葡萄糖, 果糖, 或蔗糖转运体横跨膜¹²^,¹³。系统发育分析表明, 含有甜食的两个 MtN3/saliva 域可能来源于细菌甜和 archaeon¹⁴的进化融合。

研究方案

1. 序列对准

在单独的文献中收集真核和原核甜的氨基酸序列, 并以 FASTA 格式列出它们。下载序列从国家生物技术信息中心 (NCBI), 欧洲分子生物学实验室 (EMBL) 和日本 DNA 数据库 (DDBJ) 数据库通过相似性搜索与基本的本地对齐搜索工具 (爆破) 工具。
1. 在示例文件中, 收集228个假定的甜蛋白序列, 其中有两个 MtN3/saliva 域 (7 跨膜螺旋) 的真核生物和57甜蛋白序列拥有一个单一的 MtN3/saliva 域 (3 跨膜螺旋) 的原核生物¹³。
2. 为了简化这个过程, 从单细胞真核生物中选择35个候选的甜蛋白, 在228假定的糖果中进行系统进化树的构建。这些序列是附加的, 以便读者可以在实际数据集上进行练习。
通过将35甜序列输入 Clustal 欧米茄 (http://www.ebi.ac.uk/Tools/msa/clustalo/) 来对齐。
1. 将 FASTA 格式的蛋白质序列复制并粘贴到输入框中, 或以 FASTA 格式上载序列文件。通过单击 "步骤 1" 部分下拉菜单下的图标, 指定它们是氨基酸序列。
2. 如果需要, 请在 "步骤 2" 部分中指定输出格式和其他参数。对于本研究, 将输出格式设置为 "clustal w/o 号", 并将其他参数保留在默认设置上。在大多数情况下, 默认参数在没有任何规范的情况下工作正常。
在 "步骤 3" 部分中提交并运行对齐方式。它可能需要从几秒钟到几分钟, 直到对齐完成。在 "结果摘要" 面板中, 右键单击 "CLUSTAL 格式的对齐方式" 下的链接, 并将对齐的序列保存为 "35.clustal" (图 1)。
在 BioEdit 中打开对齐结果文件。
1. 在 BioEdit 的主面板上, 单击 "序列", 然后在第一个下拉菜单中选择 "编辑情绪", 然后单击子菜单中的 "编辑残滓" (图 2)。
2. 选择与光标对齐方式左侧的突出序列 (所选序列将显示为黑色), 然后单击 "编辑" 菜单下的 "删除" 图标以删除选定的序列 (图 3)。
3. 选择并删除第一个 MtN3/saliva 域右侧的突出序列, 并将修剪的第一个 MtN3/saliva 域序列保存为 35-i. fas (图 4)。同样, 删除第二个 MtN3/saliva 域的左、右凸序列, 并将其保存为35秒。第一和第二 MtN3/saliva 域序列可以预测的节奏 (http://proteinformatics.charite.de/rhythm/inndex.php？site=helix) 或 TMHMM (http://www.cbs.dtu.dk/services/TMHMM/) 提前。
打开文件 35-i. fas 与兆, 并在提示时单击 "对齐"。在 "编辑" 菜单下, 单击 "全部选择", 然后单击 "选择序列";分类的名称和序列将被选中为黑色 (图 5)。
1. 从 "编辑" 菜单中选择 "复制", 将序列复制到剪贴板上, 然后将复制的序列粘贴到 doc 文件中。
2. 在 doc 文件中, 用 ">" 替换所有 "#", 然后删除任何不相关的字符, 将其转换为 FASTA 格式。在每个分类名称的末尾添加 "I", 将它们标记为第一个 MtN3/saliva 域序列。按照相同的方法处理第二个 MtN3/saliva 域序列, 并在每个分类名称之后添加 "II"。
将 FASTA 格式中的第一个和第二个 MtN3/saliva 域序列合并到 doc 文件中。
1. 再次将组合序列加载到 Clustal 欧米茄中, 并按照上面所述对齐序列。将结果保存为 "35 重新调整 clustal"。
2. 在 BioEdit 中打开 "35 重新排列的 clustal" 文件, 删除对齐序列的任意一端的不均匀 (突出) 氨基酸残留物, 然后将序列保存为 "35 重新排列. fas"。当警告某些非标准字符无法保存时, 单击 "是"。

2. 系统进化树的计算

打开 "35 重新调整. fas" 在兆。
1. 单击 "数据" 菜单并选择 "导出对齐方式", 并将 PAUP 格式 (关联) 中的对齐方式保存为 "35.nex", 以便以后在 MrBayes 中使用 (图 6)。
2. 同时, 点击超级大面板上的 "模型" 图标, 选择 "找到最佳的 DNA/蛋白质模型 (ML)", 然后单击弹出窗口中的 "确定"。单击 "计算" 开始模型搜索过程 (图 7)。将打开一个新的进度面板;此过程持续数分钟到数天, 这取决于加载序列的复杂性和计算机的性能。
  注意: 显示结果的表将在模型搜索过程完成后打开 (图 8)。最小的 BIC 评分将首先列出, 其次是一系列不同的模型, 逐渐增加的 bic 分数。第一个模型 "LG + G + F" 与最小的 BIC 评分是建议模型的 ML 树基于 "35 重新调整. fas" 文件。
单击巨型主面板上的 "系统系统" 图标, 单击 "构造/测试最大似然树", 然后在弹出式面板上单击 "是"。将打开一个新窗口, 显示需要指定的不同参数 (图 9)。
1. 首先, 在系统系统的测试中设置引导值;在大多数情况下, 500 或1000是足够的。在替代模型下, 选择 "氨基酸" 作为替代类型。选择替代模型的目的是根据它们目前的状态³来估计序列之间的真正差异。
2. 选择 "LG 与 Freqs。(+ f) 模型 "(LG + F) 在" 模型/方法 "框中。在 "速率和模式" 框中, 选择 "伽玛分布" (G) 来描述跨站点的速率变化,即在缓慢变化的站点³中对变化给予更多的权重。在 "数据子集" 框中, 选择 "完全删除" 以删除包含连字符的所有列。
3. 将所有其他参数保留在其默认状态 (图 9)。在这些参数的规范之后, 单击 "计算" 图标开始计算。

3. 系统进化树的呈现

注: 当使用巨型计算完成时, 将呈现系统进化 ML 树 (图 10)。

在树面板上 "文件" 图标的下拉菜单下, 选择 "保存当前会话" 以保存结果 (. mas 是默认文件类型)。在本研究中, 结果被保存为 "35.mas"。在树面板上, 将显示许多参数, 包括分支长度、树型、树状拓扑、分类名称、大小和颜色的字体, 并可设置为不同的选项。
通过单击图像图标保存最终树文件, 并以不同格式保存图形或将图像复制为照片编辑的源。

4. 用序列对齐法分析糖果与 SemiSWEETs 的关系

注意: 在常规序列分析中可能不需要此步骤。

按照上文所述, 将228真核糖和57个原核 SemiSWEETs 排列在 Clustal 欧米茄中。对齐结果可以显示在 Jalview 中, 它集成在 Clustal 欧米茄中, 并复制到照片编辑器中保存 (图 11)。
注意: 在示例对齐方式中, 某些 SemiSWEETs 从α Proteobacteria 与甜序列的第一个 MtN3/saliva 域对齐, 而 SemiSWEETs 从 Methanobacteria (古菌) 与甜序列的第二 MtN3/saliva 域对齐。

5. MrBayes 的系统进化树结构

对于 MrBayes 的贝叶斯推断, 打开 MrBayes 可执行文件, 一个 DOS 接口将出现在一个新窗口中。第一步是读取关联数据ﬁle。在提示后输入 "执行 35.nex" (请记住将35.nex 文件保存在 MrBayes 可执行文件的同一目录中, 或者在上载文件之前指出它的路径)。"成功读取矩阵" 消息将显示在最后列出的分类群之后 (图 12)。35.nex 文件已经准备好保存在兆 (见上文 2.1)。
设置进化模型。
1. 提示后, 键入 "prset aamodelpr = 固定 (lg)";lset 率 = g "。"lg" 和 "g" 对应于 "lg" 和 "g" 模型, 这是设置在兆。成功设置模型后, 在提示后键入 "mcmc nchains = 4 ngen = 500万"。使用 "nchains=4" 词条意味着一个总数量的一个冷链和三热链的大都会耦合。"ngen = 500万" 意味着运行500万代大都市耦合为冷和热链子的汇合。在这项研究中, 0.01 以下的分裂频率的平均标准偏差被认为是热冷链的收敛性。
2. 请注意, 在过程开始时不能准确预测 ngen 数, 通常需要根据分割频率的平均标准偏差的变化进行调整。此外, 每次基于相同数据运行程序时, ngen 的收敛数可能会有所不同。
运行分析:由于输入数据的复杂性和计算机的性能, 这一步持续时间从几分钟到数天。完成预设计算后, 提示将询问 "继续分析 (是/否)"？如果在提示之后键入 "no", 计算将停止 (图 13), 否则它将继续计算在输入的后代数之后。计算完成后 (平均分频率 < 0.01 或0.05 的标准偏差), 在查询提示符后键入 "否" 以停止计算。
注: 0.01 是一个严格的标准, 0.05 是适度的, 通常是足够的。
汇总示例:在提示汇总模型参数样本后, 键入 "废油坑" (图 14)。然后在提示汇总树样后键入 "sumt relburnin = 是 burninfrac = 0.25"。关于系统进化树构造的详细信息将显示如图 15所示, 后面是两个树形图, 这些数字将出现在屏幕上的 ASC II 代码中, 一个显示分支可信度, 另一个显示分支长度。同时, 将自动保存名称为 "35" 的树文件。
要更好地显示系统结构树, 请使用 FigTree 工具 (http://tree.bio.ed.ac.uk/software/figtree/) 打开 "35...............更便于读者阅读。

结果

系统进化树表明, 所有的第一个 MtN3/saliva 域的35甜序列聚集作为一个分支和第二 MtN3/saliva 域的甜序列聚集作为另一个分支。此外, 糖果和 SemiSWEETs 的对准结果表明, 有些 SemiSWEETs 从α Proteobacteria 与甜序列的第一 MtN3/saliva 域对齐, 而 SemiSWEETs 从 Methanobacteria (古菌) 与第二 MtN3/saliva 对齐。甜序列的域。这些结果共同表明, 含有甜食的两个 MtN3/saliva 域可能来源于细菌甜和 archaeon

讨论

以核苷酸或氨基酸序列⁸为基础的进化树, 在生物研究中越来越受欢迎。一般情况下, 有三个关键阶段的实践包括序列对准, 对齐序列的评估与适当的方法或算法, 并可视化的计算结果作为系统进化树。在本研究中, 进行了三轮序列对准: 首先, 甜蛋白序列, 包括第一和第二 MtN3/saliva 域, 被排列;其次, 每个单独的 MtN3/saliva 域序列的糖果作为一个独立的分类收集和排列在一起;最后, 甜序?...

披露声明

作者没有什么可透露的。

致谢

这项工作得到了中国国家自然科学基金 (31371596)、生物技术研究中心、中国三三峡大学 (2016KBC04) 和中国江苏省自然科学基金 (BK20151424) 的支持。

材料

Name	Company	Catalog Number	Comments
Adobe Illustration			a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit			a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega			a package for making multiple sequence alignments of amino acid or nucleotide sequences. http://www.clustal.org/
CorelDRAW			a graphic design software. Copyright © 2017 Corel Corporation
FigTree			a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA			MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes			an Bayesian phylogenetic inference tool
NVIDIA			a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP			Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop			a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM			a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group - Copyright 2007-2009
TMHMM			a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter			4GB memory, Core 2 or above CPU. Windows 7, Windows 10

参考文献

Nei, M., Kumar, S. . Molecular Evolution and Phylogenetics. , (2000).
Foth, B. J. Phylogenetic analysis to uncover organellar origins of nuclear-encoded genes. Methods Mol Biol. 390, 467-488 (2007).
Baldauf, S. L. Phylogeny for the faint of heart: a tutorial. Trends Genet. 19, 345-351 (2003).
Feng, D. F., Doolittle, R. F. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25, 351-360 (1987).
Persson, B. Bioinformatics in protein analysis. EXS. 88, 215-231 (2000).
Sievers, F., et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 7, 539 (2011).
Sievers, F., Higgins, D. G. Clustal omega. Curr Protoc Bioinformatics. 48, 1-16 (2014).
Yang, Z., Rannala, B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 13, 303-314 (2012).
Hall, B. G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences. Mol Biol Evol. 22, 792-802 (2005).
Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol Biol Evol. 30, 2725-2729 (2013).
Ronquist, F., et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Syst Biol. 61, 539-542 (2012).
Chen, L. Q., et al. Sugar transporters for intercellular exchange and nutrition of pathogens. Nature. 468, 527-532 (2010).
Xuan, Y., et al. Functional role of oligomerization for bacterial and plant SWEET sugar transporter family. Proc Natl Acad Sci USA. 110, 3685-3694 (2013).
Hu, Y., et al. Phylogenetic evidence for a fusion of archaeal and bacterial SemiSWEETs to form eukaryotic SWEETs and identification of SWEET hexose transporters in the amphibian chytrid pathogen Batrachochytrium dendrobatidis. FASEB J. 30, 3644-3654 (2016).
Holder, M. T., Zwickl, D. J., Dessimoz, C. Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Philos Trans R Soc Lond B Biol Sci. 363, 4013-4021 (2008).
Alfaro, M. E., Holder, M. T. The Posterior and the Prior in Bayesian Phylogenetics. Annu Rev Ecol Evol Syst. 37, 19-42 (2006).
Suchard, M., Rambaut, A. Many-core algorithms for statistical phylogenetics. Bioinformatics. 25, 1370-1376 (2009).
Zierke, S., Bakos, J. FPGA acceleration of the phylogenetic likelihood function for Bayesian MCMC inference methods. BMC Bioinformatics. 11, 184 (2010).

转载和许可

请求许可使用此 JoVE 文章的文本或图形

请求许可

探索更多文章

138 Clustal MrBayes

This article has been published

Video Coming Soon

Keep me updated:

Method Article