实用指南系统发育的非专家

Damien O'Halloran

doi:10.3791/50975

需要订阅 JoVE 才能查看此. 登录或开始免费试用。

本文内容

摘要
摘要
引言
研究方案
结果
讨论
披露声明
致谢
材料
参考文献
转载和许可

摘要

这里，我们描述了一步一步管道，用于从核苷酸或氨基酸序列数据集可靠的系统发育。本指南的目的是服务于研究人员或学生对新的系统发育分析。

摘要

许多研究者，跨越令人难以置信的多样化灶，正在申请系统学他们的研究问题（次）。然而，许多研究人员是新的这个话题，所以它呈现固有的问题。在这里，我们编译一个实用介绍系统发育的非专家。我们概述了一步一步的方式，管道用于从基因序列数据集可靠的系统发育。我们从一个用户指南的相似性搜索工具通过在线接口以及本地可执行文件。接下来，我们将探讨产生多序列比对后，使用软件来确定进化的最佳拟合模型协议的程序。然后，我们通过最大似然法和贝叶斯准则概述协议进行重建亲缘关系，最后描述了工具的可视化系统进化树。虽然这是不以任何手段的进化方法的详尽描述，它为读者提供实用的开始了信息离子由phylogeneticists普遍使用的关键软件应用程序。该愿景这篇文章将是它可以作为一个实用的培训工具，研究人员着手进行系统发育研究，也作为可能被纳入到教室或教学实验室的教育资源。

引言

为了了解两个（或更多）的物种是如何进化，首先需要从每个样品获得的序列或形态数据，这些数据代表的数量，我们可以通过使用进化空间来衡量他们的关系。只是测量直线距离时，其可用（ 例如，英里，英寸，微米）更多的数据将等同于一个更精确的测量喜欢。测功，与研究者可以推断进化距离的精度在很大程度上受到可用来测量关系信息的数据量的影响。此外，因为不同样品演变以不同的速率和通过不同的机制，我们用来测量两个类群之间的关系的方法也直接影响进化测量的精度。因此，由于进化的关系并不直接观察，而是从序列或形态学数据，推断进化的问题外推关系变成统计中的一个。系统发生学是生物学关注的运用统计模型的进化模式，以优化重构类群间的进化史的分支。分类单元之间的这种重建被称为类群的系统发育关系 。

为了帮助弥合分子生物学家和进化生物学家我们在这里介绍一步步管道从一组序列的系统发育推断之间在专业知识的差距。首先，我们详细地使用基本局部比对搜索工具（BLAST ^1）的算法，通过基于web的接口，并通过使用本地可执行涉及数据库询问的步骤，这是经常在获得相似序列的列表，以一个身份不明的第一步查询，虽然一些研究人员还可能有兴趣在收集数据的单个组通过网络接口，如Phylota（http://www.phylota.net/）。 BLAST是一个算法Comparing对序列数据库的一级氨基酸或核苷酸序列数据来搜索“命中”，类似的查询序列。 BLAST程序是由斯蒂芬Altschul 等设计。在美国国立卫生研究院^{（NIH）1。}爆炸服务器由许多不同的程序，这里是一些最常见的BLAST程序的列表：

I） 核苷酸-核苷酸BLAST（BLASTN）：此程序需要的DNA序列输入和从DNA数据库返回最相似的DNA序列，用户指定（如特定的生物）。

ⅱ） 蛋白质-蛋白质BLAST（BLASTP）：在这里，用户输入的蛋白序列和程序从用户指定的蛋白质数据库返回最相似的蛋白序列。

三） 特定位置的迭代BLAST（PSI-BLAST）（blastpgp）：用户输入是一个保护制服在序列，其返回一组密切相关的蛋白质，并从这个数据集在一个保守的更新生成的。接下来一个新的查询只使用其中用于询问蛋白质数据库中的这些保守的“图案”产生，这会返回一个更大的组蛋白的这一套新的保守的“图案”被提取，然后用询问的蛋白质数据库中，直到一个更大的组蛋白被重新调谐，并产生另一个配置文件并重复该过程。由包括相关蛋白质进入每个步骤中的查询这个程序允许用户确定比较发散序列。

ⅳ） 核苷酸6帧翻译蛋白质（BLASTX）：这里的用户提供了转换成六格概念翻译产物（即核苷酸序列输入两条链）与蛋白质序列数据库。

V） 核苷酸6帧翻译核苷酸6帧转换（TBLASTX）：这个程序需要一个DNA核苷酸序列的输入和转换输入到它比较反对的核苷酸序列数据库的六框翻译全部六个框架概念翻译产物。

六） 蛋白质-核苷酸6帧转换（TBLASTN）：这个程序使用了蛋白质序列输入要与之比较的核苷酸序列数据库的所有六个阅读框。

接下来，我们将介绍常用的方案，以便从序列数据集生成多序列比对（MSA），这之后是一个用户指南，以确定进化的最佳拟合模型序列数据集节目。系统发育重建是一个统计问题，并且因为这一点，系统发育分析方法需要将一个统计框架。这个统计框架成为它采用了数据集中的顺序变化的演化模型。这种进化莫德尔是由一组有关的核苷酸或氨基酸的替换过程的假设的，并为特定的数据集的最佳拟合模型可以通过统计测试来选择。将适合不同型号的数据可以通过似然比检验（LRTS）或信息标准，在一组可能的人选择最合适的模型进行比较。两种常见的信息标准是赤池信息量准则^（AIC）2和贝叶斯信息准则^{（BIC）3。}一旦一个最佳比对产生时，有许多不同的方法来创建自对准的数据的系统发育关系。还有推断的进化关系的多种方法;广泛地说，它们可分为两类：基于距离的方法和基于序列的方法。基于距离的计算方法从序列成对距离，然后用这些距离来获得树。基于序列的方法，直接使用序列比对，通常搜索吨采用最优标准REE空间。我们概述2基于序列的方法来重建系统发育关系：这些都是PHYML ^4，它实现了最大似然框架，MrBayes ⁵它采用贝叶斯马尔可夫链蒙特卡罗推论。似然和贝叶斯方法提供了系统发育重建一个统计框架。通过提供对常用树构建工具的用户信息，我们将为读者介绍来推断亲缘关系所需的必要数据。

研究方案

1。基本局部比对搜索工具（BLAST）：在线界面

点击该链接访问BLAST ¹ web服务器在国家生物技术信息中心（NCBI）。 - http://blast.ncbi.nlm.nih.gov/Blast.cgi （ 图1）。
输入一个FASTA格式的文本序列（ 见图2为例）在查询框。
单击相应的BLAST程序和相关数据库或感兴趣的个别品种在搜索中使用，然后单击“BLAST”。
注：FASTA格式的序列开始与一个“>”符号表示的描述一致。描述必须与“>”符号，序列（即，核苷酸或氨基酸）跟随在下一行的描述后，立即跟进。从BLAST搜索的输出被看作是HTML，纯文本，XML或打TA统计局（文本或CSV）的默认设置为HTML（ 图3）。

2。基本局部比对搜索工具（BLAST）：本地可执行文件

从这个链接下载最新的BLAST命令行BLAST可执行文件：
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
EM> 对于PC用户：双击最新疾风win32.exe文件并接受许可协议，然后单击安装。
注意：默认安装目录为C： NCBI-BLAST-2.2.27 +。
配置PC环境变量，如下所示：
1. 点击电脑的“开始”按钮，然后用鼠标右键单击“计算机”，
2. 点击“属性”，在弹出点击“高级”选项卡
3. 点击“环境变量按钮”，并在新弹出的点击下个“新”按钮e“的用户变量用户”一节
4. 在弹出的添加变量名“路径”和变量值为“C： NCBI-BLAST-2.2.27 + bin中。
  注：在bin目录包含可执行文件（即 BLASTP 等）。
EM> 对于Mac用户：打开终端应用程序（要做到这一点只需打开“搜索”，然后搜索“终端”，这将显示“终端”图标）。到终端窗口输入：
> FTP ftp.ncbi.nih.gov
注：也可以输入在这个例子中为PC上面使用的URL
要访问NCBI的ftp站点类型为“无名氏”的名称和密码，然后键入：
> CD爆炸/可执行文件/最新
通过键入以下列出的可执行文件：
> LS
获取最新版本通过键入以下内容（或任何最新的版本是目前）：
2，获得NCBI-BLAST-2.2.7-macosx.tar.gz
通过键入“exit”退出NCBI的ftp服务器站点。
通过键入以下命令解压下载的文件：
>焦油XZF NCBI-BLAST-2.2.7-macosx.tar.gz
添加二进制文件的爆炸可执行文件的位置到您的路径，以便shell可以通过输入查找命令时，通过此目录搜索：
> PATH = $ PATH：new_folder_location
检查这个附加的位置到您的路径，键入：
>回声$ PATH
点击这里下载一个预先格式化的BLAST数据库（这是每日更新）：
ftp://ftp.ncbi.nlm.nih.gov/blast/db/
将数据库置于“DB”文件夹中。
EM> 在PC上：打开一个MS-DOS提示符（为此，请单击“开始”，在搜索栏输入“cmd”），并通过键入更改目录到NCBI-BLAST的文件夹：
C：用户> CD .. [移动上一级文件夹]
C：> CD NCBI-BLAST-2.2.27 +
这将目录更改为：
C： NCBI-BLAST-2.2.27 +>
创建使用下面的“makedb”命令数据库：
> makedb - 在DB / briggsae.fasta-DBTYPE普罗特出DB / briggsae
注意：在下面的例子中（ 图4）中的数据库被命名为“briggsae”，并从生物体线虫briggsae由一个连接基团的。
创建一个通过插入一个FASTA格式的文本蛋白质序列进“DB”文件夹，名为“测试”查询蛋白质序列。
通过BLASTP搜索通过键入以下命令审问数据库：
> BLASTP查询DB / test.txt的-分贝分贝/ briggsae出的text.txt
EM> 在Mac上：通过访问NCBI的ftp网站按照上面的操作步骤（步骤2.4），并下载本地BLAST搜索数据库中的n型：
> LCD .. /数据库/
通过键入下载感兴趣的基因或序列：
>得到NC_ [加入＃]。FNA
注：“FNA”指的是FASTA格式的核苷酸序列和“FAA”指的是FASTA格式的氨基酸序列。
输入“quit”退出ftp站点。
使数据库键入：
> makeblastdb - 在DB / mouse.faa出鼠标DBTYPE普罗特
插入一张格式化的快速查询序列到“bin”文件夹，并用以下命令审问数据库：
> BLASTP查询“你query.fasta”-DB“数据库”出results.txt

3。产生多序列比对

点击这些链接可以访问常用的多序列比对（MSA）计划：
ClustalW比⁶ http://www.clustal.org/
卡利GN ⁷ http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT ^8,9 http://mafft.cbrc.jp/alignment/software/
肌肉¹⁰ http://www.drive5.com/muscle/
T型咖啡¹¹ http://www.tcoffee.org/Projects/tcoffee/
PROBCONS ¹² http://toolkit.tuebingen.mpg.de/probcons
点击此链接- http://tcoffee.crg.cat/apps/tcoffee/do:regular -和输入FASTA格式的序列数据，在查询框
注：从T型咖啡机的输出示例可以在图5中可以看出，类似残渣的颜色编码。
下载CLUSTAL MSA作为一个命令行版本（ClustalW比）或图形v版为（CLUSTALX）通过点击这个链接： http://www.clustal.org/clustal2/ -然后点击相应的可执行文件（即赢，在Linux，Mac OS X）。
上传数据为FASTA格式的序列文本和调整（ 图6）。

4。确定进化的最佳拟合模型

点击这里下载ProtTest ^13个方案：
http://darwin.uvigo.es/our-software/
一旦ProtTest被下载，就ProtTest.jar双击文件
一旦ProtTest推出后，点击“选择文件”和加载序列数据（ 图7）。
然后点击“开始”，程序将开始（ 图8）。
注：运行（ 图8）完成后，程序会显示基于标准的最佳模式，例如 “根据AIC最佳模式：WAG + I + G”

5。通过最大似然或贝叶斯推理推断基于序列的系统发育

下载PHYML ⁴在这里：
https://code.google.com/p/phyml/
通过双击相应的应用程序（即 PHYML的Windows，Linux的PHYML 等），并在界面窗口就会弹出（ 图9）启动的可执行文件。
通过键入以下命令加载输入序列作为PHYLIP格式的序列：
>“文件名”。PHY
注意： 要序列格式之间进行转换，使用可用的“Readseq”网络计划在- http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi 。
通过键入“Y”启动该程序。
下载MrBayes ⁵的位置：
rceforge.net / download.php“> http://mrbayes.sourceforge.net/download.php
要启动该程序，点击可执行文件并读取NEXUS格式的序列数据到程序中键入：
>执行“文件名”。NEX
将进化模型。
选择世代数通过键入运行：
> mcmcp NGEN = 1000000 [这台世代数1000000]
>油底壳燃尽= 10000 [此设置燃尽10000]
保存结果文件的分支长度，键入：
> mcmcp savebrlens =是
运行由打字分析：
> MCMC
使用“SUMT”命令总结的树木。

6。可视化系统发育

查看树查看器程序列表在这里：
http://www.treedyn.org/overview/editors.html
下载的TreeView ¹⁴ PROGR在这里：
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

结果

寻找相似的查询可以让研究人员归咎于一个潜在的身份，以新的序列，并推断序列之间的关系。高炉¹文件输入类型是FASTA格式的文本序列或GenBank登录号。 FASTA格式的序列开始与一个“>”符号（ 图2）所示的描述一致。描述必须与“>”符号，序列（即，核苷酸或氨基酸）跟随在下一行的描述后，立即跟进。在保存和编辑序列文件，最好使用文本编辑器如PC或TextWrang...

讨论

我们希望这篇文章是它将作为一个出发点，引导研究人员或学生，是新的系统发育。基因组测序计划已经变得不那么昂贵，在过去的几年里，因而这种技术，用户需求在不断增加，现在生产的大型数据集的顺序是司空见惯的小型实验室。这些数据集通常为研究人员提供的基因组需要一个进化的框架开始了解它们的功能。此外，由于系统发育是找到一个家在越来越多的研究实验室，我们还打算对这?...

披露声明

我们什么都没有透露。

致谢

我们感谢洛伦实验室的成员，对稿件的意见。我们感谢乔治华盛顿大学系生物科学与艺术和科学的哥伦比亚学院拨款，D.洛伦。

材料

Name	Company	Catalog Number	Comments
BLAST webpage			http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables			ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases			ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal			http://www.clustal.org/
Kalign			http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT			http://mafft.cbrc.jp/alignment/software/
MUSCLE			http://www.drive5.com/muscle/
T-Coffee			http://www.tcoffee.org/Projects/tcoffee/
PROBCONS			http://toolkit.tuebingen.mpg.de/probcons
Se-Al			http://tree.bio.ed.ac.uk/software/seal/
BSEdit			http://www.bsedit.org/
JalView			http://www.jalview.org/
SeaView			http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest			https://code.google.com/p/prottest3/
Java Runtime			http://www.java.com/en/download/chrome.jsp
Readseq			http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest			https://code.google.com/p/jmodeltest2/
PhyML			https://code.google.com/p/phyml/
MrBayes			http://mrbayes.sourceforge.net/download.php
TreeView			http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn			http://www.treedyn.org/

参考文献

Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

转载和许可

请求许可使用此 JoVE 文章的文本或图形

请求许可

探索更多文章

84 BLAST

This article has been published

Video Coming Soon

Keep me updated: