Nonexpertsための系統学の実用ガイド

Damien O'Halloran

doi:10.3791/50975

このコンテンツを視聴するには、JoVE 購読が必要です。サインイン又は無料トライアルを申し込む。

この記事について

要約
要約
概要
プロトコル
結果
ディスカッション
開示事項
謝辞
資料
参考文献
転載および許可

要約

ここでは、ヌクレオチドまたはアミノ酸配列データセットから信頼性の高い系統発生を生成するためのステップバイステップのパイプラインを説明します。このガイドでは、研究者や系統解析に新たな学生にサービスを提供することを目指しています。

要約

多くの研究者は、信じられないほど多様な病巣を越え、自分の研究の質問（複数可）に系統学を適用している。しかし、多くの研究者は、このトピックに新しく追加されたので、それは固有の問題を提示します。ここでは、nonexpertsための系統学への実践的な導入をコンパイルします。我々は、段階的に遺伝子配列データセットから信頼性の高い系統発生を生成するためのパイプラインの概要を説明します。我々は、オンラインのインターフェースだけでなく、ローカルの実行を経由して、類似検索ツールのユーザガイドで開始する。次に、我々は進化のベストフィットのモデルを決定するためにソフトウェアを使用するためのプロトコルに続いて複数の配列アラインメントを生成するためのプログラムを探る。次に、最尤ベイズ基準を経由して系統関係を再構築するためのプロトコルの概要を説明し、最終的に系統樹を可視化するためのツールについて説明します。これはいかなる手段系統学的手法を徹底的に記述によるものですが、実用的な開始のinformatを読者に提供していますか一般phylogeneticistsによって利用主要ソフトウェア·アプリケーションへのイオン。この記事のビジョンは、系統学的研究に着手する研究者のための実践的なトレーニング·ツールとして機能し、また、教室や教育·研究室に組み込むことができる教育資源として役立つことができるということでしょう。

概要

、2つ（またはそれ以上）の種が進化したかを理解するためには、各試料から配列または形態学的データを取得することが必要であり、これらのデータは、我々は進化の空間を介してそれらの関係を測定するために使用できる量を表す。直線距離を測定するときと同じように、（ 例えばマイル、インチ、ミクロン）より多くのデータが利用可能なものがより正確な測定を同一視します。エルゴは、研究者が進化距離を推定することができる精度は、高濃度の関係を測定するために利用可能な情報データの量によって影響される。異なるサンプルは異なるレートで、異なるメカニズムによって進化するため、また、我々二つの分類群との間の関係を測定するために使用する方法は、直接進化的測定の精度に影響を与える。そのため、進化的関係は直接観測されていませんが、代わりにシーケンスまたは形態学的データ、進化の推論の問題から推定されているので関係は統計の1になります。系統学は、最適の分類群間の進化の歴史を再構成するために進化のパターンに統計モデルを適用することに関する生物学の一分野である。分類群間のこの再構成は、分類群の系統と呼ばれている。

分子生物学と進化生物学者の間で専門知識のギャップを埋めるために、ここではシーケンスのセットから系統発生を推測する段階パイプラインを追って説明します。第一に、我々は詳細なWebベースのインターフェイスを介して、また、地元の実行可能ファイルを使用して基本的なローカル配列検索ツール（BLAST ^1）アルゴリズムを使用して、データベースの尋問に必要な手順、これは多くの場合、未確認のに類似した配列のリストを取得するための最初のステップですクエリ、一部の研究者はまた、Phylota（http://www.phylota.net/）などのWebインタフェースを介して単一のグループのためのデータ収集に興味があるかもしれない。 BLASTは、Cのためのアルゴリズムであるクエリー配列に似ている "ヒット"を検索するための配列のデータベースに対して一次アミノ酸またはヌクレオチド配列データをomparing。 BLASTプログラムは、スティーブン·アルチュールらによって設計されました。国立衛生研究所（NIH）で^1。 BLASTサーバーは、さまざまなプログラムの数で構成されており、ここでは最も一般的なBLASTプログラムのいくつかのリストです。

i）のヌクレオチド-ヌクレオチドBLAST（blastnを）：このプログラムは、DNA配列の入力を必要とし、DNAデータベースから、最も類似したDNA配列を返し、そのユーザが指定する特定の生物（ 例えば ）。

II） タンパク質-タンパク質BLAST（BLASTP）：ここでは、ユーザは、タンパク質配列を入力し、プログラムは、ユーザが指定したタンパク質データベースから最も類似タンパク質配列を返します。

III） 位置特異的反復BLAST（PSI-BLAST）（blastpgp）：ユーザー入力proteです密接に関連するタンパク質のセットを返す順序であり、このデータセットから保存されたプロファイルが生成されます。次の新たなクエリは、タンパク質データベースを問い合わせるために使用される場合にのみ、これらの保存された「モチーフ」を用いて生成され、これは、保存された「モチーフ」の新しいセットを抽出し、それまでタンパク質データベースに問い合わせをするために使用されるタンパク質の大きなグループを返すタンパク質のより大きなセットが再調整され、別のプロファイルが生成され、プロセスが繰り返される。各ステップでのクエリに関連するタンパク質を含んでいることによって、このプログラムは、ユーザーがより多くの発散である配列を同定することができます。

iv）のヌクレオチド、6フレーム翻訳タンパク質（BLASTXを）：ここでは、ユーザは、タンパク質配列データベースに対して6フレームの概念的翻訳産物（ すなわち、両方の鎖）に変換されるヌクレオチド配列の入力を提供する。

V）6 -フレーム翻訳ヌクレオチドをヌクレオチド6フレーム翻訳（TBLASTX）：このプログラムは、DNA塩基配列入力を受け取り、それをヌクレオチド配列データベースの6フレーム翻訳に対して比較するすべての6フレームの概念的翻訳産物への入力を変換する。

VI） タンパク質-ヌクレオチドの6フレーム翻訳（TBLASTN）：このプログラムは、ヌクレオチド配列データベースの6つのすべてのリーディングフレームと比較するタンパク質配列の入力を使用しています。

次に、シーケンスデータセットから複数の配列アラインメント（MSA）を生成するために一般的に使用されるプログラムを記述し、これは、配列データセットの進化のベストフィットモデルを決定プログラムへのユーザーガイドが続く。系統発生再構築は、統計的な問題であり、このため、系統発生の方法は、統計的なフレームワークを組み込む必要があります。この統計フレームワークは、データセット内の配列変化を組み込んだ進化のモデルになります。この進化のMOデルは、ヌクレオチドまたはアミノ酸置換の方法に関する仮定の集合で構成され、特定のデータセットの最良適合モデルは、統計的検定を介して選択することができる。異なるモデルのデータへの適合が可能なもののセット内のベストフィットモデルを選択する尤度比検定（LRTs）又は情報量規準を介して比較することができる。二つの共通情報基準は、赤池情報量基準^（AIC）2とベイズ情報量基準^（BIC）3である。最適なアラインメントが生成されると、整列されたデータから系統樹を作成するための多くの異なる方法がある。進化的関係を推測する多くの方法がありますが、広い意味では、彼らは2つのカテゴリに分けることができます：距離ベースの方法と順序ベースの方法。距離ベースの方法は、配列からのペアごとの距離を計算してから、木を得るために、これらの距離を使用しています。配列に基づく方法には、直接配列アラインメントを使用し、通常のTを検索最適性基準を使用してREEスペース。私たちは、系統関係を再構築するための2列ベースの方法の概要を示します。これらは、最尤フレームワークを実装しPhyML ⁴であり、ベイズマルコフ連鎖モンテカルロの推論を使用していますMrBayes ^5。可能性とベイズ法は、系統学的再建のための統計的なフレームワークを提供します。一般的に使用されるツリー構築ツールのユーザ情報を提供することにより、我々は系統関係を推定するために必要な必要なデータを読者に紹介する。

プロトコル

1。基本的なローカル配列検索ツール（BLAST）：オンラインインターフェース

国立バイオテクノロジー情報センター（NCBI）のBLAST ¹のWebサーバにアクセスしてくださいするには、このリンクをクリックしてください。 - http://blast.ncbi.nlm.nih.gov/Blast.cgi （ 図1）。
検索ボックスに入力FASTA形式のテキスト列（例えば図2を参照）。
検索に使用するために、適切なBLASTプログラムおよび関連するデータベースや、興味のある個々の種をクリックして、「BLAST」をクリックしてください。
注意：FASTAフォーマットされたシーケンスは、「>」記号で示さ記述行から始まります。説明は、 ">"記号、配列（ すなわち 。ヌクレオチドまたはアミノ酸）の次の行に記述し実行した後、すぐに従わなければなりません。 BLAST検索からの出力はHTML、プレーンテキスト、XML、またはヒットTAと見られているBLES HTMLに設定されているデフォルトで（テキストまたはCSV）（ 図3）。

2。基本的なローカル配列検索ツール（BLAST）：ローカルの実行

このリンクから最新のBLASTコマンドラインのBLAST実行可能ファイルをダウンロードします。
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
PCユーザーのためにEM>：最新のブラストwin32.exeをファイルをダブルクリックし、使用許諾契約に同意してインストール]をクリックします。
注： NCBI-BLAST-2.2.27 +：デフォルトのインストールディレクトリはC。
次のようにPCの環境変数を設定します。
1. 「開始」ボタンをクリックし、右側の「コンピュータ」をクリックして、PCをクリックして、
2. 「プロパティ」をクリックし、ポップアップで「詳細設定」タブをクリックしてください
3. 「環境変数ボタン」をクリックして、新しいポップアップで目の下の「新規」ボタンをクリックしてくださいセクションE「ユーザーのユーザー環境変数」
4. NCBI-BLAST-2.2.27 + BIN：ポップアップの「C変数名「パス」と、変数の値を追加します。
  注意：binディレクトリが実行可能ファイル（。 すなわち BLASTP など）が含まれています。
em>はMacユーザーの場合：ターミナルアプリケーションを開きます（これは単なるオープン"ファインダー"を実行し、検索する「ターミナル」、これは「端末」アイコンが表示されます）。ターミナルウィンドウ型に：
> FTP ftp.ncbi.nih.gov
注：また、PC用の例では上記で使用したURLを入力することができます
NCBIのFTPサイトの種類名とパスワードの入力を「匿名」を選択し、型にアクセスするには、次のように
> CDブラスト/実行ファイル/ LATEST
次のように入力して実行可能ファイルを一覧表示します。
> LS
次のように入力して、最新バージョンを取得（または現在は何でも最新版）：
2、NCBI-BLAST-2.2.7-macosx.tar.gz取得
「終了」と入力して、NCBIのFTPサーバーサイトを終了します。
次のように入力してダウンロードしたファイルを解凍。
>タールXZF NCBI-BLAST-2.2.7-macosx.tar.gz
次のように入力したコマンドを検索するとき、シェルは、このディレクトリを検索できるように、パスにBLAST実行可能ファイルのバイナリの場所を追加します。
> PATH = $ PATHに：new_folder_location
これは次のように入力して、あなたのパスに場所を追加したかどうかを確認します。
>エコー$ PATHに
こちらをクリックして（毎日更新されます）フォーマット済みのBLASTデータベースをダウンロードしてください。
ftp://ftp.ncbi.nlm.nih.gov/blast/db/
「DB」フォルダにデータベースを配置します。
PC上でEM>：と入力して、NCBI-BLASTフォルダにディレクトリを変更（この"スタート"と検索バーに「cmd」と入力して実行する）、MS-DOSプロンプトを開きます。
C：ユーザー> CD .. [移動1フォルダをバックアップ]
C：> CD NCBI-BLAST-2.2.27 +
これは、ディレクトリを変更します。
C： NCBI-BLAST-2.2.27 +>
以下の「makedb」コマンドを使用してデータベースを作成します。
> makedbインDB / briggsae.fasta-DbTypeのPROTアウトDB / briggsae
注：（ 図4）以下の例では、データベースを「briggsae」という名前で、生物線虫briggsaeから1連鎖群で構成されている。
「DB」フォルダにFASTAフォーマットされたテキストのタンパク質配列を挿入することによって「テスト」と呼ばれるクエリータンパク質配列を作成する。
次のコマンドを入力して、BLASTP検索を介してデータベースに問い合わせを。
> BLASTPクエリーDB / test.txtというdBのDB / briggsaeアウトTEXT.TXT
em>のMacは（ステップ2.4）上記の指示に従って、NCBIのftpサイトにアクセスすることにより、ローカルBlast検索用のデータベースをダウンロードし、Nタイプ：
> LCD .. /データベース/
次のように入力して興味のあるゲノムやシーケンスをダウンロードしてください。
>取得NC_ [受託番号]。FNA
注：「FNA」FASTAフォーマットされたヌクレオチド配列を意味し、「FAAは、「FASTAフォーマットされたアミノ酸配列を指す。
FTPサイトを終了するには「終了」と入力します。
次のように入力してデータベースを作成します。
> DB / mouse.faaアウトマウスのDbTypeのPROT makeblastdbイン
「ビン」フォルダにFASTフォーマットされたクエリー配列を挿入し、次のコマンドを使用してデータベースに問い合わせを。
> BLASTPクエリー "あなたのquery.fasta「-DB」、データベース「アウトresults.txtに

3。複数の配列アラインメントを生成する

一般的に使用される複数の配列アラインメント（MSA）プログラムにアクセスするためにこれらのリンクをクリックしてください。
ClustalWの⁶ http://www.clustal.org/
カーリーGN ⁷ http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT ^8,9 http://mafft.cbrc.jp/alignment/software/
マッスル¹⁰ http://www.drive5.com/muscle/
Tシャツ·コーヒー¹¹ http://www.tcoffee.org/Projects/tcoffee/
PROBCONS ¹² http://toolkit.tuebingen.mpg.de/probcons
このリンクをクリックしてください- http://tcoffee.crg.cat/apps/tcoffee/do:regular検索ボックスの配列データをフォーマットされ、入力されたFASTA -
注：T-コーヒーからの出力例を図5に見ることができる、類似の残基は、色分けされている。
クラスタルMSAはコマンドライン版（ClustalWの）またはグラフィカルVとしてダウンロード：このリンクをクリックしてERSION（ClustalX） http://www.clustal.org/clustal2/をし、適切な実行可能ファイル（ すなわち勝利やLinux、Mac OS X）をクリックして- 。
FASTAフォーマットされたシーケンス·データをテキストとしてアップロードします（ 図6）を合わせます。

4。進化のベストフィットモデルを決定する

ProtTest ¹³プログラムをダウンロードするには、ここをクリック。
http://darwin.uvigo.es/our-software/
ProtTestをダウンロードしたら、ProtTest.jarファイルをダブルクリック
ProtTestが起動したら、「ファイルの選択」をクリックします（ 図7）のシーケンスデータをロードします。
それから「開始」をクリックし、プログラムは（ 図8）を開始します。
注記：実行します（ 図8）が終了した後、プログラムは基準に基づいて最適なモデルを示します例：「AICに従って最適なモデル：WAG + I + G "

5。最尤やベイズ推定によって配列に基づく系統発生を推測する

ここPhyML ^4をダウンロード：
https://code.google.com/p/phyml/
（ すなわち phymlは、Windows、Linuxのphyml など）二重適切なアプリケーションをクリックして、実行可能ファイルを起動して、インターフェイスのウィンドウ（ 図9）がポップアップ表示されます。
次のように入力してPHYLIPフォーマットされたシーケンスとして入力シーケンスをロードします。
> "ファイル名"。PHY
注意： シーケンスフォーマット間の変換するには、で入手可能な「Readseq「Webプログラムを使用- http://iubio.bio.indiana.edu/cgi-bin/readseq.cgiを。
「Y」と入力してプログラムを起動します。
ここMrBayes ^5をダウンロードしてください。
rceforge.net / download.php」> http://mrbayes.sourceforge.net/download.php
実行ファイル上でプログラムをクリックして起動し、次のように入力して、プログラムにNEXUSフォーマットされたシーケンスデータを読み取るには：
> "ファイル名"を実行してください。NEX
進化モデルを設定します。
次のように入力して実行するように世代の数を選択します。
> mcmcp NGEN = 1000000 [これは1000000世代数を設定します]
>サンプバーニン= 10000 [これは10000にバーニンが設定されます]
次のように入力して結果ファイルに枝の長さを保存します。
> mcmcp savebrlens = YES
次のように入力して解析を実行します。
> MCMC
「SUMT」コマンドを使って木をまとめたものである。

6。系統発生を視覚化

ここでツリービューアプログラムのリストを表示します。
http://www.treedyn.org/overview/editors.html
ツリービュー¹⁴プログララマブルをダウンロードここにいます：
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

結果

クエリに類似点を見つけることが、研究者は新しい配列に対する潜在的なアイデンティティをせいとも配列の間の関係を推測することができます。 BLAST ¹のファイル入力タイプは、FASTA形式のテキスト配列またはGenBankアクセッション番号です。 FASTAフォーマットされたシーケンスは、「>」記号（ 図2）で示される記述行から始まります。説明は、 ">"記号、配?...

ディスカッション

この記事の私たちの願いは、系統学を初めて使用する研究者や学生を指導するための出発点となることである。ゲノム配列決定プロジェクトは、ここ数年の間に、より安価になっており、結果として、この技術に対するユーザーの需要が増加しており、現在、大規模なシーケンスデータセットの生産は、小さな研究室で一般的である。これらのデータセットは、多くの場合、それらの機能を?...

開示事項

我々は、開示することは何もありません。

謝辞

私たちは、原稿にコメントをオハロランラボのメンバーに感謝。私たちは、D·オハロランに資金調達のための生物科学のジョージ·ワシントン大学学科、芸術科学コロンビア大学に感謝します。

資料

Name	Company	Catalog Number	Comments
BLAST webpage			http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables			ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases			ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal			http://www.clustal.org/
Kalign			http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT			http://mafft.cbrc.jp/alignment/software/
MUSCLE			http://www.drive5.com/muscle/
T-Coffee			http://www.tcoffee.org/Projects/tcoffee/
PROBCONS			http://toolkit.tuebingen.mpg.de/probcons
Se-Al			http://tree.bio.ed.ac.uk/software/seal/
BSEdit			http://www.bsedit.org/
JalView			http://www.jalview.org/
SeaView			http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest			https://code.google.com/p/prottest3/
Java Runtime			http://www.java.com/en/download/chrome.jsp
Readseq			http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest			https://code.google.com/p/jmodeltest2/
PhyML			https://code.google.com/p/phyml/
MrBayes			http://mrbayes.sourceforge.net/download.php
TreeView			http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn			http://www.treedyn.org/

参考文献

Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

転載および許可

このJoVE論文のテキスト又は図を再利用するための許可を申請します

許可を申請

さらに記事を探す

84 BLAST

This article has been published

Video Coming Soon

Keep me updated: