Una guida pratica per Phylogenetics per i non esperti

Damien O'Halloran

doi:10.3791/50975

È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.

In questo articolo

Riepilogo
Abstract
Introduzione
Protocollo
Risultati
Discussione
Divulgazioni
Riconoscimenti
Materiali
Riferimenti
Ristampe e Autorizzazioni

Riepilogo

Qui si descrive un oleodotto step-by-step per la generazione di filogenesi affidabili da nucleotidiche o aminoacidiche set di dati di sequenza. Questa guida si propone di servire i ricercatori o studenti nuovi ad analisi filogenetica.

Abstract

Molti ricercatori, attraverso foci incredibilmente varia, stanno applicando filogenesi alla loro domanda di ricerca (s). Tuttavia, molti ricercatori sono nuovi a questo tema e quindi presenta problemi inerenti. Qui compiliamo un'introduzione pratica alla filogenesi per non esperti. Abbiamo delineare in maniera step-by-step, un gasdotto per la generazione di filogenesi affidabili da insiemi di dati di sequenza del gene. Iniziamo con una interfaccia user-guida per somiglianza strumenti di ricerca attraverso interfacce online così come eseguibili locali. Avanti, esploriamo i programmi per la generazione di allineamenti multipli di sequenze seguite da protocolli per l'utilizzo di software per determinare i modelli di best-fit dell'evoluzione. Abbiamo poi delineare protocolli per ricostruire le relazioni filogenetiche tramite massima verosimiglianza e criteri bayesiani e, infine, descrive gli strumenti per la visualizzazione di alberi filogenetici. Anche se questo non è affatto una descrizione esaustiva di approcci filogenetici, fornisce al lettore pratico informat di partenzaion su applicazioni software chiave comunemente utilizzati da phylogeneticists. La visione di questo articolo sarebbe che potrebbe servire come strumento di formazione pratica per i ricercatori intraprendono studi filogenetici ed anche servire come risorsa educativa che potrebbe essere inserito in una classe o di insegnamento-lab.

Introduzione

Al fine di comprendere come due (o più) delle specie si è evoluta, è prima necessario ottenere sequenza o dati morfologici di ogni campione; questi dati rappresentano quantità che possiamo utilizzare per misurare il loro rapporto attraverso lo spazio evolutivo. Proprio come quando si misura la distanza lineare, avendo più dati disponibili (ad esempio miglia, pollici, micron) saranno equivalere a una misurazione più accurata. Ergo, la precisione con cui un ricercatore può dedurre la distanza evolutiva è fortemente influenzato dal volume di dati informativi disponibili per misurare i rapporti. Inoltre, poiché diversi campioni si evolvono a ritmi diversi e da diversi meccanismi, il metodo che usiamo per misurare la relazione tra due taxa influenza direttamente anche la precisione delle misurazioni evolutivi. Pertanto, poiché le relazioni evolutive non osservati direttamente ma invece sono estrapolate dalla sequenza o dati morfologici, il problema di inferire evolutivorelazioni diventa una delle statistiche. Phylogenetics è la branca della biologia in questione con l'applicazione di modelli statistici a modelli di evoluzione al fine di ricostruire in modo ottimale la storia evolutiva tra i taxa. Questa ricostruzione tra taxa viene indicato come filogenesi della specie.

Per contribuire a colmare il divario di conoscenze tra biologi molecolari e biologi evolutivi che descriviamo qui un passo per passo cantiere per inferire filogenesi da un insieme di sequenze. In primo luogo, abbiamo dettaglio i passaggi necessari per l'interrogazione del database utilizzando la base Local Alignment Search Tool (BLAST ¹⁾ algoritmo attraverso l'interfaccia web based e anche utilizzando eseguibili locali, questo è spesso il primo passo per ottenere un elenco di sequenze simili a un non meglio identificato interrogazione, anche se alcuni ricercatori potrebbero anche essere interessati a raccogliere dati per un singolo gruppo tramite interfacce web come Phylota (http://www.phylota.net/). BLAST è un algoritmo per comparing aminoacidica primaria o dati di sequenza nucleotidica con un database di sequenze per la ricerca di "hits" che ricordano la sequenza query. Il programma BLAST è stato progettato da Stephen Altschul et al. presso il National Institutes of Health (NIH) ^1. Il server BLAST è costituito da un certo numero di programmi diversi, e qui è un elenco di alcuni dei programmi BLAST più comuni:

i) Nucleotide-nucleotide BLAST (BLASTN): Questo programma richiede un ingresso sequenza di DNA e restituisce le sequenze di DNA più simili dal database del DNA che l'utente specifica (ad esempio, per un organismo specifico).

ii) proteina-proteina BLAST (BLASTP): Qui l'utente immette una sequenza proteica e il programma ritorna sequenze proteiche più simili dal database proteina che l'utente specifica.

iii) BLAST iterativo Position-Specific (PSI-BLAST) (blastpgp): L'input utente è un prin sequenza che restituisce un insieme di proteine strettamente correlate, e da questo insieme di dati viene generato un profilo conservati. Successiva una nuova interrogazione viene generata utilizzando solo questi "motivi" conservati che viene utilizzato per interrogare un database di proteine e questo restituisce un ampio gruppo di proteine da cui una nuova serie di "motivi" conservati sono estratti e poi utilizzato per interrogare un database proteina fino ancora più grande insieme di proteine sono retuned e viene generato un altro profilo e il processo ripetuto. Includendo proteine correlate nella query in ogni passo questo programma permette all'utente di identificare sequenze che sono più divergenti.

iv) Nucleotide 6-frame traduzione in proteine (BLASTX): qui l'utente fornisce un ingresso sequenza nucleotidica che viene convertito nei sei fotogrammi concettuali prodotti di traduzione (cioè entrambi i filamenti) nei confronti di un database di sequenza della proteina..

v) Nucleotide 6-frame traduzione nucleotideTraduzione 6-frame (tblastx): Questo programma richiede un ingresso sequenza nucleotidica del DNA e traduce l'ingresso in tutti i sei fotogrammi prodotti di traduzione concettuali che si confronta contro le traduzioni sei fotogrammi di un database sequenza nucleotidica.

vi) Protein-nucleotide Traduzione 6-frame (TBLASTN): Questo programma utilizza un ingresso sequenza proteica da confrontare con tutte e sei le fasi di lettura di un database sequenza nucleotidica.

Avanti, descriviamo i programmi comunemente utilizzati per generare un allineamento di sequenze multiple (MSA) da un dataset sequenza, e questo è seguito da una guida d'uso di programmi che determinano i modelli di best-fit di evoluzione per un dataset sequenza. Ricostruzione filogenetica è un problema statistico, e per questo, metodi filogenetici necessario incorporare un quadro statistico. Questo quadro statistico diventa un modello evolutivo che incorpora il cambiamento sequenza all'interno del dataset. Questo mo evolutivodel comprende un insieme di ipotesi circa il processo di nucleotide o ammino-acidi sostituzioni, e il modello più adatto per un particolare insieme di dati può essere selezionata tramite test statistico. L'adattamento ai dati di diversi modelli possono essere confrontati con i test del rapporto di verosimiglianza (LRTS) o criteri di informazione per selezionare il modello più adatto all'interno di un insieme di quelli possibili. Due criteri informativi comuni sono l'informazione criterio di Akaike (AIC) ² e il criterio di informazione bayesiano (BIC) ^3. Una volta che un allineamento ottimale è generato, ci sono molti metodi diversi per creare una filogenesi dai dati allineati. Ci sono numerosi metodi di inferenza relazioni evolutive, in generale, possono essere suddivisi in due categorie: metodi basati sulla distanza e metodi basati su sequenza. Metodi Distance-based calcolare le distanze a coppie di sequenze, e quindi utilizzare queste distanze per ottenere l'albero. Metodi basati sequenza-usano l'allineamento di sequenza diretta, e di solito ricerche nel tspazio ree utilizzando un criterio di ottimalità. Noi delineare due metodi basati su sequenza per ricostruire le relazioni filogenetiche: sono PhyML ⁴ che implementa il quadro di massima verosimiglianza, e MrBayes ⁵ che utilizza bayesiano Markov Chain Monte Carlo inferenza. Probabilità e metodi bayesiani forniscono un quadro statistico per la ricostruzione filogenetica. Fornendo informazioni utente a comunemente usati strumenti di albero di costruzione, si introduce il lettore ai dati necessari richiesti per dedurre relazioni filogenetiche.

Protocollo

1. Base Local Alignment Search Tool (BLAST): Interfaccia online

Clicca su questo link per visitare il sito web del server BLAST ¹ presso il National Center for Biotechnology Information (NCBI). - http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figura 1).
Immettere una sequenza di testo formattato FASTA (vedi figura 2 per esempio) nella casella di ricerca.
Fare clic sul programma BLAST appropriato e banca dati pertinente o le singole specie di interesse da utilizzare nella ricerca e poi cliccare su "BLAST".
Nota: sequenza FASTA formattato inizia con una riga di descrizione indicata da un segno ">". La descrizione deve seguire immediatamente dopo il segno ">", la sequenza (ad es. Nucleotidi o amminoacidi) seguire la descrizione sulla riga successiva. L'uscita dalla ricerca BLAST è visto come HTML, testo, XML, o colpire taBles (testo o csv) con il default è impostato su HTML (Figura 3).

2. Base Local Alignment Search Tool (BLAST): eseguibili locali

Scaricare le ultime riga di comando eseguibili BLAST BLAST da questo link:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
em> Per gli utenti di PC: fare doppio clic sul file più recente esplosione win32.exe e accettare il contratto di licenza e fare clic su Installa.
Nota: La directory di installazione predefinita è C: NCBI-blast-2.2.27 +.
Configurare la variabile di ambiente PC come segue:
1. Clicca sul PC pulsante "start", e quindi fare clic destro "computer",
2. Fare clic su "Proprietà" e nella finestra pop-up fai clic sulla scheda "avanzate"
3. Fare clic sul pulsante "Variabili d'ambiente" e nel nuovo popup fare clic sul pulsante "nuovo" sotto °e "Variabili utente per utente" sezione
4. Nel pop-up aggiungere il nome della variabile "Path" e il valore della variabile "C: NCBI-blast-2.2.27 + bin.
  Nota: la directory bin contiene il file eseguibile (cioè BLASTP, ecc.)..
em> Per gli utenti Mac: Apri l'applicazione Terminale (per farlo basta aprire "Finder" e cercare "Terminal" e questa verrà visualizzata l'icona di "terminale"). Nel tipo di finestra di terminale:
> Ftp ftp.ncbi.nih.gov
Nota: può anche digitare l'URL utilizzato sopra nell'esempio per PC
Per accedere al NCBI tipo di sito ftp "anonimo" per nome e password, e poi digitare:
> Cd abbattitori / eseguibili / ULTIME
Elencare gli eseguibili digitando:
> LS
Scarica l'ultima versione digitando il seguente (o qualunque sia l'ultima versione è attualmente):
2; ottenere NCBI-blast-2.2.7-macosx.tar.gz
Uscire dal sito ftp server NCBI digitando "exit".
Decomprimere i file scaricati digitando:
> Tar-xzf NCBI-blast-2.2.7-macosx.tar.gz
Aggiungere il percorso dei binari per l'eseguibile esplosione al vostro percorso in modo che la shell può cercare attraverso questa directory quando alla ricerca di comandi digitando:
> PATH = $ PATH: new_folder_location
Verificare se questo aggiunto il percorso al percorso digitando:
> Echo $ PATH
Scarica un preformattati database BLAST (aggiornati quotidianamente) cliccando qui:
ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Posizionare il database nella cartella "db".
em> Su un PC: aprire un prompt di MS-DOS (per fare ciò cliccate "start" e digitare "cmd" nella barra di ricerca) e cambiare la directory della cartella NCBI-blast digitando:
C: Users> cd .. [mossesu una cartella]
C: > cd NCBI-blast-2.2.27 +
Questo cambierà la directory:
C: NCBI-blast-2.2.27 +>
Creare il database utilizzando il comando "makedb" seguente:
> Makedb-in db / briggsae.fasta-dbtype prot-out db / briggsae
Nota: Nell'esempio riportato di seguito (Figura 4) il database è denominato "briggsae" ed è composto da un gruppo di linkage dall'organismo Caenorhabditis briggsae.
Creare una sequenza proteica query denominata "test" inserendo una sequenza di testo formattato proteina FASTA nella cartella "db".
Interrogare il database tramite una ricerca BLASTP digitando il seguente comando:
> BLASTP-query db / test.txt-db db / briggsae-out text.txt
em> Su Mac: scaricare un database per le ricerche Blast locali mediante l'accesso al sito ftp NCBI secondo le istruzioni di cui sopra (punto 2.4) e l'Tipo n:
> Lcd .. / databases /
Scarica il genoma o la sequenza di interesse digitando:
> Get NC_ [adesione #]. Fna
Nota: ". Fna" si riferisce alla sequenza nucleotidica FASTA formattato e "FAA." Si riferisce alle sequenze amminoacidiche FASTA formattata.
Digitare "quit" per uscire dal sito ftp.
Rendere il database digitando:
> Makeblastdb-in db / mouse.faa-out mouse dbtype prot
Inserire una sequenza di interrogazione VELOCE formattata nella cartella "bin" e interrogare il database con il seguente comando:
> BLASTP-query "il vostro query.fasta"-db "database"-out results.txt

3. Generazione di allineamenti multipli di sequenza

Clicca su questi link per accedere a più di allineamento (MSA) programmi Sequenza comunemente utilizzati:
ClustalW ⁶ http://www.clustal.org/
Kalign ⁷ http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT ^8,9 http://mafft.cbrc.jp/alignment/software/
MUSCLE ¹⁰ http://www.drive5.com/muscle/
T-Caffè ¹¹ http://www.tcoffee.org/Projects/tcoffee/
PROBCONS ¹² http://toolkit.tuebingen.mpg.de/probcons
Clicca su questo link - http://tcoffee.crg.cat/apps/tcoffee/do:regular - e l'ingresso FASTA dati di sequenza formattati nella casella di ricerca
Nota: Un esempio di output T-caffè può essere visto in Figura 5, residui simili sono codificati a colori.
Scarica il Clustal MSA come una versione a riga di comando (ClustalW) o v graficaersione (ClustalX) cliccando questo link: http://www.clustal.org/clustal2/ - poi clicca sul file eseguibile appropriato (cioè win, Linux, Mac OS X).
Carica dati FASTA testo formattato sequenza e allineare (Figura 6).

4. Determinazione modelli best-fit di Evolution

Clicca qui per scaricare il programma ProtTest ^13:
http://darwin.uvigo.es/our-software/
Una volta ProtTest è stato scaricato, fare doppio clic sul file ProtTest.jar
Una volta ProtTest viene lanciato, fate clic su "select file" e caricare i dati di sequenza (Figura 7).
Poi cliccare su "start" e il programma inizierà (Figura 8).
Nota: Al termine della corsa (figura 8), il programma indicherà il miglior modello basato su criteri es "Miglior modello in base ai AIC: WAG + I + G"

5. La deduzione sequenza in base filogenesi da massima verosimiglianza o inferenza bayesiana

Scaricato PhyML ⁴ qui:
https://code.google.com/p/phyml/
Lanciare l'eseguibile con un doppio clic l'applicazione appropriata (cioè phyml di Windows, phyml Linux, ecc.) E la finestra di interfaccia pop-up (Figura 9).
Caricare la sequenza di input come una sequenza PHYLIP formattato digitando:
> "Nome file". PHY
Nota: Per la conversione tra formati sequencer, utilizzare il programma "Readseq" web disponibile all'indirizzo - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
Lanciare il programma digitando "Y".
Scarica MrBayes ⁵ qui:
rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
Per avviare il programma, fare clic sul file eseguibile e leggere NEXUS formattato dati di sequenza nel programma digitando:
> Execute "nome file". Nex
Impostare il modello evolutivo.
Selezionare il numero di generazioni per eseguire digitando:
> Mcmcp ngen = 1000000 [imposta il numero di generazioni 1000000]
> Coppa Burnin = 10000 [imposta il Burnin 10000]
Salvare le lunghezze filiali nel file risultati digitando:
> Mcmcp savebrlens = yes
Eseguire l'analisi digitando:
> MCMC
Riassumere gli alberi utilizzando il comando "SUMT".

6. Visualizzazione filogenesi

Visualizzare un elenco di programmi di visualizzazione albero qui:
http://www.treedyn.org/overview/editors.html
Scarica il TreeView ¹⁴ progrsono qui:
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Risultati

Trovare analogie a una query consente ai ricercatori di attribuiscono un potenziale identità nuove sequenze e anche deducono le relazioni tra le sequenze. Il tipo di input di file per BLAST ¹ è FASTA sequenza di testo formattato o GenBank numero di accesso. Sequenza FASTA formattato inizia con una riga di descrizione indicata da un segno ">" (Figura 2). La descrizione deve seguire immediatamente dopo il segno ">", la sequenza (ad es. Nucleotidi o amminoaci...

Discussione

La nostra speranza per questo articolo è che servirà come punto di partenza per guidare ricercatori o studenti che sono nuovi per filogenesi. Progetti di sequenziamento del genoma sono diventati meno costosi nel corso degli ultimi anni e di conseguenza la domanda degli utenti per questa tecnologia è in aumento, e ora la produzione di grandi quantità di dati di sequenza è comune in piccoli laboratori. Questi dataset spesso forniscono ai ricercatori insiemi di geni che richiedono un quadro filogenetico per iniziare a...

Divulgazioni

Non abbiamo nulla da rivelare.

Riconoscimenti

Ringraziamo i membri del laboratorio O'Halloran per i commenti sul manoscritto. Ringraziamo il Dipartimento dell'Università George Washington di Scienze Biologiche e colombiana Collegio delle Arti e delle Scienze per il finanziamento di D. O'Halloran.

Materiali

Name	Company	Catalog Number	Comments
BLAST webpage			http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables			ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases			ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal			http://www.clustal.org/
Kalign			http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT			http://mafft.cbrc.jp/alignment/software/
MUSCLE			http://www.drive5.com/muscle/
T-Coffee			http://www.tcoffee.org/Projects/tcoffee/
PROBCONS			http://toolkit.tuebingen.mpg.de/probcons
Se-Al			http://tree.bio.ed.ac.uk/software/seal/
BSEdit			http://www.bsedit.org/
JalView			http://www.jalview.org/
SeaView			http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest			https://code.google.com/p/prottest3/
Java Runtime			http://www.java.com/en/download/chrome.jsp
Readseq			http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest			https://code.google.com/p/jmodeltest2/
PhyML			https://code.google.com/p/phyml/
MrBayes			http://mrbayes.sourceforge.net/download.php
TreeView			http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn			http://www.treedyn.org/

Riferimenti

Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Ristampe e Autorizzazioni

Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE

Richiedi Autorizzazione

Esplora altri articoli

Protocollo di base filogenesi allineamenti multipli di sequenza albero filogenetico eseguibili BLAST fondamentale strumento di ricerca di allineamento locale modelli bayesiani

This article has been published

Video Coming Soon

Keep me updated: