Un guide pratique pour Phylogenetics pour non-experts

Damien O'Halloran

doi:10.3791/50975

Auteurs

Contactez-nous

S'identifier

Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.

Dans cet article

Résumé
Résumé
Introduction
Protocole
Résultats
Discussion
Déclarations de divulgation
Remerciements
matériels
Références
Réimpressions et Autorisations

Résumé

Nous décrivons ici un pipeline étape-par-étape pour générer phylogénies fiables de nucléotides ou d'acides aminés des ensembles de données de séquence. Ce guide vise à servir les chercheurs ou les étudiants nouveaux à l'analyse phylogénétique.

Résumé

De nombreux chercheurs, dans des foyers incroyablement diversifiée, appliquent phylogénétique à leur question (s) de recherche. Cependant, de nombreux chercheurs sont de nouveau à ce sujet et il présente des problèmes inhérents. Ici, nous compilons une introduction pratique à la phylogénétique pour non-experts. Nous présentons de façon étape-par-étape, un pipeline pour générer phylogénies fiables de jeux de données de séquences de gènes. Nous commençons avec un guide utilisateur pour les outils de recherche de similarité via des interfaces en ligne ainsi que les exécutables locaux. Ensuite, nous explorons des programmes de génération de multiples alignements de séquences, suivi par des protocoles d'utilisation de logiciel pour déterminer les modèles les mieux adaptées de l'évolution. Nous décrivons ensuite les protocoles pour reconstruire les relations phylogénétiques par maximum de vraisemblance et critères bayésiens et enfin décrire les outils de visualisation des arbres phylogénétiques. Si ce n'est pas par tous les moyens une description exhaustive des approches phylogénétiques, il fournit au lecteur pratique informat départions sur des applications logicielles clés couramment utilisés par les phylogénéticiens. La vision de cet article serait qu'il puisse servir comme un outil de formation pratique pour les chercheurs qui entreprennent des études phylogénétiques et aussi servir comme une ressource éducative qui pourrait être incorporé dans une salle de classe ou un enseignement de laboratoire.

Introduction

Afin de comprendre comment deux (ou plusieurs) espèces ont évolué, il est d'abord nécessaire d'obtenir la séquence ou données morphologiques de chaque échantillon; ces données représentent des quantités que nous pouvons utiliser pour mesurer leur relation dans l'espace évolutif. Tout comme lors de la mesure la distance linéaire, ayant plus de données disponibles (par exemple, mille pouces, microns) seront équivaudrait à une mesure plus précise. Ergo, la précision avec laquelle un chercheur peut en déduire la distance évolutive est fortement influencé par le volume de données d'information disponibles pour mesurer les relations. En outre, parce que les différents échantillons évoluent à des rythmes différents et par des mécanismes différents, la méthode que nous utilisons pour mesurer la relation entre deux taxons influence aussi directement la précision des mesures de l'évolution. Par conséquent, parce que les relations évolutionnaires ne sont pas observés directement mais sont extrapolées à partir de séquence ou des données morphologiques, le problème consistant à déduire l'évolutionrelations devient l'une des statistiques. Phylogénétique est la branche de la biologie concernés par l'application de modèles statistiques à des modèles d'évolution afin de reconstruire l'histoire évolutive de manière optimale entre les taxons. Cette reconstruction entre taxons est considéré comme la phylogénie de taxons.

Pour aider à combler l'écart en matière d'expertise entre les biologistes moléculaires et les biologistes évolutionnaires que nous décrivons ici une étape par étape de pipeline pour inférer des phylogénies à partir d'un ensemble de séquences. Tout d'abord, nous détaillons les étapes interrogation de base de données à l'aide du Local Alignment Search Tool base (BLAST ¹⁾ algorithme par l'interface web et également en utilisant des exécutables locaux, ce qui est souvent la première étape dans l'obtention d'une liste de séquences similaires à un inconnu requête, bien que certains chercheurs peuvent également être intéressé par la collecte de données pour un seul groupe via des interfaces Web comme Phylota (http://www.phylota.net/). BLAST est un algorithme de cOMPARAISON primaire d'acides aminés ou des données de séquence nucléotidique à l'encontre d'une base de données pour rechercher des séquences "hits" qui ressemblent à la séquence de requête. Le programme BLAST a été conçu par Stephen Altschul et al. au National Institutes of Health (NIH) ^1. Le serveur BLAST se compose d'un certain nombre de programmes, et voici une liste de quelques-uns des programmes les plus communs BLAST:

i) Nucleotide-nucleotide BLAST (blastn): Ce programme nécessite une entrée de séquence d'ADN et retourne séquences d'ADN les plus proches de la base de données d'ADN que l'utilisateur précise (par exemple pour un organisme spécifique).

ii) la protéine-protéine BLAST (blastp): l'utilisateur saisit ici une séquence de protéine et le programme retourne les séquences protéiques les plus similaires à partir de la base de données de protéines que l'utilisateur spécifie.

iii) BLAST itératif position spécifique (PSI-BLAST) (blastpgp): L'entrée de l'utilisateur est un protedans l'ordre qui renvoie un ensemble de protéines étroitement liées, et de cet ensemble de données un profil conservée est généré. Suivant une nouvelle requête est générée en utilisant uniquement ces "motifs" conservées qui sont utilisées pour interroger une base de données de protéines et cela renvoie un plus grand groupe de protéines à partir de laquelle une nouvelle série de "motifs" conservées sont extraits et ensuite utilisé pour interroger une base de données de protéines jusqu'à ce que un nombre encore plus important de protéines sont réglées de nouveau et un autre profil est généré et le processus est répété. En incluant des protéines apparentées à la demande de recherche dans chacune des étapes de ce programme permet à l'utilisateur d'identifier des séquences qui sont plus divergentes.

iv) Nucleotide 6-trame de traduction protéique (blastx): Ici, l'utilisateur fournit une entrée de séquence de nucléotide qui est transformé en les six cadres des produits de traduction conceptuels (à savoir les deux brins) contre une base de données de séquences de protéines..

v) de nucléotides 6-cadre traduction nucléotidesTraduction 6-cadre (tblastx): Ce programme prend une entrée de séquence nucléotidique de l'ADN et traduit l'entrée dans tous les six cadres conceptuels produits de traduction qu'il compare contre les traductions d'une base de données de la séquence nucléotidique six cadres.

vi) 6-trame traduction de protéine-nucléotide (tblastn): Ce programme utilise une entrée de séquence de protéine pour la comparer à l'ensemble des six cadres de lecture d'une base de données de séquences nucléotidiques.

Ensuite, nous décrivons les programmes couramment utilisés pour produire un alignement de séquence multiple (MSA) à partir d'un ensemble de données de séquence, et il est suivi par un mode d'emploi pour des programmes qui déterminent les modèles les mieux adaptées de l'évolution d'un ensemble de données de séquence. Reconstruction phylogénétique est un problème statistique, et de ce fait, les méthodes phylogénétiques ont besoin d'intégrer un cadre statistique. Ce cadre statistique devient un modèle évolutif qui intègre le changement de séquence dans l'ensemble de données. Cette évolution model est composé d'un ensemble d'hypothèses sur le processus de nucléotides ou d'acides aminés substitutions, et le meilleur modèle pour un ensemble de données particulier peut être sélectionnée au moyen de tests statistiques. L'ajustement aux données de modèles différents peuvent être comparés par des tests du rapport de vraisemblance (LRT) ou des critères d'information pour sélectionner le meilleur modèle dans un ensemble de possibles. Deux critères communs d'information sont les informations critère Akaike (AIC) ² et le critère d'information bayésien (BIC) ^3. Une fois un alignement optimal est généré, il existe de nombreuses méthodes différentes pour créer une phylogénie des données alignées. Il existe de nombreuses méthodes de déduire les relations évolutives; généralement, ils peuvent être divisés en deux catégories: les méthodes fondées sur la distance et méthodes basés sur les séquences. Méthodes fondées sur la distance calculent les distances paires de séquences, puis utilisent ces distances pour obtenir l'arbre. Méthodes basés sur les séquences utilisent l'alignement de séquences directement, et la recherche en général le tree espace en utilisant un critère d'optimalité. Nous présentons deux méthodes basés sur les séquences pour reconstruire les relations phylogénétiques: ce sont PhyML ⁴ qui met en œuvre le cadre du maximum de vraisemblance, et MrBayes ⁵ qui utilise bayésienne Markov Chain Monte Carlo inférence. Probabilité et méthodes bayésiennes offrent un cadre statistique pour la reconstruction phylogénétique. En fournissant des informations de l'utilisateur sur les outils de renforcement des arbres couramment utilisés, nous introduisons le lecteur aux données nécessaires pour déduire les relations phylogénétiques.

Protocole

Une. Local Alignment Search Tool base (BLAST): Interface en ligne

Cliquez sur ce lien pour visiter le serveur BLAST ¹ Web du Centre national d'information sur la biotechnologie (NCBI). - http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figure 1).
Entrée une séquence FASTA format de texte (voir la figure 2 par exemple) dans la boîte de recherche.
Cliquez sur le programme BLAST approprié et base de données pertinentes ou les espèces individuelles d'intérêt à utiliser dans la recherche, puis cliquez sur «BLAST».
Remarque: séquence FASTA formaté commence avec une ligne de description indiquée par un signe ">". La description doit suivre immédiatement après le signe ">", la séquence (c.. Nucléotides ou d'acides aminés) suivre la description sur la ligne suivante. La sortie de la recherche BLAST est considéré comme HTML, texte, XML, ou frapper tables (texte ou csv) avec la configuration par défaut au format HTML (Figure 3).

2. Local Alignment Search Tool base (BLAST): exécutables locaux

Téléchargez les derniers BLAST de ligne de commande exécutables BLAST partir de ce lien:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
em> Pour les utilisateurs de PC: double-cliquez sur le dernier fichier explosion de win32.exe et accepter le contrat de licence et cliquez sur Installer.
Remarque: Le répertoire d'installation par défaut est C: ncbi-haut-2.2.27 +.
Configurer la variable d'environnement de PC comme suit:
1. Cliquez sur le PC bouton "Démarrer", puis clic droit "ordinateur",
2. Cliquez sur "Propriétés" et dans le pop-up, cliquez sur l'onglet "avancé"
3. Cliquez sur le bouton "Variables d'environnement" et dans le nouveau pop-up cliquez sur le bouton "nouveau" sous èmee "variables utilisateur utilisateur pour" section
4. Dans le pop-up ajouter le nom de la variable "Path" et valeur de la variable "C: ncbi-haut-2.2.27 + bin.
  Remarque: le répertoire bin contient l'exécutable (c'est à dire de blastp, etc.)..
em> Pour les utilisateurs Mac: Ouvrez l'application Terminal (pour ce faire il suffit d'ouvrir "Finder" et la recherche "Terminal" et ceci affichera l'icône "terminal"). Dans le type de fenêtre de terminal:
> Ftp ftp.ncbi.nih.gov
Remarque: Vous pouvez taper l'URL utilisée ci-dessus dans l'exemple pour PC
Pour accéder à la NCBI Type "anonyme" pour le nom et mot de passe, puis tapez site ftp:
> Cd / fourneaux exécutables / DERNIÈRE
Dressez la liste des exécutables en tapant:
> ls
Obtenir la dernière version en tapant le texte suivant (ou quelle que soit la dernière version est actuellement):
2; obtenir ncbi-haut-2.2.7-macosx.tar.gz
Quitter le site du serveur ftp NCBI en tapant "exit".
Décompressez les fichiers téléchargés en tapant:
> Tar-xzf ncbi-haut-2.2.7-macosx.tar.gz
Ajouter l'emplacement des fichiers binaires pour l'exécutable de souffle à votre chemin afin que la coque peut chercher dans ce répertoire lors de la recherche de commandes en tapant:
> PATH = $ PATH: new_folder_location
Vérifiez si cet ajoute l'emplacement de votre chemin en tapant:
> Echo $ PATH
Télécharger une bases de données BLAST préformatés (qui sont mises à jour quotidiennement) en cliquant ici:
ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Placez la base de données dans le dossier "db".
em> Sur un PC: ouvrir une invite de commande MS-DOS (pour ce faire, cliquez sur "Démarrer" et tapez "cmd" dans la barre de recherche) et changer le répertoire dans le dossier ncbi-explosion en tapant:
C: Users> cd .. [se déplacejusqu'à un dossier]
C: > cd ncbi-haut-2.2.27 +
Cela va changer le répertoire:
C: ncbi-haut-2.2.27 +>
Créer la base de données en utilisant la commande suivante "de makedb":
> Makedb en db / briggsae.fasta-dbtype prot-out db / briggsae
Remarque: Dans l'exemple ci-dessous (figure 4) la base de données est appelée "briggsae" et se compose d'un groupe de liaison provenant de l'organisme Caenorhabditis briggsae.
Créer une séquence de protéine de requête appelé "test" par insertion d'une séquence de texte formaté protéines FASTA dans le dossier "db".
Interroger la base de données via une recherche de blastp en tapant la commande suivante:
> Blastp-query db / test.txt-db db / briggsae-out text.txt
em> Sur un Mac: télécharger une base de données pour les recherches Blast locales par l'accès au site ftp NCBI selon les instructions ci-dessus (étape 2.4) et latype n:
> Lcd .. / bases de données /
Télécharger le génome ou séquence d'intérêt en tapant:
> Se NC_ [Accession #]. Fna
Note: ". Fna" se réfère à la séquence nucléotidique de mise en forme et FASTA "faa." Se réfère aux FASTA formaté séquences d'acides aminés.
Tapez "quitter" pour quitter le site ftp.
Faire la base de données en tapant:
> Makeblastdb en db / mouse.faa-out souris dbtype prot
Insérez une séquence de requête FAST formatée dans le dossier "bin" et interroger la base de données avec la commande suivante:
> Blastp-requête "votre query.fasta"-db "votre base de données" Départ results.txt

3. Génération alignements multiples de séquences

Cliquez sur ces liens pour accéder à l'alignement des programmes (MSA) couramment utilisés multiples de séquence:
ClustalW ⁶ http://www.clustal.org/
Kalign ⁷ http://msa.sbc.su.se/cgi-bin/msa.cgi
Mafft ^8,9 http://mafft.cbrc.jp/alignment/software/
MUSCLE ¹⁰ http://www.drive5.com/muscle/
T-café ¹¹ http://www.tcoffee.org/Projects/tcoffee/
Probcons ¹² http://toolkit.tuebingen.mpg.de/probcons
Cliquez sur ce lien - http://tcoffee.crg.cat/apps/tcoffee/do:regular - et les séquences au format FASTA entrée dans la boîte de recherche
Remarque: Un exemple de sortie de T-café peut être vu dans la figure 5, résidus similaires sont codés par couleur.
Télécharger le Clustal MSA comme une version en ligne de commande (ClustalW) ou un graphique version (ClustalX) en cliquant sur ce lien: http://www.clustal.org/clustal2/ - puis cliquez sur l'exécutable approprié (c.-à-gagnant, Linux, Mac OS X).
Télécharger des données sous forme de texte de séquence FASTA formaté et aligner (Figure 6).

4. Déterminer Modèles meilleur ajustement de l'évolution

Cliquez ici pour télécharger le programme ProtTest ^13:
http://darwin.uvigo.es/our-software/
Une fois ProtTest téléchargé, double-cliquez sur le fichier de ProtTest.jar
Une fois ProtTest est lancé, cliquez sur "Sélectionner un fichier" et charger les données de séquence (figure 7).
Puis cliquez sur "Démarrer" et le programme commencera (Figure 8).
Remarque: Après la fin de la course (figure 8), le programme vous indiquera le meilleur modèle en fonction de critères par exemple "Meilleur modèle selon AIC: WAG + I + G"

5. Inférer séquence basée phylogénies par maximum de vraisemblance ou d'inférence bayésienne

Téléchargé PhyML ⁴ ici:
https://code.google.com/p/phyml/
Lancer l'exécutable en double cliquant sur l'application appropriée (c.-à-PhyML Windows, PhyML Linux, etc.) Et la fenêtre d'interface apparaîtra (figure 9).
Chargez la séquence d'entrée comme une séquence PHYLIP formaté en tapant:
> "Nom de fichier". Phy
Remarque: Pour convertir des formats de séquence, utilisez le programme "readseq" web disponible à - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
Lancez le programme en tapant "Y".
Télécharger MrBayes ⁵ ici:
rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
Pour démarrer le programme, cliquez sur le fichier exécutable et lire les données de séquence de NEXUS formatée dans le programme en tapant:
> Exécuter "nom de fichier". Nex
Réglez le modèle évolutif.
Sélectionnez le nombre de générations à exécuter en tapant:
> Mcmcp ngen = 1000000 [ce définit le nombre de générations à 1000000]
> Puisard Burnin = 10000 [cela définit la Burnin 10000]
Enregistrer les longueurs de branches dans le fichier de résultats en tapant:
> Mcmcp savebrlens = oui
Exécutez l'analyse en tapant:
> MCMC
Résumer les arbres à l'aide de la commande "SUMT".

6. Visualisation phylogénies

Voir la liste des programmes de visualisation d'arbres ici:
http://www.treedyn.org/overview/editors.html
Télécharger le TreeView ¹⁴ progrsuis ici:
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Résultats

Trouver des similitudes avec une requête permet aux chercheurs de attribuent une identité potentielle de nouvelles séquences et également déduire les relations entre les séquences. Le type d'entrée de fichier pour BLAST est ^une séquence de texte formaté FASTA ou numéro d'accession GenBank. Séquence FASTA formaté commence avec une ligne de description indiquée par un signe «>» (figure 2). La description doit suivre immédiatement après le signe ">", la s...

Discussion

Notre espoir pour cet article, c'est qu'il servira de point de départ pour guider les chercheurs ou les étudiants qui sont nouveaux pour la phylogénétique. projets de séquençage du génome sont devenus moins coûteux au cours des dernières années et, en conséquence la demande des utilisateurs de cette technologie est de plus en plus, et maintenant la production de grands ensembles de données de séquence est monnaie courante dans les petits laboratoires. Ces ensembles de données sont souvent des cherc...

Déclarations de divulgation

Nous n'avons rien à communiquer.

Remerciements

Nous remercions les membres du laboratoire O'Halloran des commentaires sur le manuscrit. Nous remercions le ministère de l'Université George Washington des sciences biologiques et Columbian College of Arts and Sciences pour le financement de D. O'Halloran.

matériels

Name	Company	Catalog Number	Comments
BLAST webpage			http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables			ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases			ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal			http://www.clustal.org/
Kalign			http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT			http://mafft.cbrc.jp/alignment/software/
MUSCLE			http://www.drive5.com/muscle/
T-Coffee			http://www.tcoffee.org/Projects/tcoffee/
PROBCONS			http://toolkit.tuebingen.mpg.de/probcons
Se-Al			http://tree.bio.ed.ac.uk/software/seal/
BSEdit			http://www.bsedit.org/
JalView			http://www.jalview.org/
SeaView			http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest			https://code.google.com/p/prottest3/
Java Runtime			http://www.java.com/en/download/chrome.jsp
Readseq			http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest			https://code.google.com/p/jmodeltest2/
PhyML			https://code.google.com/p/phyml/
MrBayes			http://mrbayes.sourceforge.net/download.php
TreeView			http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn			http://www.treedyn.org/

Références

Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Réimpressions et Autorisations

Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE

Demande d’autorisation

Explorer plus d’articles

Protocole de base phylog n tique alignements de s quences multiples arbre phylog n tique ex cutables BLAST outil local de base de recherche d alignement mod les bay siens

This article has been published

Video Coming Soon

Keep me updated: