JoVE Logo

Iniciar sesión

Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.

En este artículo

  • Resumen
  • Resumen
  • Introducción
  • Protocolo
  • Resultados
  • Discusión
  • Divulgaciones
  • Agradecimientos
  • Materiales
  • Referencias
  • Reimpresiones y Permisos

Resumen

Aquí se describe una tubería de paso a paso para generar filogenias confiables desde el nucleótido o secuencia de aminoácidos conjuntos de datos. Esta guía tiene como objetivo servir a los investigadores o estudiantes nuevos para el análisis filogenético.

Resumen

Muchos investigadores, a través de muy diversa focos, están aplicando la filogenética a su pregunta (s) de investigación. Sin embargo, muchos investigadores son nuevos en este tema y por lo que presenta problemas inherentes. Aquí compilamos una introducción práctica a la filogenética para los no expertos. Nos planteamos de una manera paso a paso, una tubería para generar filogenias confiables de los conjuntos de datos de secuencias de genes. Comenzamos con una guía de usuario para las herramientas de búsqueda de similitud a través de interfaces en línea, así como ejecutables locales. A continuación, exploramos los programas para la generación de múltiples alineamientos de secuencias seguidas de protocolos para el uso de software para determinar los modelos de mejor ajuste de la evolución. A continuación, describimos protocolos para la reconstrucción de relaciones filogenéticas a través de máxima verosimilitud y criterios bayesianas y, finalmente, describe herramientas para la visualización de los árboles filogenéticos. Si bien esto no es de ninguna manera una descripción exhaustiva de los estudios filogenéticos, proporciona al lector con informat comenzando prácticaiones en las aplicaciones de software clave comúnmente utilizados por filogenetistas. La visión de este artículo sería que podría servir como una herramienta de formación práctica para los investigadores que emprenden estudios filogenéticos y también sirven como un recurso educativo que se podrían incorporar en un salón de clases o la enseñanza-lab.

Introducción

Con el fin de entender cómo evolucionaron dos (o más) especies, es necesario primero obtener la secuencia o los datos morfológicos de cada muestra, estos datos representan cantidades que podemos utilizar para medir su relación a través del espacio evolutivo. Al igual que en la medición de distancia lineal, tener más datos disponibles (por ejemplo, millas, pulgadas, micras) equivaldrán a una medición más precisa. Ergo, la precisión con la que un investigador puede deducir la distancia evolutiva está fuertemente influenciado por el volumen de datos informativos disponibles para medir las relaciones. Además, debido a que diferentes muestras evolucionan a diferentes velocidades y por diferentes mecanismos, el método que se utiliza para medir la relación entre dos taxones también influye directamente en la precisión de las mediciones evolutivos. Por lo tanto, debido a las relaciones evolutivas no se observan directamente, sino que en lugar se extrapolan de secuencia o los datos morfológicos, el problema de inferir evolutivarelaciones se convierte en una de las estadísticas. Phylogenetics es la rama de la biología que se trate con la aplicación de modelos estadísticos para los patrones de evolución con el fin de reconstruir de manera óptima la historia evolutiva entre los taxones. Esta reconstrucción entre los taxones que se conoce como la filogenia de los taxones.

Para ayudar a cerrar la brecha de conocimientos entre los biólogos moleculares y los biólogos evolutivos que describimos aquí un paso a paso de tuberías para inferir filogenias a partir de un conjunto de secuencias. En primer lugar, se detallan los pasos a seguir en la interrogación de bases de datos utilizando el Basic Local Alignment Search Tool (BLAST 1) algoritmo a través de la interfaz basada en la web y también mediante el uso de archivos ejecutables locales, lo que es a menudo el primer paso para obtener una lista de secuencias similares a una no identificada consulta, aunque algunos investigadores también pueden estar interesados ​​en la recopilación de datos para un solo grupo a través de interfaces web como Phylota (http://www.phylota.net/). BLAST es un algoritmo para Comparing primaria de aminoácidos o de datos de secuencias de nucleótidos contra una base de datos de secuencias para buscar "hits" que se asemejan a la secuencia problema. El programa BLAST fue diseñado por Stephen Altschul et al. en los Institutos Nacionales de Salud (NIH) 1. El servidor de BLAST consiste en una serie de programas diferentes, y aquí está una lista de algunos de los programas BLAST más comunes:

i) BLAST de nucleótidos del nucleótido (blastn): Este programa requiere una entrada de secuencia de ADN y devuelve las secuencias de ADN más similares a partir de la base de datos de ADN que especifica el usuario (por ejemplo, para un organismo específico).

ii) BLAST-proteína-proteína (BLASTP): Aquí el usuario introduce una secuencia de la proteína y el programa vuelve las secuencias de proteína más similares a partir de la base de datos de proteínas que el usuario especifica.

iii) BLAST iterativo-posición específica (PSI-BLAST) (blastpgp): La entrada del usuario es una proteen la secuencia que devuelve un conjunto de proteínas estrechamente relacionadas, ya partir de esta base de datos se genera un perfil conservado. A continuación, una nueva consulta se genera utilizando sólo estos "motivos" conservados que se utiliza para interrogar a una base de datos de proteínas y esto devuelve un grupo mayor de proteínas a partir de los cuales se extraen de un nuevo conjunto de "motivos" conservados y luego se usa para interrogar a una base de datos de proteínas hasta un conjunto aún mayor de proteínas vuelven a sintonizarse y se genera otro perfil y se repite el proceso. Mediante la inclusión de proteínas relacionadas en la consulta en cada paso de este programa permite al usuario identificar secuencias que son más divergentes.

iv) nucleótidos traducción de la proteína 6-marco (BLASTX): Aquí el usuario proporciona una entrada de secuencia de nucleótidos que se convierte en los productos de traducción conceptual de seis marcos (es decir, ambas cadenas) contra una base de datos de secuencias de proteínas..

v) Nucleótido 6-bastidor de traslación-nucleótidoTraducción 6-marco (TBLASTX): Este programa toma una secuencia de nucleótidos de ADN de entrada y traduce la entrada en todos los productos de traducción conceptual de seis marcos que se compara contra las traducciones de seis marcos de una base de datos de secuencia de nucleótidos.

vi) La proteína-nucleótido traducción 6-frame (tblastn): Este programa utiliza una entrada de secuencia de proteínas con el que comparar los seis marcos de lectura de una base de datos de secuencias de nucleótidos.

A continuación se describen los programas más utilizados para generar una alineación de secuencias múltiples (MSA) de un conjunto de datos de secuencias, y esto es seguido por una guía de usuario para programas que determinan los modelos de mejor ajuste de la evolución de un conjunto de datos de secuencias. La reconstrucción filogenética es un problema estadístico, y debido a esto, los métodos filogenéticos necesidad de incorporar un marco estadístico. Este marco estadístico se convierte en un modelo evolutivo que incorpora el cambio de secuencia en el conjunto de datos. Este mo evolutivodel se compone de un conjunto de hipótesis sobre el proceso de nucleótidos o amino-ácidos sustituciones, y el modelo de mejor ajuste para un determinado conjunto de datos se puede seleccionar a través de pruebas estadísticas. El ajuste de los datos de los diferentes modelos se pueden comparar a través de pruebas de coeficiente de riesgo (LRTs) o criterios de información para seleccionar el modelo que mejor se ajusta dentro de un conjunto de posibles. Dos criterios de información comunes son el criterio de información de Akaike (AIC) 2 y el criterio de información bayesiano (BIC) 3. Una vez que se genera un alineamiento óptimo, hay muchos métodos diferentes para crear una filogenia de los datos alineados. Hay numerosos métodos de inferir relaciones evolutivas; en términos generales, que se pueden dividir en dos categorías: métodos basados ​​en la distancia y métodos basados ​​en la secuencia. Métodos basados ​​en la distancia calculan distancias por parejas de secuencias y, a continuación, utilizar estas distancias para obtener el árbol. Métodos Secuencia basada utilizan la secuencia de alineación directa, y por lo general buscar en la tespacio ree utilizando un criterio de optimalidad. Planteamos dos métodos basados ​​en la secuencia para la reconstrucción de las relaciones filogenéticas: son PhyML 4 que implementa el marco de máxima verosimilitud, y MrBayes 5 que utiliza bayesiano Markov Chain Monte Carlo inferencia. Verosimilitud y métodos bayesianos ofrecen un marco estadístico para la reconstrucción filogenética. Al proporcionar la información del usuario en las herramientas de creación de árboles de uso común, se introduce al lector a los datos necesarios para inferir las relaciones filogenéticas.

Protocolo

1. Basic Local Alignment Search Tool (BLAST): Interfaz de línea

  1. Haga clic en este enlace para visitar el BLAST 1 servidor web en el Centro Nacional de Información Biotecnológica (NCBI). - http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figura 1).
  2. Introduzca una secuencia de texto con formato FASTA (véase la figura 2, por ejemplo) en el cuadro de consulta.
  3. Haga clic en el programa BLAST apropiado y base de datos pertinente o especies individuales de interés para usar en la búsqueda y haga clic en "BLAST".
    Nota: secuencia FASTA formato comienza con una línea de descripción se indica por un signo ">". La descripción debe seguir inmediatamente después del signo ">", la secuencia (es decir. Nucleótidos o aminoácidos) seguir la descripción que figura en la siguiente línea. La salida de la explosión de búsqueda se ve como HTML, texto plano, XML, o golpear tables (de texto o csv) con el ajuste predeterminado a HTML (Figura 3).

2. Basic Local Alignment Search Tool (BLAST): Ejecutables locales

  1. Descargue las últimas BLAST de línea de comandos ejecutables BLAST desde este enlace:
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. em> Para los usuarios de PC: haga doble clic en el último archivo win32.exe explosión y aceptar el acuerdo de licencia y haga clic en instalar.
    Nota: El directorio de instalación por defecto es C: NCBI-BLAST-2.2.27 +.
  3. Configure la variable de entorno PC como sigue:
    1. Haga clic en el PC botón "Inicio" y haga clic derecho en "Equipo",
    2. Haga clic en "Propiedades" y en la ventana emergente, haga clic en la pestaña "avanzado"
    3. Haga clic en el botón "Variables de entorno" y en la nueva ventana emergente, haga clic en el botón "nuevo" en the "Variables de usuario para el usuario" sección
    4. En la ventana emergente añadir el nombre de la variable "Path" y el valor de la variable "C: NCBI-BLAST-2.2.27 + bin.
      Nota: el directorio bin contiene el archivo ejecutable (es decir blastp, etc.)..
  4. em> Para los usuarios de Mac: Abra la aplicación Terminal (para ello "Finder" recién abierto y busque "Terminal" y esto mostrará el icono de "terminal"). En la ventana de terminal:
    > Ftp ftp.ncbi.nih.gov
    Nota: También puede escribir la dirección URL utilizada anteriormente en el ejemplo para PC
  5. Para acceder a la NCBI tipo "anónimo" de nombre y contraseña, y luego tipo de sitio ftp:
    > Hornos cd / ejecutables / MAS RECIENTES
  6. Enumerar los ejecutables escribiendo:
    > ls
  7. Obtenga la versión más reciente al escribir lo siguiente (o lo que sea la última versión actualmente es):
    2; obtener NCBI-BLAST-2.2.7-macosx.tar.gz
  8. Salga del sitio del servidor ftp NCBI escribiendo "exit".
  9. Descomprimir los archivos descargados escribiendo:
    > Tar-xzf NCBI-BLAST-2.2.7-macosx.tar.gz
  10. Añada la ubicación de los binarios para el ejecutable explosión para su ruta para que el shell puede buscar a través de este directorio en la búsqueda de comandos, escriba:
    > PATH = $ PATH: new_folder_location
  11. Compruebe si este añadió la ubicación a la ruta de acceso, escriba:
    > Echo $ PATH
  12. Descargar una bases de datos BLAST con formato previo (que se actualizan todos los días) haciendo clic aquí:
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. Coloque la base de datos en la carpeta "db".
  14. em> En un PC: abrir una ventana de MS-DOS (para ello haga clic en "Inicio" y escribe "cmd" en la barra de búsqueda) y cambie el directorio a la carpeta ncbi-blast escribiendo:
    C: Users> cd .. [muevehasta una carpeta]
    C: > cd NCBI-BLAST-2.2.27 +
    Esto va a cambiar el directorio a:
    C: NCBI-BLAST-2.2.27 +>
  15. Cree la base de datos utilizando el comando "makedb" siguiente:
    > Makedb en db / briggsae.fasta-dbtype prot Salida db / briggsae
    Nota: En el siguiente ejemplo (Figura 4) la base de datos se denomina "briggsae" y se compone de un grupo de enlace del organismo Caenorhabditis briggsae.
  16. Crear una secuencia de proteínas de consulta llamado "prueba" mediante la inserción de una secuencia de texto con formato FASTA proteína en la carpeta "db".
  17. Interrogar a la base de datos a través de una búsqueda blastp escribiendo el siguiente comando:
    > Db blastp-query / test.txt-db db / text.txt briggsae Salida
  18. em> En un Mac: descargar una base de datos para búsquedas locales por onda expansiva mediante el acceso a la página web de NCBI ftp de acuerdo con las instrucciones de arriba (paso 2.4) y eltipo n:
    > Lcd .. / bases de datos /
  19. Descarga el genoma o secuencia de interés, escribiendo:
    > Obtener NC_ [Adhesión #]. Fna
    Nota: ". Fna" se refiere a la secuencia de nucleótidos formato FASTA y "FAA." Se refiere a las secuencias de aminoácidos formato FASTA.
  20. Escriba "quit" para salir del sitio ftp.
  21. Hacer la base de datos, escriba:
    > Makeblastdb en db / mouse.faa Salida ratón dbtype prot
  22. Introduzca una secuencia de consulta de FAST formateado en la carpeta "bin" e interrogar a la base de datos con el siguiente comando:
    > Blastp-query "su query.fasta"-db "base de datos" Salida results.txt

3. Generación de múltiples alineamientos de secuencias

  1. Haga clic en estos enlaces para acceder a los programas más utilizados alineación de secuencias múltiples (MSA):
    ClustalW 6 http://www.clustal.org/
    Kalign 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    MAFFT 8,9 http://mafft.cbrc.jp/alignment/software/
    MÚSCULO 10 http://www.drive5.com/muscle/
    T-Café 11 http://www.tcoffee.org/Projects/tcoffee/
    PROBCONS 12 http://toolkit.tuebingen.mpg.de/probcons
  2. Haga clic en este enlace - http://tcoffee.crg.cat/apps/tcoffee/do:regular - y de FASTA formato de entrada de datos de secuencia en el cuadro de consulta
    Nota: Un ejemplo de salida de T-Café se puede ver en la Figura 5, residuos similares están codificados por color.
  3. Descargue el Clustal MSA como una versión de línea de comandos (ClustalW) o una gráfica de versión (ClustalX) haciendo clic en este enlace: http://www.clustal.org/clustal2/ - a continuación, haga clic en el ejecutable correspondiente (es decir, ganar, Linux, Mac OS X).
  4. Carga de datos como texto con formato FASTA secuencia y alinear (Figura 6).

4. La determinación de mejores modelos de ajuste de la Evolución

  1. Haga clic aquí para descargar el programa ProtTest 13:
    http://darwin.uvigo.es/our-software/
  2. Una vez ProtTest se descarga, haga doble clic en el archivo ProtTest.jar
  3. Una vez que se puso en marcha ProtTest, haga clic en "Seleccionar archivo" y cargar los datos de la secuencia (Figura 7).
  4. Luego haga clic en "start" y el programa comenzará (Figura 8).
    Nota: Después de la finalización de la carrera (Figura 8), el programa le indicará el mejor modelo basado en criterios por ejemplo "Mejor modelo según AIC: WAG + I + G"

5. Inferir filogenias secuencia basada en máxima verosimilitud o inferencia bayesiana

  1. Descargado PhyML 4 aquí:
    https://code.google.com/p/phyml/
  2. Inicie el ejecutable haciendo doble clic en la aplicación apropiada (es decir phyml de Windows, phyml Linux, etc.) Y la ventana de la interfaz aparecerá (Figura 9).
  3. Cargue la secuencia de entrada como una secuencia con formato PHYLIP escribiendo:
    > "Nombre de archivo". Phy
    Nota: Para convertir entre formatos de secuencia, utilice el programa web "Readseq" disponible en - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
  4. El lanzamiento del programa, escriba "Y".
  5. Descarga MrBayes 5 aquí:
    rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
  6. Para iniciar el programa, haga clic en el archivo ejecutable y leer NEXUS formato de datos de secuencia en el programa escribiendo:
    > Ejecutar "nombre de archivo". Nex
  7. Establecer el modelo evolutivo.
  8. Seleccione el número de generaciones para ejecutar escribiendo:
    > Mcmcp ngen = 1000000 [esto establece el número de generaciones 1000000]
    > Sumidero burnin = 10000 [esto establece el burnin 10000]
  9. Guarde las longitudes de rama en el archivo de resultados escribiendo:
    > Mcmcp savebrlens = sí
  10. Ejecute el análisis escribiendo:
    > Mcmc
  11. Resuma los árboles con el comando "SUMT".

6. Visualizar Phylogenies

  1. Ver una lista de programas visores de árboles aquí:
    http://www.treedyn.org/overview/editors.html
  2. Descargue el TreeView 14 progrEstoy aquí:
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Resultados

Encontrar similitudes a una consulta permite a los investigadores atribuyen una identidad potencial de nuevas secuencias y también inferir relaciones entre secuencias. El tipo de entrada de archivo para BLAST FASTA 1 es la secuencia de texto con formato o número de acceso GenBank. Secuencia FASTA formato comienza con una línea de descripción se indica por un signo ">" (Figura 2). La descripción debe seguir inmediatamente después del signo ">", la secuencia ...

Discusión

Nuestra esperanza para este artículo es que sirva como punto de partida para guiar a los investigadores o estudiantes que son nuevos en la filogenética. Proyectos de secuenciación del genoma han vuelto menos costosos en los últimos años y como consecuencia de la demanda de los usuarios de esta tecnología es cada vez mayor, y ahora la producción de grandes conjuntos de datos de secuencias es un lugar común en pequeños laboratorios. Estos conjuntos de datos proporcionan a menudo los investigadores con conjuntos d...

Divulgaciones

No tenemos nada que revelar.

Agradecimientos

Damos las gracias a los miembros del laboratorio O'Halloran para comentarios sobre el manuscrito. Damos las gracias a El Departamento de la Universidad George Washington de Ciencias Biológicas y Columbian Facultad de Artes y Ciencias de la financiación para D. O'Halloran.

Materiales

NameCompanyCatalog NumberComments
BLAST webpage http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databasesftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustalhttp://www.clustal.org/
Kalignhttp://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFThttp://mafft.cbrc.jp/alignment/software/
MUSCLEhttp://www.drive5.com/muscle/
T-Coffeehttp://www.tcoffee.org/Projects/tcoffee/
PROBCONShttp://toolkit.tuebingen.mpg.de/probcons 
Se-Al http://tree.bio.ed.ac.uk/software/seal/
BSEdit http://www.bsedit.org/
JalViewhttp://www.jalview.org/
SeaViewhttp://pbil.univ-lyon1.fr/software/seaview.html
ProtTest https://code.google.com/p/prottest3/
Java Runtime http://www.java.com/en/download/chrome.jsp
Readseqhttp://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTesthttps://code.google.com/p/jmodeltest2/
PhyMLhttps://code.google.com/p/phyml/
MrBayeshttp://mrbayes.sourceforge.net/download.php
TreeViewhttp://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDynhttp://www.treedyn.org/

Referencias

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Reimpresiones y Permisos

Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos

Solicitar permiso

Explorar más artículos

Protocolo B sicofilogeniam ltiples alineamientos de secuenciasrbol filogen ticoejecutables BLASTherramienta b sica de b squeda de la adaptaci n locallos modelos bayesianos

This article has been published

Video Coming Soon

JoVE Logo

Privacidad

Condiciones de uso

Políticas

Investigación

Educación

ACERCA DE JoVE

Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados