Method Article
Al ejecutar la Herramienta de Estudio de Asociación pathway (PAST), ya sea a través de la aplicación Shiny o a través de la consola R, los investigadores pueden obtener una comprensión más profunda del significado biológico de los resultados de su estudio de asociación de todo el genoma (GWAS) al investigar las vías metabólicas involucradas.
Recientemente, se ha desarrollado y publicado una nueva implementación de un método previamente descrito para interpretar los datos del estudio de asociación de todo el genoma (GWAS) utilizando el análisis de la vía metabólica. La Herramienta de Estudio de la Asociación Pathway (PAST) se desarrolló para abordar las preocupaciones con la facilidad de uso y los análisis de ejecución lenta. Esta nueva herramienta fácil de usar ha sido lanzada en Bioconductor y Github. En las pruebas, PAST realizó análisis en menos de una hora que anteriormente requerían veinticuatro o más horas. En este artículo, presentamos el protocolo para usar la aplicación Shiny o la consola R para ejecutar PAST.
Los estudios de asociación de todo el genoma (GWAS) son un método popular para estudiar rasgos complejos y las regiones genómicas asociadas con ellos1,2,3. En este tipo de estudio, se prueban cientos de miles de marcadores de polimorfismo de un solo nucleótido (SNP) para determinar su asociación con el rasgo, y se evalúa la importancia de las asociaciones. Las asociaciones marcador-rasgo que cumplen con el umbral de la tasa de descubrimiento falso (FDR) (o algún otro tipo de umbral de significación) se conservan para el estudio, pero las asociaciones verdaderas pueden filtrarse. Para rasgos poligénicos complejos, el efecto de cada gen puede ser pequeño (y por lo tanto filtrado), y algunos alelos solo se expresan en condiciones específicas que podrían no estar presentes en el estudio3. Por lo tanto, si bien muchos SNP pueden conservarse como asociados con el rasgo, cada uno puede tener un efecto muy pequeño. Faltarán demasiadas llamadas SNP, y una interpretación del significado biológico y la arquitectura genética del rasgo puede ser incompleta y confusa. El análisis de la vía metabólica puede ayudar a abordar algunos de estos problemas centrándose en los efectos combinados de los genes agrupados según su función biológica4,5,6.
Se completaron varios estudios utilizando una implementación previa del método descrito en este artículo. La acumulación de aflatoxinas7,la resistencia al gusano de la mazorca de maíz8y la biosíntesis de aceite9 se estudiaron con la implementación anterior. Si bien estos análisis tuvieron éxito, el proceso de análisis fue complicado, lento y engorroso, porque las herramientas de análisis se escribieron en una combinación de R, Perl y Bash, y la canalización no se automatizó. Debido al conocimiento especializado requerido para modificar este método para cada análisis, ahora se ha desarrollado un nuevo método que se puede compartir con otros investigadores.
La Herramienta de Estudio de la Asociación Pathway (PAST)10 fue diseñada para abordar las deficiencias del método anterior al requerir menos conocimiento de los lenguajes de programación y al ejecutar análisis en un período más corto. Si bien el método se probó con maíz, PAST no hace suposiciones específicas de la especie. PAST se puede ejecutar a través de la consola R, como una aplicación Shiny, y se espera que pronto esté disponible una versión en línea en MaizeGDB.
1. Configuración
2. Personaliza el análisis brillante (opcional)
Figura 1. Haga clic aquí para ver una versión más grande de esta figura.
3. Cargar datos GWAS
NOTA: Compruebe que los datos de GWAS están delimitados por tabulaciones. Asegúrese de que el archivo de asociación contiene las siguientes columnas: rasgo, nombre del marcador, locus o cromosoma, posición en el cromosoma, valor p y valor R2 para el marcador. Asegúrese de que el archivo de efectos contenga las siguientes columnas: rasgo, nombre del marcador, locus o cromosoma, posición en el cromosoma y efecto. El orden de estas columnas no es importante, ya que el usuario puede especificar los nombres de las columnas al cargar los datos. Se ignoran las columnas adicionales. TASSEL13 se puede utilizar para producir estos archivos.
Figura 2. Haga clic aquí para ver una versión más grande de esta figura.
4. Datos de desequilibrio de enlace de carga (LD)
NOTA: Compruebe que los datos de desequilibrio de enlace (LD) están delimitados por tabulación y contienen los siguientes tipos de datos: Locus, Position1, Site1, Position2, Site2, Distance en pares de bases entre Position1 y Position2, y R2 value.
Figura 3. Haga clic aquí para ver una versión más grande de esta figura.
5. Asignar SNP a los genes
NOTA: Descargue o localice de otro modo las anotaciones en formato GFF. Estas anotaciones a menudo se pueden encontrar en bases de datos en línea para organismos específicos. Tenga cuidado con las anotaciones de baja calidad, ya que la calidad de los datos de las anotaciones afectará la calidad del análisis de la vía. Confirme que la primera columna de estas anotaciones (el cromosoma) coincide con el formato del locus/cromosoma en los datos de asociación, efectos y DA. Por ejemplo, las anotaciones no deben llamar al primer cromosoma "chr1" si los archivos de datos GWAS y LD llaman al primer cromosoma "1".
Figura 4. Haga clic aquí para ver una versión más grande de esta figura.
6. Descubre vías significativas
NOTA: Verifique que el archivo de vías contenga los siguientes datos en formato delimitado por tabuladores, con una línea para cada gen en cada vía: ID de vía - un identificador como "PWY-6475-1"; descripción de la vía: una descripción más larga de lo que hacen las vías, como la "biosíntesis de trans-licopeno"; gen - un gen en la vía, que debe coincidir con los nombres proporcionados en las anotaciones. Es probable que la información de la vía se pueda encontrar en bases de datos en línea para organismos específicos, como MaizeGDB. La segunda opción especificada por el usuario es el modo. "Aumentar" se refiere a fenotipos que reflejan cuándo es deseable un valor creciente del rasgo medido, como el rendimiento, mientras que "disminuir" se refiere a un rasgo donde una disminución en los valores medidos es beneficiosa, como las calificaciones de daño por insectos. La importancia de las vías se prueba utilizando métodos descritos anteriormente4,6,14.
Figura 5. Haga clic aquí para ver una versión más grande de esta figura.
NOTA: El número de núcleos y el modo establecido al principio del análisis PAST Shiny (Paso 2.2) se utiliza en este paso. El número predeterminado de genes se establece actualmente en 5 genes, por lo que se eliminarán las vías con menos genes conocidos. El usuario puede reducir este valor a 4 o 3, para incluir vías más cortas, pero hacerlo se arriesgará a resultados falsos positivos. Aumentar este valor puede aumentar el poder del análisis, pero eliminará más vías del análisis. Cambiar el número de permutaciones utilizadas aumenta y disminuye la potencia de la prueba.
7. Ver Rugplots
Figura 6. Haga clic aquí para ver una versión más grande de esta figura.
Figura 7. Haga clic aquí para ver una versión más grande de esta figura.
Si los resultados no se producen después de una ejecución de la herramienta de software PAST, asegúrese de que todos los archivos de entrada estén formateados correctamente. Una ejecución exitosa utilizando los datos de ejemplo en el paquete PAST, que se basan en un GWAS de maíz de color grano, se muestra en la Figura 8. Esta tabla y la imagen resultante se pueden descargar utilizando el botón Descargar resultados. Un ejemplo de la imagen descargada se muestra en la Figura 210. Los ajustes incorrectos pueden conducir a resultados que no tienen sentido biológico, pero la determinación de la incorrección debe ser responsabilidad del investigador, quien debe verificar la validez de los ajustes elegidos y considerar toda la evidencia conocida con respecto al rasgo de interés.
La Figura 910 muestra la rugplot producida a partir del análisis de la vía de los resultados de GWAS creado con un panel de maíz de 288 líneas endogámicas que habían sido fenotipadas para el color del grano. Este ejemplo simplista, donde los fenotipos eran "blancos" o "amarillos", se utilizó porque la vía responsable de crear los pigmentos carotenoides de color amarillo brillante es conocida y debería ser responsable de la mayor parte del fenotipo. Por lo tanto, esperábamos ver que la vía de biosíntesis de trans-licopeno (que produce carotenoides) se asociaba significativamente con el color del grano, que lo es. El ID y el nombre de la ruta se enumeran en la parte superior del gráfico. El eje horizontal del gráfico clasifica todos los genes que se incluyeron en el análisis, dispuestos de izquierda a derecha en orden de mayor efecto sobre el rasgo al más pequeño. Sin embargo, solo los genes en la vía de biosíntesis trans-licopeno están marcados (en la parte superior del gráfico, como marcas de eclosión, que aparecen en el rango genético de su efecto en comparación con todos los demás genes en el análisis). Hay 7 genes en esta vía. La puntuación de enriquecimiento en ejecución (ES) se traza a lo largo del eje vertical. El ES para cada gen se agrega al total en ejecución en orden de efecto y el total se ajusta al número de genes analizados. Por lo tanto, la puntuación cambia a medida que uno se mueve a lo largo del eje horizontal y tiende a aumentar a medida que se incluyen los genes de efecto más grandes, pero en algún momento, el aumento en el efecto es menor que el ajuste por haber agregado otro gen, y toda la puntuación comienza a disminuir. El vértice de la línea ES en funcionamiento está marcado con una línea vertical punteada; este es el ES para toda la vía y es utilizado por el programa para determinar si la vía se elige y se presenta como una alfombra.
Figura 8: Ejecución completada de PAST Shiny. Haga clic aquí para ver una versión más grande de esta figura.
Figura 9:Imagen de la ruta de la ejecución completada de PAST (o descargada de Shiny). Esta cifra ha sido citada de Thrash et al.10. Haga clic aquí para ver una versión más grande de esta figura.
Un objetivo principal de PAST es llevar los análisis de la vía metabólica de los datos de GWAS a un público más amplio, especialmente para organismos no humanos y no animales. Los métodos alternativos a PAST son a menudo programas de línea de comandos que se centran en humanos o animales. La facilidad de uso fue un objetivo principal en el desarrollo de PAST, tanto en la elección de desarrollar una aplicación Shiny como en la elección de usar R y Bioconductor para lanzar la aplicación. Los usuarios no necesitan aprender a compilar programas para usar PAST.
Al igual que con la mayoría de los tipos de software de análisis, los resultados de PAST son tan buenos como los datos de entrada; si los datos de entrada tienen errores o tienen un formato incorrecto, PAST no se ejecutará o producirá resultados poco informativos. Asegurarse de que los datos GWAS, los datos LD, las anotaciones y los archivos de rutas estén correctamente formateados es fundamental para recibir la salida correcta de PAST. PAST solo analiza marcadores bialélicos y solo puede ejecutar un rasgo para cada conjunto de datos de entrada. Además, los datos de GWAS producidos por un genotipado deficiente o un fenotipado incorrecto o impreciso tampoco es probable que produzcan resultados claros o repetibles. PAST puede ayudar en la interpretación biológica de los resultados de GWAS, pero es poco probable que aclare conjuntos de datos caóticos si la variación ambiental, el error experimental o la estructura de la población no se contabilizaron adecuadamente.
Los usuarios pueden optar por cambiar algunos parámetros del análisis, tanto en la aplicación Shiny como pasando esos parámetros a las funciones de PAST en la consola de R. Estos parámetros pueden cambiar los resultados reportados por PAST, y los usuarios deben tener cuidado al modificarlos desde los valores predeterminados. Debido a que la LD es medida por los usuarios, generalmente utilizando el mismo conjunto de datos de marcadores que también se utilizó en el GWAS, las mediciones de LD son específicas de la población. Para todos los estudios, especialmente para especies distintas del maíz (en particular las especies autopolinizantes, poliploides o altamente heterogéneas), pueden justificarse cambios en los valores predeterminados.
Los autores no tienen nada que revelar.
Ninguno.
Name | Company | Catalog Number | Comments |
Computer | NA | NA | Any computer with 8GB RAM should be sufficient |
R | R Project | NA | R 4.0 or greater is required to install from Bioconductor 3.11 |
An erratum was issued for: A Pathway Association Study Tool for GWAS Analyses of Metabolic Pathway Information. One of the affiliations was updated.
The second affiliation was updated from:
USDA-ARS Corn Host Plant Resistance Research Unit, Mississippi State University
to:
Corn Host Plant Resistance Research Unit, USDA-ARS
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados