Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.
Method Article
Esta plataforma computacional analítica proporciona orientación práctica para microbiólogos, ecólogos y epidemiólogos interesados en la genómica de poblaciones bacterianas. Específicamente, el trabajo presentado aquí demostró cómo realizar: i) mapeo guiado por filogenia de genotipos jerárquicos; ii) análisis de genotipos basado en la frecuencia; iii) análisis de parentesco y clonalidad; iv) identificación del linaje diferenciador de loci accesorios.
El uso rutinario y sistemático de la secuenciación bacteriana del genoma completo (WGS) está mejorando la precisión y la resolución de las investigaciones epidemiológicas llevadas a cabo por los laboratorios de salud pública y las agencias reguladoras. Se pueden utilizar grandes volúmenes de datos de WGS disponibles públicamente para estudiar poblaciones patógenas a gran escala. Recientemente, se publicó una plataforma computacional disponible gratuitamente llamada ProkEvo para permitir análisis genómicos de población basados en jerarquías reproducibles, automatizados y escalables utilizando datos bacterianos de WGS. Esta implementación de ProkEvo demostró la importancia de combinar el mapeo genotípico estándar de poblaciones con la extracción de contenido genómico accesorio para la inferencia ecológica. En particular, el trabajo destacado aquí utilizó resultados derivados de ProkEvo para análisis jerárquicos a escala poblacional utilizando el lenguaje de programación R. El objetivo principal fue proporcionar una guía práctica para microbiólogos, ecólogos y epidemiólogos mostrando cómo: i) utilizar un mapeo guiado por filogenia de genotipos jerárquicos; ii) evaluar las distribuciones de frecuencia de los genotipos como indicador de la aptitud ecológica; iii) determinar las relaciones de parentesco y la diversidad genética utilizando clasificaciones genotípicas específicas; y iv) mapear el linaje diferenciando los loci accesorios. Para mejorar la reproducibilidad y la portabilidad, se utilizaron archivos de rebaja R para demostrar todo el enfoque analítico. El conjunto de datos de ejemplo contenía datos genómicos de 2.365 aislamientos del patógeno zoonótico transmitido por los alimentos Salmonella Newport. El mapeo de genotipos jerárquicos anclados en filogenia (Serovar -> BAPS1 -> ST -> cgMLST) reveló la estructura genética de la población, destacando los tipos de secuencia (ST) como el genotipo diferenciador clave. En los tres linajes más dominantes, ST5 y ST118 compartieron un ancestro común más recientemente que con el filotipo ST45 altamente clonal. Las diferencias basadas en ST se destacaron aún más por la distribución de loci accesorios de resistencia a los antimicrobianos (RAM). Por último, se utilizó una visualización anclada en filogenia para combinar genotipos jerárquicos y contenido de RAM para revelar la estructura de parentesco y las firmas genómicas específicas del linaje. Combinado, este enfoque analítico proporciona algunas pautas para realizar análisis genómicos heurísticos de poblaciones bacterianas utilizando información pangenómica.
El creciente uso de la secuenciación bacteriana del genoma completo (WGS) como base para la vigilancia de rutina y la investigación epidemiológica por parte de los laboratorios de salud pública y las agencias reguladoras ha mejorado sustancialmente las investigaciones de brotes de patógenos 1,2,3,4. Como consecuencia, grandes volúmenes de datos WGS no identificados están ahora a disposición del público y pueden utilizarse para estudiar aspectos de la biología de la población de especies patógenas a una escala sin precedentes, incluidos estudios basados en: estructuras de población, frecuencias de genotipos y frecuencias de genes / alelos en múltiples reservorios, regiones geográficas y tipos de entornos5 . Las investigaciones epidemiológicas guiadas por WGS más utilizadas se basan en análisis que utilizan solo el contenido core-genómico compartido, donde el contenido compartido (conservado) solo se utiliza para la clasificación genotípica (por ejemplo, llamadas variantes), y estas variantes se convierten en la base para el análisis epidemiológico y el rastreo 1,2,6,7 . Por lo general, el genotipado basado en el genoma central bacteriano se lleva a cabo con enfoques de tipificación de secuencia de múltiples locus (MLST) utilizando de siete a unos pocos miles de loci 8,9,10. Estas estrategias basadas en MLST abarcan el mapeo de secuencias genómicas preensambladas o ensambladas en bases de datos altamente curadas, combinando así información alélica en unidades genotípicas reproducibles para el análisis epidemiológico y ecológico11,12. Por ejemplo, esta clasificación basada en MLST puede generar información genotípica a dos niveles de resolución: tipos de secuencia de nivel inferior (ST) o linajes ST (7 loci), y variantes MLST del genoma central de nivel superior (cgMLST) (~ 300-3,000 loci)10.
La clasificación genotípica basada en MLST es computacionalmente portátil y altamente reproducible entre laboratorios, por lo que es ampliamente aceptada como un enfoque preciso de subtipificación por debajo del nivel de especie bacteriana13,14. Sin embargo, las poblaciones bacterianas están estructuradas con diversos grados de clonalidad específicos de la especie (es decir, homogeneidad genotípica), patrones complejos de parentesco jerárquico entre genotipos 15,16,17 y una amplia gama de variación en la distribución del contenido genómico accesorio 18,19 . Así, un enfoque más holístico va más allá de las clasificaciones discretas en genotipos MLST e incorpora las relaciones jerárquicas de genotipos a diferentes escalas de resolución, junto con el mapeo del contenido genómico accesorio en clasificaciones genotípicas, lo que facilita la inferencia poblacional 18,20,21 . Además, los análisis también pueden centrarse en patrones compartidos de herencia de loci genómicos accesorios incluso entre genotipos relacionados a distancia21,22. En general, el enfoque combinado permite el interrogatorio agnóstico de las relaciones entre la estructura de la población y la distribución de composiciones genómicas específicas (por ejemplo, loci) entre gradientes geoespaciales o ambientales. Tal enfoque puede proporcionar información fundamental y práctica sobre las características ecológicas de poblaciones específicas que pueden, a su vez, explicar su tropismo y patrones de dispersión a través de reservorios, como animales de alimentación o humanos.
Este enfoque jerárquico orientado a la población basado en sistemas exige grandes volúmenes de datos WGS para obtener suficiente poder estadístico para predecir firmas genómicas distinguibles. En consecuencia, el enfoque requiere una plataforma computacional capaz de procesar muchos miles de genomas bacterianos a la vez. Recientemente, ProkEvo fue desarrollado y es una plataforma bioinformática gratuita, automatizada, portátil y escalable que permite análisis integradores de poblaciones bacterianas basadas en jerarquías, incluido el mapeo pangenómico20. ProkEvo permite el estudio de conjuntos de datos bacterianos a gran escala al tiempo que proporciona un marco para generar hipótesis epidemiológicas y ecológicas comprobables e inferibles y predicciones fenotípicas que pueden ser personalizadas por el usuario. Este trabajo complementa esa canalización al proporcionar una guía sobre cómo utilizar los archivos de salida derivados de ProkEvo como entrada para análisis e interpretación de clasificaciones jerárquicas de poblaciones y minería genómica accesoria. El estudio de caso presentado aquí utilizó la población de Salmonella enterica linaje I zoonótico serovar S. Newport como ejemplo y estaba específicamente dirigido a proporcionar pautas prácticas para microbiólogos, ecólogos y epidemiólogos sobre cómo: i) utilizar un enfoque automatizado dependiente de la filogenia para mapear genotipos jerárquicos; ii) evaluar la distribución de frecuencias de los genotipos como indicador para evaluar la aptitud ecológica; iii) determinar los grados de clonalidad específicos del linaje utilizando enfoques estadísticos independientes; y iv) mapear los loci DE RAM diferenciadores de linaje como ejemplo de cómo extraer contenido genómico accesorio en el contexto de la estructura de la población. En términos más generales, este enfoque analítico proporciona un marco generalizable para realizar un análisis genómico basado en la población a una escala que se puede utilizar para inferir patrones evolutivos y ecológicos independientemente de la especie objetivo.
Access restricted. Please log in or start a trial to view this content.
1. Preparar archivos de entrada
NOTA: El protocolo está disponible aquí - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. El protocolo asume que el investigador ha utilizado específicamente ProkEvo (o una canalización comparable) para obtener los resultados necesarios disponibles en este repositorio de Figshare (https://figshare.com/account/projects/116625/articles/15097503 - se requieren credenciales de inicio de sesión - ¡El usuario debe crear una cuenta gratuita para tener acceso a los archivos!). Cabe destacar que ProkEvo descarga automáticamente secuencias genómicas del repositorio NCBI-SRA y solo requiere un archivo .txt que contenga una lista de identificaciones del genoma como entrada20, y la utilizada para este trabajo en S. Los aislamientos de Newport USA se proporcionan aquí (https://figshare.com/account/projects/116625/articles/15097503?file=29025729). La información detallada sobre cómo instalar y utilizar esta plataforma de genómica bacteriana está disponible aquí (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20
2. Descargue e instale el software estadístico y la aplicación del entorno de desarrollo integrado (IDE)
3. Instalar y activar bibliotecas de ciencia de datos
4. Entrada y análisis de datos
NOTA: Se puede encontrar información detallada sobre cada paso de este análisis en el script disponible (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Sin embargo, aquí hay algunos puntos importantes a considerar:
5. Realizar análisis y generar visualizaciones
NOTA: Una descripción detallada de cada paso necesario para producir todos los análisis y visualizaciones se puede encontrar en el archivo de rebajas para este documento (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). El código para cada figura se separa en fragmentos y todo el script debe ejecutarse secuencialmente. Además, el código para cada figura principal y suplementaria se proporciona como un archivo separado (consulte el Archivo complementario 1 y el Archivo complementario 2). Aquí hay algunos puntos esenciales (con fragmentos de código) a considerar al generar cada figura principal y complementaria.
Access restricted. Please log in or start a trial to view this content.
Al utilizar la plataforma computacional ProkEvo para análisis de genómica de poblaciones, el primer paso en la minería de datos WGS bacteriana consiste en examinar la estructura jerárquica de la población en el contexto de una filogenia del genoma central (Figura 1). En el caso de S. linaje enterico I, como lo ejemplifica el S. Conjunto de datos de Newport, la población está estructurada jerárquicamente de la siguiente manera: serovar (nivel más bajo de r...
Access restricted. Please log in or start a trial to view this content.
La utilización de un análisis heurístico y jerárquico de la estructura de la población basado en sistemas proporciona un marco para identificar nuevas firmas genómicas en conjuntos de datos bacterianos que tienen el potencial de explicar patrones ecológicos y epidemiológicos únicos20. Además, el mapeo de datos del genoma accesorio en la estructura de la población se puede utilizar para inferir rasgos adquiridos ancestralmente y / o derivados recientemente que facilitan la propagación d...
Access restricted. Please log in or start a trial to view this content.
Los autores han declarado que no existen intereses contrapuestos.
Este trabajo fue apoyado por fondos proporcionados por la División de Investigación Agrícola de UNL-IANR y el Instituto Nacional de Investigación y Educación sobre la Resistencia a los Antimicrobianos y por el Centro de Alimentos para la Salud de Nebraska en el Departamento de Ciencia y Tecnología de los Alimentos (UNL). Esta investigación solo podría completarse utilizando el Holland Computing Center (HCC) en UNL, que recibe el apoyo de la Iniciativa de Investigación de Nebraska. También estamos agradecidos por tener acceso, a través del HCC, a los recursos proporcionados por Open Science Grid (OSG), que cuenta con el apoyo de la Fundación Nacional de Ciencias y la Oficina de Ciencia del Departamento de Energía de los Estados Unidos. Este trabajo utilizó el software de gestión de flujo de trabajo Pegasus que está financiado por la National Science Foundation (subvención # 1664162).
Access restricted. Please log in or start a trial to view this content.
Name | Company | Catalog Number | Comments |
amr_data_filtered | https://figshare.com/account/projects/116625/articles/14829225?file=28758762 | ||
amr_data_raw | https://figshare.com/account/projects/116625/articles/14829225?file=28547994 | ||
baps_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548003 | ||
Core-genome phylogeny | https://figshare.com/account/projects/116625/articles/14829225?file=28548006 | ||
genome_sra | https://figshare.com/account/projects/116625/articles/14829225?file=28639209 | ||
Linux, Mac, or PC | any high-performance platform | ||
mlst_output | https://figshare.com/account/projects/116625/articles/14829225?file=28547997 | ||
sistr_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548000 | ||
figshare credentials are required for login and have access to the files |
Access restricted. Please log in or start a trial to view this content.
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados