Este protocolo analítico permite el estudio de poblaciones patógenas de bacterias, a gran escala. Eso es muy importante porque mejora la forma en que se pueden hacer investigaciones ecológicas y epidemiológicas. Pero para que eso suceda, lo que necesitamos es una herramienta automatizada y escalable, o una plataforma computacional que permita analizar muchos miles de secuencias del genoma a la vez.
ProkEvo se ajusta a ese nicho y permite que el análisis práctico de la población bacteriana se realice a escala, al tiempo que mapea el contenido pangenómico, que revisa los genotipos y las características únicas de esos genotipos para la investigación ecológica y epidemiológica. La principal ventaja de este protocolo es el uso de plataformas computacionales potentes, automatizadas y escalables, como ProkEvo para realizar minería heurística de genotipos jerárquicos en poblaciones bacterianas. El protocolo analítico que se presenta hoy aquí tiene varias implicaciones prácticas.
Uno de ellos es facilitar el diagnóstico en el sentido de que permitiría mapear y rastrear genotipos bacterianos en tiempo real, de manera escalable, lo que permite discernir y definir linajes patógenos de patógenos para rastrear y mapear esos patógenos en diferentes entornos. Otra aplicación es mejorar la vigilancia rutinaria de los laboratorios de salud pública y las agencias reguladoras, que se realiza para facilitar el seguimiento de patógenos en diferentes entornos comerciales. El protocolo presentado aquí proporciona orientación práctica para microbiólogos, ecólogos, epidemiólogos y cualquier persona interesada en la genómica de poblaciones bacterianas.
ProkEvo es una plataforma de código abierto y disponible públicamente, y su página de GitHub proporciona instrucciones de uso detalladas. El protocolo explicado aquí también se puede encontrar en GitHub. Con las instrucciones proporcionadas, queremos hacer que ProkEvo y este protocolo sean fáciles de usar y ser utilizados por investigadores novatos y avanzados.
Comience a realizar los análisis utilizando el árbol de Gigi para trazar un árbol filogenético junto con información genotípica. Para hacerlo, optimice el tamaño de la figura del árbol Gigi, incluido el diámetro y el ancho de los anillos, cambiando los valores numéricos dentro del mapa de calor x-lim y G. Al trazar varias capas de datos con el árbol filogenético, agregue todos los metadatos en el número más bajo posible de categorías para facilitar la elección del panel de coloración.
Llevar a cabo la agregación de datos en función de la cuestión del interés y el conocimiento del dominio. Una vez hecho esto, use un gráfico de barras para evaluar las frecuencias relativas agregando datos para el tipo de secuencia o linajes ST, y la tipificación de secuencia multilocus del genoma central o variantes cgMLST para facilitar las visualizaciones. Elija un umbral empírico o estadístico utilizado para la agregación de datos.
El código de ejemplo se puede utilizar para inspeccionar la distribución de frecuencia de los linajes ST y determinar el límite. El código de ejemplo muestra cómo se agregan los ST de frecuencia menor o baja. Los ST que no están numerados se pueden agrupar como otros ST.
Utilice un código similar para las variantes de cgMLST. Utilice el enfoque anidado para calcular la proporción de cada linaje ST dentro de cada subgrupo BAPS1 para identificar los ST que pertenecen al mismo subgrupo BAPS1. El código ejemplifica cómo se puede calcular la proporción basada en ST en todos los subgrupos BAPS1.
Para trazar la distribución de la resistencia a los antimicrobianos o loci AMR a través de los linajes ST, use un umbral empírico o estadístico para filtrar los loci AMR más importantes para facilitar las visualizaciones. Proporcione un crudo. csv que contiene las proporciones calculadas de todos los loci AMR en todos los linajes ST.
A continuación, calcule la proporción AMR para cada ST utilizando el código. Una vez realizados los cálculos para todos los ST, combine los conjuntos de datos como un marco de datos utilizando el código y, a continuación, exporte el archivo csv que contiene las proporciones calculadas con el código. Antes de trazar la distribución basada en AMR a través de los linajes ST, filtre los datos en función de un umbral para facilitar las visualizaciones.
A continuación, trace la filogenia del genoma central junto con las clasificaciones genotípicas jerárquicas en los datos de AMR en una sola gráfica utilizando el árbol de Gigi. Luego optimice el tamaño de la figura dentro del árbol Gigi utilizando los parámetros mencionados anteriormente. Optimice las visualizaciones agregando las variables o utilizando la clasificación binaria, como la presencia o ausencia de genes.
Se examinó la estructura jerárquica de la población del linaje de Salmonella enterica en el contexto de una filogenia del genoma central. Las frecuencias relativas de todos los genotipos jerárquicos se utilizaron para evaluar la distribución general y las clasificaciones observadas con mayor frecuencia. Los linajes ST menos frecuentes se agregaron como otros ST para facilitar la visualización de datos.
Del mismo modo, las variantes de cgMLST menos frecuentes se agregaron como otras cgMLST. Las relaciones ancestrales entre los ST se examinaron utilizando un enfoque anidado mediante la evaluación de la frecuencia relativa de los linajes ST por los subgrupos o haplotipos BAPS1. Se evaluó la frecuencia relativa de los loci AMR diferenciadores del linaje ST para identificar firmas genómicas accesorias únicas vinculadas a la estructura de la población serovar de Newport.
En los resultados, los loci MDFA y AAC6IAA parecían ser adquiridos ancestralmente por la población serovar de Newport, mientras que se predice que ST45 es resistente a múltiples fármacos. En comparación con el ST45, los otros linajes ST principales, como ST5 y ST118, tienen más probabilidades de ser susceptibles a múltiples fármacos. Además, se utilizó una visualización anclada en filogenia para integrar sistemáticamente los datos de la estructura jerárquica de la población.
Este protocolo analítico presenta una base para la minería de datos de poblaciones bacterianas a escala. Lo que permite es que los genotipos se mapeen y rastreen a escala utilizando ProkEvo, pero también se puede expandir para responder a otras preguntas, como explorar la distribución de las vías metabólicas y los factores de virulencia asociados con la información genotípica. Es decir, podemos predecir los fenotipos que se asocian a genotipos específicos de interés.
El protocolo descrito aquí definitivamente allana el camino para que los investigadores exploren nuevas preguntas en el campo de la genómica de poblaciones e infieran patrones evolutivos y ecológicos para especies bacterianas patógenas y no patógenas.