Ce protocole analytique permet l’étude de populations pathogènes de bactéries, à grande échelle. C’est très important parce que cela améliore la façon dont les enquêtes écologiques et épidémiologiques peuvent être menées. Mais pour que cela se produise, nous avons besoin d’un outil automatisé et évolutif, ou d’une plate-forme de calcul permettant d’analyser plusieurs milliers de séquences de génome à la fois.
ProkEvo correspond à ce créneau et permet d’effectuer une analyse pratique de la population bactérienne à grande échelle, tout en cartographiant le contenu pangénomique, qui examine les génotypes et les caractéristiques uniques de ces génotypes pour une enquête écologique et épidémiologique. Le principal avantage de ce protocole est l’utilisation de plates-formes de calcul puissantes, automatisées et évolutives, telles que ProkEvo pour effectuer une exploration heuristique des génotypes hiérarchiques dans les populations bactériennes. Le protocole analytique présenté ici aujourd’hui a plusieurs implications pratiques.
L’un d’eux est de faciliter le diagnostic dans le sens qui permettrait de cartographier et de suivre les génotypes bactériens en temps réel, de manière évolutive, ce qui permet de discerner et de définir les lignées pathogènes pathogènes pour suivre et cartographier ces agents pathogènes dans différents contextes. Une autre application consiste à améliorer la surveillance de routine des laboratoires de santé publique et des organismes de réglementation, ce qui est fait pour faciliter le suivi des agents pathogènes dans différents contextes commerciaux. Le protocole présenté ici fournit des conseils pratiques aux microbiologistes, aux écologistes, aux épidémiologistes et à toute personne intéressée par la génomique des populations bactériennes.
ProkEvo est une plate-forme open source et accessible au public, et sa page GitHub fournit des instructions d’utilisation détaillées. Le protocole expliqué ici peut également être trouvé sur GitHub. Avec les instructions fournies, nous voulons rendre ProkEvo et ce protocole faciles à utiliser et être utilisés par les chercheurs novices et avancés.
Commencez à effectuer les analyses en utilisant l’arbre de Gigi pour tracer un arbre phylogénétique avec des informations génotypiques. Pour ce faire, optimisez la taille de la figure de l’arbre Gigi, y compris le diamètre et la largeur des anneaux en modifiant les valeurs numériques à l’intérieur de la carte thermique x-lim et G. Lorsque vous tracez plusieurs couches de données avec l’arbre phylogénétique, regroupez toutes les métadonnées dans le nombre le plus bas possible de catégories pour faciliter le choix du panneau de coloration.
Effectuer l’agrégation des données en fonction de la question de l’intérêt et de la connaissance du domaine. Une fois cela fait, utilisez un diagramme à barres pour évaluer les fréquences relatives en agrégeant les données pour le type de séquence ou les lignées ST, et le typage de séquence multilocus du génome central ou les variantes cgMLST pour faciliter les visualisations. Choisissez un seuil empirique ou statistique utilisé pour l’agrégation de données.
L’exemple de code peut être utilisé pour inspecter la distribution de fréquence des lignées ST et déterminer la coupure. L’exemple de code montre comment les ST mineures ou à basse fréquence sont agrégées. Les ST qui ne sont pas numérotés peuvent être regroupés comme d’autres ST.
Utilisez un code similaire pour les variantes cgMLST. Utilisez l’approche imbriquée pour calculer la proportion de chaque lignée ST au sein de chaque sous-groupe BAPS1 afin d’identifier les ST qui appartiennent au même sous-groupe BAPS1. Le code illustre comment la proportion basée sur ST peut être calculée dans les sous-groupes BAPS1.
Pour tracer la distribution de la résistance aux antimicrobiens ou des loci de RAM à travers les lignées ST, utilisez un seuil empirique ou statistique pour filtrer les loci DERMA les plus importants afin de faciliter les visualisations. Fournissez un brut. csv contenant les proportions calculées de tous les loci AMR sur toutes les lignées ST.
Ensuite, calculez la proportion de RAM pour chaque ST à l’aide du code. Une fois les calculs effectués pour tous les ST, combinez les ensembles de données en une seule trame de données à l’aide du code, puis exportez le fichier csv contenant les proportions calculées avec le code. Avant de tracer la distribution basée sur la RAM à travers les lignées ST, filtrez les données en fonction d’un seuil pour faciliter les visualisations.
Ensuite, tracez la phylogénie du génome de base ainsi que les classifications génotypiques hiérarchiques dans les données AMR dans un seul graphique à l’aide de l’arbre de Gigi. Ensuite, optimisez la taille de la figure à l’intérieur de l’arbre Gigi en utilisant les paramètres mentionnés précédemment. Optimisez les visualisations en agrégeant les variables ou en utilisant la classification binaire, telle que la présence ou l’absence du gène.
La structure hiérarchique de la population de la lignée Salmonella enterica dans le contexte d’une phylogénie du génome central a été examinée. Les fréquences relatives de tous les génotypes hiérarchiques ont ensuite été utilisées pour évaluer la distribution globale et les classifications les plus fréquemment observées. Les lignées ST moins fréquentes ont été agrégées comme d’autres ST pour faciliter la visualisation des données.
De même, des variantes moins fréquentes de cgMLST ont été agrégées comme d’autres cgMLST. Les relations ancestrales entre les ST ont été examinées à l’aide d’une approche imbriquée en évaluant la fréquence relative des lignées ST par les sous-groupes ou haplotypes BAPS1. La fréquence relative de la lignée ST différenciant les loci de rame AMR a été évaluée afin d’identifier des signatures génomiques accessoires uniques liées à la structure de la population de Newport.
Dans les résultats, les loci MDFA et AAC6IAA semblent être acquis de manière ancestrale par la population sérovar de Newport, tandis que ST45 devrait être multirésistant aux médicaments. Par rapport au ST45, les autres lignées ST majeures, telles que ST5 et ST118, sont plus susceptibles d’être sensibles aux médicaments multiples. De plus, une visualisation ancrée dans la phylogénie a été utilisée pour intégrer systématiquement les données de la structure hiérarchique de la population.
Ce protocole analytique constitue une base pour l’exploration de données sur les populations bactériennes à grande échelle. Ce qu’il permet, c’est de cartographier et de suivre les génotypes à l’échelle à l’aide de ProkEvo, mais il peut également être étendu pour répondre à d’autres questions, telles que l’exploration de la distribution des voies métaboliques et des facteurs de virulence associés aux informations génotypiques. C’est-à-dire que nous pouvons prédire les phénotypes associés à des génotypes spécifiques d’intérêt.
Le protocole décrit ici ouvre définitivement la voie aux chercheurs pour explorer de nouvelles questions dans le domaine de la génomique des populations et en déduire des modèles évolutifs et écologiques pour les espèces bactériennes pathogènes et non pathogènes.