Este protocolo analítico permite o estudo de populações patogênicas de bactérias, em larga escala. Isso é muito importante porque melhora a forma como investigações ecológicas e epidemiológicas podem ser feitas. Mas para que isso aconteça, o que precisamos é de uma ferramenta automatizada e escalável, ou uma plataforma computacional que permita que milhares de sequências de genomas sejam analisadas de uma só vez.
O ProkEvo se encaixa nesse nicho, e permite que a análise da população bacteriana prática seja feita em escala, enquanto mapeia conteúdo pan-genômico, que revisa genótipos e características únicas sobre esses genótipos para investigação ecológica e epidemiológica. A principal vantagem deste protocolo é o uso de plataformas computacionais poderosas, automatizadas e escaláveis, como o ProkEvo, para fazer a mineração heurística de genótipos hierárquicos em populações bacterianas. O protocolo analítico que está sendo apresentado aqui hoje tem várias implicações práticas.
Uma delas é facilitar o diagnóstico no sentido de que permitiria que genótipos bacterianos fossem mapeados e rastreados em tempo real, de forma escalável, o que permite que linhagens patogênicas de patógenos sejam discernidas e definidas para rastrear e mapear esses patógenos em diferentes cenários. Outro aplicativo é aprimorar a vigilância rotineira de laboratórios de saúde pública e órgãos reguladores, o que é feito para facilitar o rastreamento de patógenos em diferentes ambientes comerciais. O protocolo aqui apresentado fornece orientações práticas para microbiologistas, ecologistas, epidemiologistas e qualquer pessoa interessada em genômica populacional bacteriana.
O ProkEvo é uma plataforma de código aberto e disponível publicamente, e sua página do GitHub fornece instruções detalhadas de uso. O protocolo explicado aqui também pode ser encontrado no GitHub. Com as instruções fornecidas, queremos tornar o ProkEvo e este protocolo fáceis de usar e ser utilizados por pesquisadores iniciantes e avançados.
Comece a conduzir as análises usando a árvore gigi para traçar uma árvore filogenética, juntamente com informações genotipas. Para isso, otimize o tamanho da figura da árvore gigi, incluindo o diâmetro e largura dos anéis alterando os valores numéricos dentro do mapa de calor x-lim e G. Ao traçar várias camadas de dados com a árvore filogenética, agregou todos os metadados no menor número possível de categorias para facilitar a escolha do painel de coloração.
Conduzir a agregação de dados com base na questão do interesse e conhecimento do domínio. Uma vez feito, use um gráfico de barras para avaliar as frequências relativas agregando dados para o tipo de sequência ou linhagens ST, e digitação de sequência multilocus do genoma do núcleo ou variantes cgMLST para facilitar visualizações. Escolha um limiar empírico ou estatístico usado para agregação de dados.
O código de exemplo pode ser usado para inspecionar a distribuição de frequência das linhagens ST e determinar o corte. O código de exemplo mostra como as STs menores ou de baixa frequência são agregadas. Os STs que não estão numerados podem ser agrupados como outros STs.
Use um código semelhante para as variantes cgMLST. Use a abordagem aninhada para calcular a proporção de cada linhagem ST dentro de cada subgrupo BAPS1 para identificar as STs que pertencem ao mesmo subgrupo BAPS1. O código exemplifica como a proporção baseada em ST pode ser calculada nos subgrupos BAPS1.
Para traçar a distribuição da resistência antimicrobiana ou loci AMR através das linhagens ST, use um limiar empírico ou estatístico para filtrar o loci AMR mais importante para facilitar as visualizações. Forneça uma crua. arquivo csv contendo as proporções calculadas de todos os loci AMR em todas as linhagens ST.
Em seguida, calcule a proporção AMR para cada ST usando o código. Após os cálculos serem feitos para todas as STs, combine os conjuntos de dados como um quadro de dados usando o código e, em seguida, exporte o arquivo csv contendo as proporções calculadas com o código. Antes de traçar a distribuição baseada em AMR através das linhagens ST, filtre os dados com base em um limiar para facilitar visualizações.
Em seguida, plote a filogenia do genoma central juntamente com as classificações genotípicas hierárquicas em dados AMR em uma única parcela usando a árvore gigi. Em seguida, otimize o tamanho da figura dentro da árvore Gigi usando os parâmetros mencionados anteriormente. Otimize as visualizações agregando as variáveis ou usando classificação binária, como a presença ou ausência genética.
A estrutura populacional hierárquica da linhagem de Salmonella enterica um no contexto de uma filogenia do genoma central foi examinada. As frequências relativas de todos os genótipos hierárquicos foram então utilizadas para avaliar a distribuição geral e as classificações mais frequentes observadas. As linhagens ST menos frequentes foram agregadas como outras STs para facilitar a visualização dos dados.
Da mesma forma, as variantes cgMLST menos frequentes foram agregadas como outras cgMLSTs. As relações ancestrais entre as TS foram examinadas utilizando-se uma abordagem aninhada, avaliando a frequência relativa das linhagens ST pelos subgrupos baps1 ou haplotipos. A frequência relativa da linhagem ST diferenciando o LOCI AMR foi avaliada para identificar assinaturas genômicas acessórios únicas ligadas à estrutura populacional de Serovar Newport.
Nos resultados, mdfa e aac6IAA loci pareciam ser adquiridos ancestralmente pela população de Newport serovar, enquanto o ST45 é previsto como resistente a vários medicamentos. Quando comparado com o ST45, as outras principais linhagens ST, como ST5 e ST118, são mais propensas a serem multidrogas suscetíveis. Além disso, foi utilizada uma visualização ancorada em filogenia para integrar sistematicamente os dados hierárquicos da estrutura populacional.
Este protocolo analítico apresenta uma base para a mineração de dados de populações bacterianas em escala. O que permite é que os genótipos sejam mapeados e rastreados em escala usando o ProkEvo, mas também podem ser expandidos para responder a outras perguntas, como explorar a distribuição de vias metabólicas e fatores de virulência associados à informação genotipada. Ou seja, podemos prever os fenótipos que estão associados a genótipos específicos de interesse.
O protocolo descrito aqui definitivamente abre caminho para os pesquisadores explorarem novas questões no campo da genômica populacional e inferirem padrões evolutivos e ecológicos para espécies patogênicas e bacterianas não patogênicas.