É necessária uma assinatura da JoVE para visualizar este conteúdo. Faça login ou comece sua avaliação gratuita.
Method Article
Esta plataforma computacional analítica fornece orientação prática para microbiologistas, ecologistas e epidemiologistas interessados em genômica populacional bacteriana. Especificamente, o trabalho aqui apresentado demonstrou como realizar: i) mapeamento guiado por filogenia de genótipos hierárquicos; ii) análise baseada em frequência de genótipos; iii) análises de parentesco e clonalidade; iv) identificação da linhagem diferenciando loci acessório.
O uso rotineiro e sistemático do sequenciamento de genomas integrais bacterianos (WGS) está aumentando a precisão e a resolução das investigações epidemiológicas realizadas por laboratórios e agências reguladoras de Saúde Pública. Grandes volumes de dados WGS disponíveis publicamente podem ser usados para estudar populações patogênicas em larga escala. Recentemente, uma plataforma computacional livremente disponível chamada ProkEvo foi publicada para permitir análises genômicas populacionais hierárquicas reprodutíveis, automatizadas e escaláveis usando dados wgs bacterianos. Esta implementação do ProkEvo demonstrou a importância de combinar mapeamento genotipado padrão de populações com mineração de conteúdo genômico acessório para inferência ecológica. Em particular, o trabalho aqui destacado utilizou saídas derivadas do ProkEvo para análises hierárquicas em escala populacional usando a linguagem de programação R. O objetivo principal foi fornecer um guia prático para microbiologistas, ecologistas e epidemiologistas, mostrando como: i) utilizar um mapeamento guiado por filogenia de genótipos hierárquicos; ii) avaliar as distribuições de frequência dos genótipos como proxy para a aptidão ecológica; iii) determinar relações de parentesco e diversidade genética utilizando classificações genotipas específicas; e iv) linhagem de mapa diferenciando loci acessório. Para melhorar a reprodutibilidade e a portabilidade, os arquivos de marcação R foram usados para demonstrar toda a abordagem analítica. O conjunto de dados do exemplo continha dados genômicos de 2.365 isolados do patógeno zoonótico Salmonella Newport. O mapeamento ancorado em filogenia de genótipos hierárquicos (Serovar -> BAPS1 -> ST-> cgMLST) revelou a estrutura genética populacional, destacando os tipos de sequência (STs) como o genótipo de diferenciação de pedra-chave. Através das três linhagens mais dominantes, ST5 e ST118 compartilharam um ancestral comum mais recentemente do que com o filotipo st45 altamente clonal. As diferenças baseadas em ST foram ainda destacadas pela distribuição de loci de resistência antimicrobiana acessória (AMR). Por fim, uma visualização ancorada em filogenia foi usada para combinar genótipos hierárquicos e conteúdo AMR para revelar a estrutura de parentesco e assinaturas genômicas específicas da linhagem. Combinada, essa abordagem analítica fornece algumas diretrizes para a realização de análises genômicas populacionais heurísticas da população bacteriana utilizando informações pan-genômicas.
O uso crescente do sequenciamento do genoma bacteriano (WGS) como base para vigilância de rotina e inquérito epidemiológico por laboratórios e agências reguladoras de Saúde Pública aprimorou substancialmente as investigações de surtosde patógenos 1,2,3,4. Como consequência, grandes volumes de dados WGS não identificados estão agora disponíveis publicamente e podem ser usados para estudar aspectos da biologia populacional de espécies patogênicas em escala sem precedentes, incluindo estudos baseados em: estruturas populacionais, frequências de genótipos e frequências de genes/alelos em vários reservatórios, regiões geográficas e tipos de ambientes5 . Os inquéritos epidemiológicos mais utilizados pelo WGS baseiam-se apenas em análises utilizando apenas o conteúdo núcleo-genômico compartilhado, onde o conteúdo compartilhado (conservado) é usado apenas para classificação genotípica (por exemplo, chamada de variante), e essas variantes se tornam a base para análise epidemiológica e rastreamento 1,2,6,7 . Normalmente, o genotipagem baseado em núcleo bacteriano é realizado com abordagens de digitação de sequência de vários lócus (MLST) usando sete a alguns milhares de loci 8,9,10. Essas estratégias baseadas em MLST englobam o mapeamento de sequências genômicas pré-montadas ou montadas em bancos de dados altamente curados, combinando informações alélicas em unidades genotípicas reprodutíveis para análise epidemiológica e ecológica11,12. Por exemplo, esta classificação baseada em MLST pode gerar informações genotípicas em dois níveis de resolução: tipos de sequência de nível inferior (STs) ou linhagens ST (7 loci), e variantes MLST (cgMLST) de genoma-núcleo de nível superior (~ 300-3.000 loci)10.
A classificação genotípica baseada em MLST é computacionalmente portátil e altamente reprodutível entre laboratórios, tornando-a amplamente aceita como uma abordagem de sub-digitação precisa abaixo do nívelde espécies bacterianas 13,14. No entanto, as populações bacterianas são estruturadas com diferentes graus de clonalidade específicos das espécies (ou seja, homogeneidade genotípica), padrões complexos de parentesco hierárquico entre genótipos 15,16,17 e uma ampla gama de variações na distribuição do conteúdo genômico acessório 18,19 . Assim, uma abordagem mais holística vai além de classificações discretas em genótipos MLST e incorpora as relações hierárquicas de genótipos em diferentes escalas de resolução, juntamente com o mapeamento de conteúdo genômico acessório em classificações genotipas genotipas, o que facilita a inferência de base populacional 18,20,21 . Além disso, as análises também podem focar em padrões compartilhados de herança de loci genômico acessório entre mesmo genótipos distantes21,22. No geral, a abordagem combinada permite o interrogatório agnóstico das relações entre a estrutura populacional e a distribuição de composições genômicas específicas (por exemplo, loci) entre gradientes geoespaciais ou ambientais. Tal abordagem pode produzir informações fundamentais e práticas sobre as características ecológicas de populações específicas que podem, por sua vez, explicar seus padrões de tropismo e dispersão entre reservatórios, como animais alimentícios ou humanos.
Esta abordagem hierárquica orientada à população baseada em sistemas exige grandes volumes de dados do WGS para poder estatístico suficiente para prever assinaturas genômicas distintas. Consequentemente, a abordagem requer uma plataforma computacional capaz de processar milhares de genomas bacterianos ao mesmo tempo. Recentemente, o ProkEvo foi desenvolvido e é uma plataforma de bioinformática livremente disponível, automatizada, portátil e escalável que permite análises populacionais bacterianas de base hierárquica integrativa, incluindo mapeamento pan-genômico20. O ProkEvo permite o estudo de conjuntos de dados bacterianos de forma moderada a grande, ao mesmo tempo em que fornece uma estrutura para gerar hipóteses epidemiológicas e ecológicas testáveis e inferíveis e previsões fenotípicas que podem ser personalizadas pelo usuário. Este trabalho complementa esse pipeline ao fornecer um guia sobre como utilizar arquivos de saída derivados do ProkEvo como entrada para análises e interpretação de classificações populacionais hierárquicas e mineração genômica acessório. O estudo de caso aqui apresentado utilizou a população da linhagem Salmonella enterica I zoonotic serovar S. Newport como exemplo e foi especificamente destinada a fornecer diretrizes práticas para microbiologistas, ecologistas e epidemiologistas sobre como: i) usar uma abordagem automatizada dependente de filogenia para mapear genótipos hierárquicos; ii) avaliar a distribuição de frequência dos genótipos como proxy para avaliação da aptidão ecológica; iii) determinar graus específicos de clonalidade de linhagem utilizando abordagens estatísticas independentes; e iv) mapear a linhagem de linhagem amr loci como exemplo de como extrair conteúdo genômico acessório no contexto da estrutura populacional. De forma mais ampla, essa abordagem analítica fornece uma estrutura generalizável para realizar uma análise genômica baseada na população em uma escala que pode ser usada para inferir padrões evolutivos e ecológicos, independentemente das espécies-alvo.
1. Prepare arquivos de entrada
NOTA: O protocolo está disponível aqui - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. O protocolo pressupõe que o pesquisador tenha usado especificamente o ProkEvo (ou um pipeline comparável) para obter as saídas necessárias disponíveis neste repositório Figshare (https://figshare.com/account/projects/116625/articles/15097503 - credenciais de login são necessárias - O usuário deve criar uma conta gratuita para ter acesso ao arquivo!). Note-se que o ProkEvo baixa automaticamente sequências genômicas do repositório NCBI-SRA e requer apenas um arquivo .txt contendo uma lista de identificações de genoma como uma entrada20, e a usada para este trabalho em S. Os isolados de Newport USA são fornecidos aqui (https://figshare.com/account/projects/116625/articles/15097503?file=29025729). Informações detalhadas sobre como instalar e usar esta plataforma de genômica bacteriana estão disponíveis aqui (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20
2. Baixe e instale o software estatístico e o aplicativo IDE (Integrated Development Environment, ambiente de desenvolvimento integrado)
3. Instale e ative bibliotecas de ciência de dados
4. Entrada e análise de dados
NOTA: Uma informação detalhada sobre cada etapa desta análise pode ser encontrada no script disponível (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). No entanto, aqui estão alguns pontos importantes a serem considerados:
5. Realizar análises e gerar visualizações
NOTA: Uma descrição detalhada de cada etapa necessária para produzir todas as análises e visualizações pode ser encontrada no arquivo de marcação deste papel (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). O código para cada figura é separado em pedaços e todo o script deve ser executado sequencialmente. Além disso, o código para cada figura principal e suplementar é fornecido como um arquivo separado (ver Arquivo Suplementar 1 e Arquivo Suplementar 2). Aqui estão alguns pontos essenciais (com trechos de código) a serem considerados ao gerar cada número principal e suplementar.
Utilizando a plataforma computacional ProkEvo para análises de genômica populacional, o primeiro passo na mineração de dados bacterianas do WGS é composto por examinar a estrutura populacional hierárquica no contexto de uma filogenia núcleo-genoma (Figura 1). No caso de S. linhagem enterica I, como exemplificado pelo S. O conjunto de dados de Newport, a população é hierarquicamente estruturada da seguinte forma: sorovar (nível mais baixo de resolução)...
A utilização de uma análise heurística e hierárquica da estrutura populacional baseada em sistemas fornece uma estrutura para identificar novas assinaturas genômicas em conjuntos de dados bacterianos que têm o potencial de explicar padrões ecológicos e epidemiológicos únicos20. Além disso, o mapeamento de dados do genoma acessório na estrutura populacional pode ser usado para inferir traços adquiridos ancestralmente e/ou recém-derivados que facilitem a disseminação de linhagens ST...
Os autores declararam que não existem interesses concorrentes.
Este trabalho foi apoiado por financiamento da Divisão de Pesquisa Agrícola da UNL-IANR e do Instituto Nacional de Pesquisa e Educação de Resistência Antimicrobiana e pelo Nebraska Food for Health Center do Departamento de Ciência e Tecnologia de Alimentos (UNL). Esta pesquisa só poderia ser concluída utilizando o Holland Computing Center (HCC) na UNL, que recebe apoio da Iniciativa de Pesquisa do Nebraska. Também somos gratos por ter acesso, através do HCC, aos recursos fornecidos pela Open Science Grid (OSG), que é apoiada pela National Science Foundation e pelo Escritório de Ciência do Departamento de Energia dos EUA. Este trabalho utilizou o Software de Gestão de Fluxo de Trabalho pegasus, que é financiado pela Fundação Nacional de Ciência (grant #1664162).
Name | Company | Catalog Number | Comments |
amr_data_filtered | https://figshare.com/account/projects/116625/articles/14829225?file=28758762 | ||
amr_data_raw | https://figshare.com/account/projects/116625/articles/14829225?file=28547994 | ||
baps_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548003 | ||
Core-genome phylogeny | https://figshare.com/account/projects/116625/articles/14829225?file=28548006 | ||
genome_sra | https://figshare.com/account/projects/116625/articles/14829225?file=28639209 | ||
Linux, Mac, or PC | any high-performance platform | ||
mlst_output | https://figshare.com/account/projects/116625/articles/14829225?file=28547997 | ||
sistr_output | https://figshare.com/account/projects/116625/articles/14829225?file=28548000 | ||
figshare credentials are required for login and have access to the files |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados