Questo protocollo analitico consente lo studio di popolazioni patogene di batteri, su larga scala. Questo è molto importante perché migliora il modo in cui le indagini ecologiche ed epidemiologiche possono essere fatte. Ma perché ciò accada, ciò di cui abbiamo bisogno è uno strumento automatizzato e scalabile, o una piattaforma computazionale che consenta di analizzare contemporaneamente molte migliaia di sequenze genomiche.
ProkEvo si adatta a quella nicchia e consente di eseguire analisi pratiche della popolazione batterica su larga scala, mappando il contenuto pan-genomico, che esamina i genotipi e le caratteristiche uniche di quei genotipi per l'indagine ecologica ed epidemiologica. Il vantaggio principale di questo protocollo è l'utilizzo di piattaforme computazionali potenti, automatizzate e scalabili, come ProkEvo per eseguire l'estrazione euristica di genotipi gerarchici nelle popolazioni batteriche. Il protocollo analitico qui presentato oggi ha diverse implicazioni pratiche.
Uno di questi è quello di facilitare la diagnostica nel senso che consentirebbe di mappare e tracciare i genotipi batterici in tempo reale, in modo scalabile, il che consente di discernere e definire i lignaggi patogeni dei patogeni per tracciare e mappare tali agenti patogeni in diversi contesti. Un'altra applicazione è quella di migliorare la sorveglianza di routine dei laboratori di sanità pubblica e delle agenzie di regolamentazione, che viene fatto per facilitare il tracciamento degli agenti patogeni in diversi contesti commerciali. Il protocollo qui presentato fornisce una guida pratica per microbiologi, ecologi, epidemiologi e chiunque sia interessato alla genomica delle popolazioni batteriche.
ProkEvo è una piattaforma open source e disponibile pubblicamente e la sua pagina GitHub fornisce istruzioni dettagliate per l'uso. Il protocollo spiegato qui può essere trovato anche su GitHub. Con le istruzioni fornite, vogliamo rendere ProkEvo e questo protocollo facili da usare ed essere utilizzati da ricercatori principianti e avanzati.
Inizia a condurre le analisi usando l'albero di Gigi per tracciare un albero filogenetico insieme a informazioni genotipiche. Per fare ciò, ottimizza la dimensione della figura dell'albero Gigi, incluso il diametro e la larghezza degli anelli modificando i valori numerici all'interno della mappa di calore x-lim e G. Quando si tracciano più livelli di dati con l'albero filogenetico, aggregare tutti i metadati nel minor numero possibile di categorie per facilitare la scelta del pannello da colorare.
Condurre l'aggregazione dei dati in base alla questione dell'interesse e della conoscenza del dominio. Una volta fatto, usa un grafico a barre per valutare le frequenze relative aggregando i dati per il tipo di sequenza o i lignaggi ST e la tipizzazione della sequenza multilocus del genoma del nucleo o le varianti cgMLST per facilitare le visualizzazioni. Scegli una soglia empirica o statistica utilizzata per l'aggregazione dei dati.
Il codice di esempio può essere utilizzato per ispezionare la distribuzione di frequenza dei lignaggi ST e determinare il cutoff. Il codice di esempio mostra come vengono aggregati gli ST minori o a bassa frequenza. Gli ST che non sono numerati possono essere raggruppati come altri ST.
Utilizzare un codice simile per le varianti cgMLST. Utilizzare l'approccio nidificato per calcolare la proporzione di ciascun lignaggio ST all'interno di ciascun sottogruppo BAPS1 per identificare gli ST che appartengono allo stesso sottogruppo BAPS1. Il codice esemplifica come la proporzione basata su ST può essere calcolata tra i sottogruppi BAPS1.
Per tracciare la distribuzione della resistenza antimicrobica o dei loci AMR tra i lignaggi ST, utilizzare una soglia empirica o statistica per filtrare i loci AMR più importanti per facilitare le visualizzazioni. Fornire un raw. csv contenente le proporzioni calcolate di tutti i loci AMR su tutti i lignaggi ST.
Quindi calcolare la proporzione AMR per ciascun ST utilizzando il codice. Dopo aver eseguito i calcoli per tutti gli ST, combinare i set di dati in un unico frame di dati utilizzando il codice e quindi esportare il file CSV contenente le proporzioni calcolate con il codice. Prima di tracciare la distribuzione basata su AMR tra i lignaggi ST, filtrare i dati in base a una soglia per facilitare le visualizzazioni.
Successivamente, traccia la filogenesi del genoma di base insieme alle classificazioni genotipiche gerarchiche nei dati AMR in un singolo grafico usando l'albero di Gigi. Quindi ottimizzare la dimensione della figura all'interno dell'albero Gigi utilizzando i parametri menzionati in precedenza. Ottimizzare le visualizzazioni aggregando le variabili o utilizzando la classificazione binaria, ad esempio la presenza o l'assenza del gene.
È stata esaminata la struttura gerarchica della popolazione del lignaggio Salmonella enterica uno nel contesto di una filogenesi del genoma di base. Le frequenze relative di tutti i genotipi gerarchici sono state quindi utilizzate per valutare la distribuzione complessiva e le classificazioni più frequentemente osservate. I lignaggi ST meno frequenti sono stati aggregati come altri ST per facilitare la visualizzazione dei dati.
Allo stesso modo, le varianti cgMLST meno frequenti sono state aggregate come altre cgMLST. Le relazioni ancestrali tra gli ST sono state esaminate utilizzando un approccio nidificato valutando la frequenza relativa dei lignaggi ST da parte dei sottogruppi o aplotipi BAPS1. La frequenza relativa dei loci AMR differenzianti del lignaggio ST è stata valutata per identificare firme genomiche accessorie uniche legate alla struttura della popolazione di Newport sierovara.
Nei risultati, i loci MDFA e AAC6IAA sembravano essere ancestralmente acquisiti dalla popolazione sierovara di Newport, mentre si prevede che ST45 sia multi-farmaco resistente. Rispetto all'ST45, gli altri principali lignaggi ST, come ST5 e ST118, hanno maggiori probabilità di essere suscettibili a più farmaci. Inoltre, è stata utilizzata una visualizzazione ancorata alla filogenesi per integrare sistematicamente i dati della struttura gerarchica della popolazione.
Questo protocollo analitico presenta una base per il data mining di popolazioni batteriche su larga scala. Ciò che consente è che i genotipi siano mappati e tracciati su larga scala utilizzando ProkEvo, ma può anche essere ampliato per rispondere ad altre domande, come esplorare la distribuzione delle vie metaboliche e dei fattori di virulenza associati alle informazioni genotipiche. Cioè, possiamo prevedere i fenotipi associati a specifici genotipi di interesse.
Il protocollo qui descritto apre sicuramente la strada ai ricercatori per esplorare nuove domande nel campo della genomica delle popolazioni e dedurre modelli evolutivi ed ecologici per specie batteriche patogene e non patogene.