Heuristisches Mining von hierarchischen Genotypen und akzessorischen Genomloci in Bakterienpopulationen

Natasha Pavlovikj; Joao Carlos Gomes-Neto; Andrew K. Benson

doi:10.3791/63115

Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.

Method Article

Heuristisches Mining von hierarchischen Genotypen und akzessorischen Genomloci in Bakterienpopulationen

DOI:

10.3791/63115

⸱

December 7th, 2021

Natasha Pavlovikj*¹, Joao Carlos Gomes-Neto*²^,³, Andrew K. Benson²^,³

¹Department of Computer Science and Engineering, University of Nebraska-Lincoln, ²Department of Food Science and Technology, University of Nebraska-Lincoln, ³Nebraska Food for Health Center, University of Nebraska-Lincoln

* Diese Autoren haben gleichermaßen beigetragen

Please note that all translations are automatically generated. Click here for the English version.

Zusammenfassung

Diese analytische Berechnungsplattform bietet praktische Anleitungen für Mikrobiologen, Ökologen und Epidemiologen, die sich für die Genomik der Bakterienpopulation interessieren. Insbesondere zeigte die hier vorgestellte Arbeit, wie man Folgendes durchführt: i) phylogenie-geführte Kartierung hierarchischer Genotypen; ii) frequenzbasierte Analyse von Genotypen; iii) Verwandtschafts- und Klonalitätsanalysen; iv) Identifizierung der Abstammungsdifferenzierung der akzessorischen Loci.

Zusammenfassung

Der routinemäßige und systematische Einsatz der bakteriellen Ganzgenomsequenzierung (WGS) verbessert die Genauigkeit und Auflösung epidemiologischer Untersuchungen, die von Laboratorien und Aufsichtsbehörden des öffentlichen Gesundheitswesens durchgeführt werden. Große Mengen öffentlich verfügbarer WGS-Daten können verwendet werden, um pathogene Populationen in großem Maßstab zu untersuchen. Vor kurzem wurde eine frei verfügbare Rechenplattform namens ProkEvo veröffentlicht, um reproduzierbare, automatisierte und skalierbare hierarchisch basierte populationsgenomische Analysen unter Verwendung von bakteriellen WGS-Daten zu ermöglichen. Diese Implementierung von ProkEvo zeigte, wie wichtig es ist, die standardmäßige genotypische Kartierung von Populationen mit dem Abbau des akzessorischen genomischen Inhalts für die ökologische Inferenz zu kombinieren. Insbesondere verwendete die hier hervorgehobene Arbeit ProkEvo-abgeleitete Ausgaben für populationsskalierte hierarchische Analysen unter Verwendung der Programmiersprache R. Das Hauptziel war es, Mikrobiologen, Ökologen und Epidemiologen einen praktischen Leitfaden zur Verfügung zu stellen, indem gezeigt wurde, wie: i) eine phylogeniegesteuerte Kartierung hierarchischer Genotypen zu verwenden; ii) Bewertung der Häufigkeitsverteilungen von Genotypen als Proxy für die ökologische Fitness; iii) Bestimmung der Verwandtschaftsbeziehungen und der genetischen Vielfalt unter Verwendung spezifischer genotypischer Klassifikationen; und iv) Kartenlinie, die die Zubehörloki unterscheidet. Um die Reproduzierbarkeit und Portabilität zu verbessern, wurden R-Markdown-Dateien verwendet, um den gesamten analytischen Ansatz zu demonstrieren. Der Beispieldatensatz enthielt genomische Daten von 2.365 Isolaten des zoonotischen lebensmittelbedingten Erregers Salmonella Newport. Die phylogenieverankerte Kartierung hierarchischer Genotypen (Serovar -> BAPS1 -> ST -> cgMLST) zeigte die genetische Struktur der Population und hob Sequenztypen (STs) als Schlüsselelement zur Unterscheidung des Genotyps hervor. Über die drei dominantesten Linien hinweg teilten ST5 und ST118 in jüngerer Zeit einen gemeinsamen Vorfahren als mit dem hochklonalen ST45-Phylotyp. Die ST-basierten Unterschiede wurden durch die Verteilung der Loci für akzessorische antimikrobielle Resistenzen (AMR) weiter hervorgehoben. Schließlich wurde eine phylogenieverankerte Visualisierung verwendet, um hierarchische Genotypen und AMR-Inhalte zu kombinieren, um die Verwandtschaftsstruktur und die linienspezifischen genomischen Signaturen aufzudecken. In Kombination bietet dieser analytische Ansatz einige Richtlinien für die Durchführung heuristischer genomischer Analysen der Bakterienpopulation unter Verwendung pangenomischer Informationen.

Einleitung

Die zunehmende Verwendung der bakteriellen Sequenzierung des gesamten Genoms (WGS) als Grundlage für die routinemäßige Überwachung und epidemiologische Untersuchung durch Laboratorien und Regulierungsbehörden des öffentlichen Gesundheitswesens hat die Untersuchungen von Krankheitserregern erheblich verbessert 1,2,3,4. Infolgedessen sind große Mengen anonymisierter WGS-Daten nun öffentlich verfügbar und können verwendet werden, um Aspekte der Populationsbiologie pathogener Arten in einem beispiellosen Umfang zu untersuchen, einschließlich Studien auf der Grundlage von: Populationsstrukturen, Genotyphäufigkeiten und Gen- / Allelhäufigkeiten über mehrere Reservoirs, geografische Regionen und Umgebungstypen^{hinweg 5} . Die am häufigsten verwendeten WGS-geführten epidemiologischen Untersuchungen basieren auf Analysen, die nur den gemeinsamen Kerngenomgehalt verwenden, wobei der gemeinsame (konservierte) Inhalt allein für die genotypische Klassifikation (z. B. Variantenaufruf) verwendet wird, und diese Varianten werden zur Grundlage für die epidemiologische Analyse und Rückverfolgung 1,2,6,7 . Typischerweise wird die bakterielle Kerngenom-basierte Genotypisierung mit Multi-Locus-Sequenztypisierung (MLST) unter Verwendung von sieben bis einigen tausend Loci ^8,9,10 durchgeführt. Diese MLST-basierten Strategien umfassen die Kartierung vormontierter oder assemblierter genomischer Sequenzen auf hochkuratierte Datenbanken, wodurch allelische Informationen zu reproduzierbaren genotypischen Einheiten für die epidemiologische und ökologische Analyse kombiniert^{werden 11,12}. Zum Beispiel kann diese MLST-basierte Klassifikation genotypische Informationen auf zwei Auflösungsebenen generieren: Sequenztypen auf niedrigerer Ebene (STs) oder ST-Linien (7 Loci) und MLST-Varianten (cgMLST) auf höherer Ebene (~ 300-3.000 Loci)¹⁰.

Die MLST-basierte genotypische Klassifikation ist rechnerisch tragbar und zwischen Labors hochgradig reproduzierbar, was sie weithin als genauen Subtypisierungsansatz unterhalb der Bakterienartenebene^13,14 akzeptiert. Bakterienpopulationen sind jedoch mit artspezifischen unterschiedlichen Klonalitätsgraden (d. h. genotypischer Homogenität), komplexen Mustern hierarchischer Verwandtschaft zwischen den Genotypen 15,16,17 und einer breiten Palette von Variationen in der Verteilung des akzessorischen genomischen Inhalts strukturiert ^18,19 . Daher geht ein ganzheitlicherer Ansatz über diskrete Klassifikationen in MLST-Genotypen hinaus und umfasst die hierarchischen Beziehungen von Genotypen auf verschiedenen Auflösungsskalen sowie die Abbildung des akzessorischen genomischen Inhalts auf genotypische Klassifikationen, was eine populationsbasierte Inferenz erleichtert 18,20,21 . Darüber hinaus können sich die Analysen auch auf gemeinsame Vererbungsmuster akzessorischer genomischer Loci bei selbst entfernt verwandten Genotypen^{konzentrieren 21,22}. Insgesamt ermöglicht der kombinierte Ansatz eine agnostische Abfrage von Beziehungen zwischen der Populationsstruktur und der Verteilung spezifischer genomischer Zusammensetzungen (z. B. Loci) zwischen Geo- oder Umweltgradienten. Ein solcher Ansatz kann sowohl grundlegende als auch praktische Informationen über die ökologischen Eigenschaften bestimmter Populationen liefern, die wiederum ihren Tropismus und ihre Ausbreitungsmuster über Stauseen wie Futtertiere oder Menschen erklären können.

Dieser systembasierte hierarchische populationsorientierte Ansatz erfordert große Mengen an WGS-Daten für eine ausreichende statistische Aussagekraft, um unterscheidbare genomische Signaturen vorherzusagen. Folglich erfordert der Ansatz eine Rechenplattform, die in der Lage ist, viele Tausende von bakteriellen Genomen gleichzeitig zu verarbeiten. Vor kurzem wurde ProkEvo entwickelt und ist eine frei verfügbare, automatisierte, tragbare und skalierbare Bioinformatik-Plattform, die integrative hierarchisch basierte Bakterienpopulationsanalysen, einschließlich pangenomischer Kartierung²⁰, ermöglicht. ProkEvo ermöglicht die Untersuchung von mittelgroßen bis großen bakteriellen Datensätzen und bietet gleichzeitig einen Rahmen für die Erstellung überprüfbarer und inferiierbarer epidemiologischer und ökologischer Hypothesen und phänotypischer Vorhersagen, die vom Benutzer angepasst werden können. Diese Arbeit ergänzt diese Pipeline durch die Bereitstellung eines Leitfadens zur Verwendung von ProkEvo-abgeleiteten Ausgabedateien als Input für Analysen und Interpretationen hierarchischer Populationsklassifikationen und des akzessorischen genomischen Minings. Die hier vorgestellte Fallstudie verwendete die Population der Salmonella enterica-Linie I zoonotischer Serovar S. Newport als Beispiel und zielte speziell darauf ab, praktische Richtlinien für Mikrobiologen, Ökologen und Epidemiologen bereitzustellen, wie: i) einen automatisierten phylogenieabhängigen Ansatz zur Abbildung hierarchischer Genotypen zu verwenden; ii) die Häufigkeitsverteilung von Genotypen als Proxy für die Bewertung der ökologischen Eignung zu bewerten; iii) Bestimmung der linienspezifischen Klonalitätsgrade unter Verwendung unabhängiger statistischer Ansätze; und iv) abbilden liniendifferenzierende AMR-Loci als Beispiel dafür, wie akzessorische genomische Inhalte im Kontext der Populationsstruktur abgebaut werden können. Im weiteren Sinne bietet dieser analytische Ansatz einen verallgemeinerbaren Rahmen für die Durchführung einer populationsbasierten genomischen Analyse in einem Maßstab, der verwendet werden kann, um evolutionäre und ökologische Muster unabhängig von der Zielart abzuleiten.

Access restricted. Please log in or start a trial to view this content.

Protokoll

1. Eingabedateien vorbereiten

HINWEIS: Das Protokoll ist hier verfügbar - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Das Protokoll geht davon aus, dass der Forscher speziell ProkEvo (oder eine vergleichbare Pipeline) verwendet hat, um die notwendigen Ausgaben in diesem Figshare-Repository verfügbar zu machen (https://figshare.com/account/projects/116625/articles/15097503 - Anmeldedaten sind erforderlich - Der Benutzer muss ein kostenloses Konto erstellen, um Dateizugriff zu haben!). Bemerkenswert ist, dass ProkEvo automatisch genomische Sequenzen aus dem NCBI-SRA-Repository herunterlädt und nur eine .txt Datei benötigt, die eine Liste von Genomidentifikationen als Eingabe²⁰ enthält, und diejenige, die für diese Arbeit auf S verwendet wird. Newport USA Isolate werden hier (https://figshare.com/account/projects/116625/articles/15097503?file=29025729) zur Verfügung gestellt. Detaillierte Informationen zur Installation und Verwendung dieser bakteriellen Genomik-Plattform finden Sie hier (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)²⁰

Generieren Sie Kern-Genom-Phylogenie mit FastTree 23 wie zuvor beschrieben 20, das nicht Teil der^{Bioinformatik-Plattform 20} ist. FastTree benötigt die Roary²⁴ Core-Genome Alignment als Eingabedatei. Die Phylogeniedatei heißt newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690).
Generieren Sie eine SISTR^25-Ausgabe mit Informationen zu Serovarenklassifikationen für Salmonellen - und cgMLST-Variantenaufrufdaten (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
Generieren Sie eine BAPS-Datei von fastbaps^26,27^, die die BAPS-Level-1-6-Klassifizierung von Genomen in Untergruppen oder Haplotypen (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684) enthält.
Generieren Sie eine MLST-basierte Klassifizierung von Genomen in STs mit dem MLST-Programm (https://github.com/tseemann/mlst)²⁸ (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696).
Generieren Sie die ABRicate (https://github.com/tseemann/abricate)^29-Ausgabe als .csv Datei mit AMR-Loci, die pro Genom (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693) kartiert werden.
HINWEIS: Der Benutzer kann bestimmte Teile der ProkEvo-Bioinformatik-Pipeline deaktivieren (weitere Informationen finden Sie hier - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). Der hier vorgestellte analytische Ansatz bietet Richtlinien für die Durchführung einer populationsbasierten Analyse nach dem Betrieb der Bioinformatik-Pipeline.

2. Laden Sie die Statistiksoftware und die IDE-Anwendung (Integrated Development Environment) herunter und installieren Sie sie.

Laden Sie die aktuellste frei verfügbare Version der R-Software für Linux, Mac oder PC³⁰ herunter. Befolgen Sie die Standardinstallationsschritte.
Laden Sie die aktuellste frei verfügbare Version der RStudio Desktop IDE hier^{herunter 31}. Befolgen Sie die Standardschritte für die Installation.
HINWEIS: Die nächsten Schritte sind im verfügbaren Skript enthalten, einschließlich detaillierter Informationen zur Codenutzung, und sollten sequenziell ausgeführt werden, um die in dieser Arbeit (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd) dargestellten Ausgaben und Zahlen zu generieren. Der Benutzer kann sich entscheiden, eine andere Programmiersprache zu verwenden, um diese analytische / statistische Analyse wie Python durchzuführen. Verwenden Sie in diesem Fall die Schritte in den Skripts als Framework, um die Analyse durchzuführen.

3. Installieren und Aktivieren von Data Science-Bibliotheken

Installieren Sie als ersten Schritt in der Analyse alle Data Science-Bibliotheken auf einmal. Vermeiden Sie es, die Bibliotheken jedes Mal zu installieren, wenn das Skript erneut ausgeführt werden muss. Verwenden Sie die Funktion install.packages() für die Bibliotheksinstallation. Alternativ kann der Benutzer auf die Registerkarte Pakete in der IDE klicken und die Pakete automatisch installieren. Der Code, der zur Installation aller benötigten Bibliotheken verwendet wird, wird hier vorgestellt:
# Installieren Sie Tidyverse
install.packages("tidyverse")
# Installieren Sie skimr
install.packages("skimr")
# Installieren Sie vegan
install.packages("vegan")
# Forcats installieren
install.packages("forcats")
# Installieren Sie naniar
install.packages("naniar")
# Installieren Sie ggpubr
install.packages("ggpubr")
# Installieren Sie ggrepel
install.packages("ggrepel")
# Installieren Sie reshape2
install.packages("reshape2")
# Installieren Sie RColorBrewer
install.packages("RColorBrewer")
# Installieren Sie ggtree
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("ggtree")
# Die Installation von ggtree führt zu einer Frage zur Installation - die Antwort ist "a", um alle Abhängigkeiten zu installieren / zu aktualisieren
Aktivieren Sie alle Bibliotheken oder Pakete mit der Funktion library() am Anfang des Skripts, direkt nach der Installation. Hier ist eine Demonstration, wie Sie alle notwendigen Pakete aktivieren können:
# Aktivieren Sie die Bibliotheken und Pakete
Bibliothek (tidyverse)
Bibliothek(SkiMR)
Bibliothek (vegan)
Bibliothek(forcats)
Bibliothek (naniar)
Bibliothek (ggtree)
Bibliothek (ggpubr)
Bibliothek (ggrepel)
Bibliothek(Reshape2)
Bibliothek(RColorBrewer)
Unterdrücken Sie die Ausgabe des Codes, der für die Installation und Aktivierung von Bibliotheken und Paketen verwendet wird, mithilfe von {r, include = FALSE} im Code-Chuck, wie folgt:
''' {r, include = FALSE}
# Installieren Sie Tidyverse
install.packages("tidyverse")
```
HINWEIS: Dieser Schritt ist optional, vermeidet jedoch das Anzeigen unnötiger Codeabschnitte im endgültigen HTML-, Dokument- oder PDF-Bericht.
Eine kurze Beschreibung der spezifischen Funktionen aller Bibliotheken sowie einige nützliche Links zum Sammeln weiterer Informationen finden Sie in den Schritten 3.4.1-3.4.11.
1. Tidyverse - Verwenden Sie diese Sammlung von Paketen, die für Data Science verwendet werden, einschließlich Dateneingabe, Visualisierung, Analyse und Aggregation sowie statistische Modellierung. Typischerweise sind ggplot2 (Datenvisualisierung) und dplyr (Data Wrangling und Modellierung) praktische Pakete, die in dieser Bibliothek³² vorhanden sind.
2. SkiMR - Verwenden Sie dieses Paket zur Erstellung zusammenfassender Statistiken von Datenrahmen, einschließlich der Identifizierung fehlender Werte³³.
3. vegan - Verwenden Sie dieses Paket für statistische Analysen der Gemeinschaftsökologie, z. B. die Berechnung diversitätsbasierter Statistiken (z. B. Alpha- und Beta-Diversität)³⁴.
4. forcats - Verwenden Sie dieses Paket, um mit kategorialen Variablen zu arbeiten, z. B. Neuanordnen von Klassifizierungen. Dieses Paket ist Teil der Tidyverse-Bibliothek³².
5. naniar - Verwenden Sie dieses Paket, um die Verteilung fehlender Werte auf Variablen in einem Datenrahmen mithilfe der viss_miss()-Funktion³⁵ zu visualisieren.
6. ggtree - Verwenden Sie dieses Paket für die Visualisierung von phylogenetischen Bäumen³⁶.
7. ggpubr - Verwenden Sie dieses Paket, um die Qualität von GGPLOT2-basierten Visualisierungen^{zu verbessern 37}.
8. GGREPEL - Verwenden Sie dieses Paket für die Textbeschriftung in Diagrammen³⁸.
9. reshape2 - Verwenden Sie die Funktion melt() aus diesem Paket für die Transformation von Datenrahmen von Weit- in Langformat³⁹.
10. RColorBrewer - verwenden Sie dieses Paket, um Farben in ggplot2-basierten Visualisierungen⁴⁰ zu verwalten.
11. Verwenden Sie die folgenden Grundfunktionen für die explorative Datenanalyse: head() um die ersten Beobachtungen in einem Datenrahmen zu überprüfen, tail() um die letzten Beobachtungen eines Datenrahmens zu überprüfen, is.na() um die Anzahl der Zeilen mit fehlenden Werten in einem Datenrahmen zu zählen, dim() um die Anzahl der Zeilen und Spalten in einem Dataset zu überprüfen, table() um Beobachtungen über eine Variable zu zählen, und sum(), um die Gesamtzahl der Beobachtungen oder Instanzen zu zählen.

4. Dateneingabe und -analyse

HINWEIS: Detaillierte Informationen zu jedem Schritt dieser Analyse finden Sie im verfügbaren Skript (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Hier sind jedoch einige wichtige Punkte, die zu beachten sind:

Führen Sie alle genomischen Dateneingaben, einschließlich aller genotypischen Klassifikationen (Serovar, BAPS, ST und cgMLST), mit der Funktion read_csv() durch.
Benennen Sie es um, erstellen Sie neue Variablen, und wählen Sie vor der Aggregation mehrerer Datasets interessante Spalten aus jedem Dataset aus.
Entfernen Sie fehlende Werte nicht aus unabhängigen Datensätzen. Warten Sie, bis alle Datasets aggregiert sind, um fehlende Werte zu ändern oder auszuschließen. Wenn für jedes Dataset neue Variablen erstellt werden, werden fehlende Werte standardmäßig in eine der neu generierten Klassifikationen kategorisiert.
Überprüfen Sie auf fehlerhafte Zeichen wie Bindestriche oder Abfragezeichen und ersetzen Sie sie durch NA (Nicht zutreffend). Machen Sie dasselbe für fehlende Werte.
Aggregieren Sie Daten basierend auf der hierarchischen Reihenfolge der Genotypen (Serovar -> BAPS1 -> ST -> cgMLST) und durch Gruppierung basierend auf den einzelnen Genomidentifikationen.
Überprüfen Sie mit mehreren Strategien auf fehlende Werte und gehen Sie explizit mit solchen Inkonsistenzen um. Entfernen Sie ein Genom oder isolieren Sie nur dann aus den Daten, wenn die Klassifizierung unzuverlässig ist. Andernfalls sollten Sie die durchgeführte Analyse in Betracht ziehen und die NAs von Fall zu Fall entfernen.
HINWEIS: Es wird dringend empfohlen, eine Strategie zu entwickeln, um mit solchen Werten a priori umzugehen. Vermeiden Sie es, alle Genome oder Isolate mit fehlenden Werten für alle Variablen zu entfernen. Zum Beispiel kann ein Genom eine ST-Klassifizierung haben, ohne die cgMLST-Variantennummer zu haben. In diesem Fall kann das Genom weiterhin für die ST-basierte Analyse verwendet werden.
Sobald alle Datensätze aggregiert sind, weisen Sie sie einem Datenrahmennamen oder Objekt zu, das in der Folgeanalyse an mehreren Stellen verwendet werden kann, um zu vermeiden, dass für jede Abbildung im Papier dieselbe Metadatendatei generiert werden muss.

5. Analysen durchführen und Visualisierungen generieren

HINWEIS: Eine detaillierte Beschreibung jedes Schrittes, der erforderlich ist, um alle Analysen und Visualisierungen zu erstellen, finden Sie in der Markdown-Datei für dieses Dokument (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). Der Code für jede Abbildung ist in Abschnitte unterteilt, und das gesamte Skript sollte nacheinander ausgeführt werden. Zusätzlich wird der Code für jede Haupt- und Zusatzfigur als separate Datei bereitgestellt (siehe Zusatzakte 1 und Zusatzakte 2). Hier sind einige wesentliche Punkte (mit Code-Schnipseln), die bei der Generierung jeder Haupt- und Zusatzfigur zu berücksichtigen sind.

Verwenden Sie ggtree, um einen phylogenetischen Baum zusammen mit genotypischen Informationen darzustellen (Abbildung 1).
1. Optimieren Sie die ggtree-Figurgröße, einschließlich Durchmesser und Breite der Ringe, indem Sie die numerischen Werte innerhalb der Funktionen xlim() bzw. gheatmap(width = ) ändern (siehe Beispielcode unten).
  tree_plot <- ggtree(Baum, layout = "kreisförmig") + xlim(-250, NA)
  figure_1 <- gheatmap(tree_plot, d4, offset=.0, width=20, colnames = FALSE)
  HINWEIS: Für einen detaillierteren Vergleich von Programmen, die für die phylogenetische Darstellung verwendet werden können, lesen Sie diese Arbeit²⁰. Die Arbeit hob einen Versuch hervor, Strategien zur Verbesserung von ggtree-basierten Visualisierungen zu identifizieren, wie z.B. die Verringerung der Datensatzgröße, aber Verzweigungslängen und Baumtopologie waren im Vergleich zu phandango⁴¹ nicht so eindeutig diskriminierend.
2. Aggregieren Sie alle Metadaten in so wenige Kategorien wie möglich, um die Auswahl des Farbfelds beim Plotten mehrerer Datenebenen mit dem phylogenetischen Baum (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd) zu erleichtern. Führen Sie die Datenaggregation basierend auf der Frage des Interesses und des Domänenwissens durch.
Verwenden Sie ein Balkendiagramm, um die relativen Häufigkeiten zu bewerten (Abbildung 2).
1. Aggregieren Sie Daten für ST-Linien und cgMLST-Varianten, um Visualisierungen zu erleichtern. Wählen Sie einen empirischen oder statistischen Schwellenwert, der für die Datenaggregation verwendet wird, und berücksichtigen Sie dabei die gestellte Frage.
2. Einen Beispielcode, der verwendet werden kann, um die Häufigkeitsverteilung von ST-Linien zu überprüfen, um den Grenzwert zu bestimmen, finden Sie unten:
  st_dist <- d2 %>% group_by(ST) %>% # Gruppe nach der Spalte "ST"
  count() %>% # Anzahl der Beobachtungen
  arrange(desc(n)) # Ordnen Sie die Zählungen in absteigender Reihenfolge an
3. Einen Beispielcode, der zeigt, wie kleine (niederfrequente) STs aggregiert werden können, finden Sie weiter unten. Wie unten gezeigt, werden STs, die nicht als 5, 31, 45, 46, 118, 132 oder 350 nummeriert sind, als "Andere STs" zusammengefasst. Verwenden Sie einen ähnlichen Code für cgMLST-Varianten (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd).
  d2$st <- ifelse(d2$ST == 5, "ST5", # Erstellen Sie eine neue ST-Spalte, für die kleine S Ts als Andere aggregiert werden
  ifelse(d2$ST == 31, "ST31",
  ifelse(d2$ST == 45, "ST45",
  ifelse(d2$ST == 46, "ST46",
  ifelse(d2$ST == 118, "ST118",
  ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Other STs")))))))
Verwenden Sie einen verschachtelten Ansatz, um den Anteil jeder ST-Linie innerhalb jeder BAPS1-Untergruppe zu berechnen, um STs zu identifizieren, die mit der Abstammung verwandt sind (zur selben BAPS1-Untergruppe gehören) (Abbildung 3). Der folgende Code veranschaulicht, wie der ST-basierte Anteil über BAPS1-Untergruppen (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd) hinweg berechnet werden kann:
baps <- d2b %>% filter(serovar == "Newport") %>% # filter Newport serovars
select(baps_1, ST) %>% # baps_1 und ST-Spalten auswählen
mutate(ST = as.numeric(ST)) %>% # Ändern Sie die ST-Spalte in numerisch
drop_na(baps_1, ST) %>% # Drop NAs
group_by(baps_1, ST) %>% # Gruppe nach baps_1 und ST
summarise(n = n()) %>% # Beobachtungen zählen
mutate(prop = n/sum(n)*100 ) # Proportionen berechnen
Zeichnen Sie die Verteilung der AMR-Loci über ST-Linien mithilfe der Resfinder-basierten Genannotationsergebnisse auf (Abbildung 4).
HINWEIS: Resfinder wurde in ökologischen und epidemiologischen Studien^{häufig verwendet 42}. Die Annotation von proteinkodierenden Genen kann variieren, je nachdem, wie oft Datenbanken kuratiert und aktualisiert werden. Bei Verwendung der vorgeschlagenen Bioinformatik-Pipeline kann der Forscher AMR-basierte Loci-Klassifikationen in verschiedenen Datenbanken^{vergleichen 20}. Überprüfen Sie unbedingt, welche Datenbanken ständig aktualisiert werden. Verwenden Sie keine veralteten oder schlecht kuratierten Datenbanken, um Fehlanrufe zu vermeiden.
1. Verwenden Sie einen empirischen oder statistischen Schwellenwert, um die wichtigsten AMR-Loci herauszufiltern und Visualisierungen zu erleichtern. Stellen Sie eine unformatierte .csv Datei bereit, die die berechneten Proportionen aller AMR-Loci über alle ST-Linien hinweg enthält, wie hier (https://figshare.com/account/projects/116625/articles/15097503?file=29025687) gezeigt.
2. Berechnen Sie den AMR-Anteil für jeden ST mit dem folgenden Code (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd):
  # Berechnungen für ST45
  d2c <- data6 %>% filter(st == "ST45") # ST45-Daten zuerst filtern
  # berechnen Sie für ST45 den Anteil der AMR-Loci und behalten Sie nur den Anteil größer als 10% bei
  d3c <- d2c %>% select(id, gene) %>% # Spalten auswählen
  group_by(id, Gen) %>% # Gruppe nach ID und Gen
  summarize(count = n()) %>% # Zählbeobachtungen
  mutate(count = replace(count, count == 2, 1)) %>% # Ersetzen Sie Zählungen gleich 2 durch 1, um nur eine Kopie jedes Gens zu berücksichtigen (Duplikationen sind möglicherweise nicht zuverlässig), aber der Forscher kann entscheiden, sie auszuschließen oder zu behalten. Wenn der Forscher sie ausschließen möchte, dann verwenden Sie die Funktion filter(count != 2) oder lassen Sie sie so belassen, wie sie ist
  filter(Anzahl <= 1) # Filteranzahl unter oder gleich 1
  d4c <- d3c %>% group_by(Gen) %>% # Gruppe nach Gen
  summarize(value = n()) %>% # Beobachtungen zählen
  mutate(total = table(data1$st)[6]) %>% # Erhalten Sie die Gesamtzahl von st mutate(prop = (value/total)*100 ) # Proportionen berechnen
  d5c <- d4c %>% mutieren(st = "ST45") # Erstellen Sie eine ST-Spalte und fügen Sie ST-Informationen hinzu
3. Nachdem die Berechnungen für alle STs durchgeführt wurden, kombinieren Sie Datasets mithilfe des folgenden Codes zu einem Datenrahmen:
  # Kombinieren von Datensätzen
  d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # Zeilenbindungs-Datasets
4. Um die .csv Datei mit den berechneten Proportionen zu exportieren, verwenden Sie den folgenden Code:
  # Datentabelle mit ST- und AMR-Loci-Informationen exportieren
  abx_newport_st <- d6 write.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
5. Bevor Sie die AMR-basierte Verteilung über ST-Linien aufzeichnen, filtern Sie die Daten basierend auf einem Schwellenwert, um Visualisierungen zu erleichtern, wie unten gezeigt:
  # Filtern Sie AMR-Loci mit einem Anteil von mehr als oder gleich 10%
  d7 <- d6 %>% filter(prop >= 10) # den Schwellenwert empirisch oder statistisch bestimmen
Zeichnen Sie die Kerngenom-Phylogenie zusammen mit den hierarchischen genotypischen Klassifikationen und AMR-Daten in einem einzigen Diagramm mit ggtree auf (Abbildung 5).
1. Optimieren Sie die Figurengröße innerhalb von ggtree mit den oben genannten Parametern (siehe Schritt 5.1.1.).
2. Optimieren Sie Visualisierungen, indem Sie Variablen aggregieren oder binäre Klassifizierungen wie Genpräsenz oder -abwesenheit verwenden. Je mehr Features dem Plot hinzugefügt werden, desto schwieriger wird der Farbauswahlprozess (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
  HINWEIS: Ergänzende Zahlen - eine detaillierte Beschreibung des gesamten Codes finden Sie hier (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
Verwenden Sie ein Streudiagramm in ggplot2 ohne Datenaggregation, um die Verteilung von ST-Linien oder cgMLST-Varianten anzuzeigen und gleichzeitig die häufigsten Genotypen hervorzuheben (Ergänzende Abbildung 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
Führen Sie eine verschachtelte Analyse durch, um die Zusammensetzung der ST-Linien anhand des Anteils der cgMLST-Varianten zu bewerten, um einen Einblick in die ST-basierte genetische Vielfalt zu erhalten und gleichzeitig die häufigsten Varianten und ihre genetischen Beziehungen zu identifizieren (d. h. cgMLST-Varianten, die zu demselben ST gehören, hatten in jüngerer Zeit einen Vorfahren als diejenigen, die zu verschiedenen STs gehörten) (Ergänzende Abbildung 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
Verwenden Sie die Ökologiemetrik der Gemeinschaft, nämlich Simpsons D-Index der Vielfalt, um den Grad der Klonalität oder der genotypischen Vielfalt jeder der wichtigsten ST-Linien⁴³ zu messen (ergänzende Abbildung 3).
1. Berechnen Sie den Diversitätsindex über ST-Linien hinweg auf verschiedenen Ebenen der genotypischen Auflösung, einschließlich BAPS-Level 1 bis 6 und cgMLST. Im Folgenden finden Sie ein Codebeispiel für diese Berechnung auf der BAPS-Ebene 1 (BAPS1) der genotypischen Auflösung:
  # BAPS Ebene 1 (BAPS1)
  # Lassen Sie die STs und BAPS1 mit NAs fallen, gruppieren Sie sie nach ST und BAPS1 und berechnen Sie dann den Simpson-Index
  BAPs1 <- Daten6 %>%
  select(st, BAPS1) %>% # Spalten auswählen
  drop_na(st, BAPS1) %>% # Drop NAs
  group_by(st, BAPS1) %>% # Nach Spalten gruppieren
  summarise(n = n()) %>% # Beobachtungen zählen
  mutate(simpson = diversity(n, "simpson")) %>% # Vielfalt berechnen
  group_by(st) %>% # Gruppe nach Spalte
  summarise(simpson = Mittelwert(Simpson)) %>% # Berechnen Sie den Mittelwert des Index
  melt(id.vars=c("st"), measure.vars="simpson",
  variable.name="Index", value.name="Wert") %>% # Verdeckt in Langformat
  mutate(strat = "BAPS1") # Erstellen einer Stratspalte
  HINWEIS: Eine genetisch vielfältigere Population (d. h. mehr Varianten bei verschiedenen Schichten genotypischer Auflösung) hat einen höheren Index auf cgMLST-Ebene und erzeugt steigende indexbasierte Werte, die von BAPS-Ebene 2 bis 6 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd) reichen.
Untersuchen Sie den Grad der genotypischen Diversität von ST-Linien, indem Sie die relative Häufigkeit von BAPS-Untergruppen auf allen Auflösungsebenen (BAPS1-6) aufzeichnen (Ergänzende Abbildung 4). Je vielfältiger die Population ist, desto spärlicher wird die Verteilung der BAPS-Untergruppen (Haplotypen) von BAPS1 (niedrigere Auflösungsebene) auf BAPS6 (höhere Auflösungsebene) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd).

Access restricted. Please log in or start a trial to view this content.

Ergebnisse

Durch die Nutzung der Computerplattform ProkEvo für populationsgenomische Analysen besteht der erste Schritt im bakteriellen WGS-Data-Mining darin, die hierarchische Populationsstruktur im Kontext einer Core-Genom-Phylogenie zu untersuchen (Abbildung 1). Im Fall von S. enterica Linie I, am Beispiel der S. Newport-Datensatz ist die Grundgesamtheit hierarchisch wie folgt strukturiert: Serovar (niedrigste Auflösungsstufe), BAPS1-Untergruppen oder Haplotypen, ST-Lin...

Access restricted. Please log in or start a trial to view this content.

Diskussion

Die Verwendung einer systembasierten heuristischen und hierarchischen Populationsstrukturanalyse bietet einen Rahmen für die Identifizierung neuartiger genomischer Signaturen in bakteriellen Datensätzen, die das Potenzial haben, einzigartige ökologische und epidemiologische Muster zu erklären²⁰. Darüber hinaus kann die Kartierung von akzessorischen Genomdaten auf die Populationsstruktur verwendet werden, um auf von Vorfahren erworbene und/oder kürzlich abgeleitete Merkmale zu schließen, die...

Access restricted. Please log in or start a trial to view this content.

Offenlegungen

Die Autoren haben erklärt, dass keine konkurrierenden Interessen bestehen.

Danksagungen

Diese Arbeit wurde durch Mittel unterstützt, die von der UNL-IANR Agricultural Research Division und dem National Institute for Antimicrobial Resistance Research and Education sowie vom Nebraska Food for Health Center am Food Science and Technology Department (UNL) zur Verfügung gestellt wurden. Diese Forschung konnte nur durch die Nutzung des Holland Computing Center (HCC) an der UNL abgeschlossen werden, das von der Nebraska Research Initiative unterstützt wird. Wir sind auch dankbar dafür, dass wir über das HCC Zugang zu Ressourcen haben, die vom Open Science Grid (OSG) bereitgestellt werden, das von der National Science Foundation und dem Office of Science des US-Energieministeriums unterstützt wird. Diese Arbeit verwendete die Pegasus Workflow Management Software, die von der National Science Foundation (Grant # 1664162) finanziert wird.

Access restricted. Please log in or start a trial to view this content.

Materialien

Name	Company	Catalog Number	Comments
amr_data_filtered			https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw			https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output			https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny			https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra			https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC			any high-performance platform
mlst_output			https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output			https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

Referenzen

Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438(2018).
Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504(2018).
Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776(2012).
Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261(2018).
Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595(2010).
Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345(2017).
Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376(2021).
McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280(2016).
Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490(2010).
Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101(2016).
Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686(2019).
rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533(2015).
Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023(2016).
Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765(2021).
Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524(2014).
Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15(2015).
Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Access restricted. Please log in or start a trial to view this content.

Nachdrucke und Genehmigungen

Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden

Genehmigung beantragen

Heuristisches Mining von hierarchischen Genotypen und akzessorischen Genomloci in Bakterienpopulationen

In diesem Artikel

Zusammenfassung

Zusammenfassung

Einleitung

Protokoll

Ergebnisse

Diskussion

Offenlegungen

Danksagungen

Materialien

Referenzen

Nachdrucke und Genehmigungen

Weitere Artikel entdecken