Dieses analytische Protokoll ermöglicht die Untersuchung pathogener Bakterienpopulationen in großem Maßstab. Das ist sehr wichtig, weil es die Art und Weise verbessert, wie ökologische und epidemiologische Untersuchungen durchgeführt werden können. Aber damit dies geschehen kann, brauchen wir ein automatisiertes und skalierbares Tool oder eine Computerplattform, mit der viele Tausende von Genomsequenzen gleichzeitig analysiert werden können.
ProkEvo passt zu dieser Nische und ermöglicht es, praktische Bakterienpopulationsanalysen in großem Maßstab durchzuführen, während pangenomische Inhalte kartiert werden, die Genotypen und einzigartige Merkmale dieser Genotypen für ökologische und epidemiologische Untersuchungen überprüfen. Der Hauptvorteil dieses Protokolls ist die Verwendung leistungsstarker, automatisierter und skalierbarer Rechenplattformen wie ProkEvo für das heuristische Mining hierarchischer Genotypen in Bakterienpopulationen. Das analytische Protokoll, das heute hier vorgestellt wird, hat mehrere praktische Implikationen.
Eine davon besteht darin, die Diagnostik in dem Sinne zu erleichtern, dass bakterielle Genotypen in Echtzeit auf skalierbare Weise kartiert und verfolgt werden können, wodurch pathogene Abstammungslinien von Krankheitserregern erkannt und definiert werden können, um diese Krankheitserreger in verschiedenen Umgebungen zu verfolgen und zu kartieren. Eine weitere Anwendung besteht darin, die routinemäßige Überwachung von öffentlichen Gesundheitslabors und Regulierungsbehörden zu verbessern, um die Verfolgung von Krankheitserregern in verschiedenen kommerziellen Umgebungen zu erleichtern. Das hier vorgestellte Protokoll bietet praktische Anleitungen für Mikrobiologen, Ökologen, Epidemiologen und alle, die sich für die Genomik der Bakterienpopulation interessieren.
ProkEvo ist eine Open-Source- und öffentlich zugängliche Plattform, und seine GitHub-Seite bietet detaillierte Nutzungsanweisungen. Das hier erläuterte Protokoll finden Sie auch auf GitHub. Mit den bereitgestellten Anweisungen möchten wir ProkEvo und dieses Protokoll benutzerfreundlich machen und von Anfängern und fortgeschrittenen Forschern verwendet werden.
Beginnen Sie mit der Durchführung der Analysen mit dem Gigi-Baum, um einen phylogenetischen Baum zusammen mit genotypischen Informationen darzustellen. Optimieren Sie dazu die Größe der Gigi-Baumfigur, einschließlich des Durchmessers und der Breite der Ringe, indem Sie die numerischen Werte in der x-lim- und G-Heatmap ändern. Wenn Sie mehrere Datenebenen mit dem phylogenetischen Baum plotten, aggregieren Sie alle Metadaten in der geringstmöglichen Anzahl von Kategorien, um die Auswahl des Farbfelds zu erleichtern.
Führen Sie die Datenaggregation basierend auf der Frage des Interesses und des Domänenwissens durch. Wenn Sie fertig sind, verwenden Sie ein Balkendiagramm, um die relativen Häufigkeiten zu bewerten, indem Sie Daten für den Sequenztyp oder die ST-Linien und die Typisierung von Kerngenom-Multilocus-Sequenzen oder cgMLST-Varianten aggregieren, um Visualisierungen zu erleichtern. Wählen Sie einen empirischen oder statistischen Schwellenwert aus, der für die Datenaggregation verwendet wird.
Der Beispielcode kann verwendet werden, um die Häufigkeitsverteilung der ST-Linien zu untersuchen und den Grenzwert zu bestimmen. Der Beispielcode zeigt, wie kleine oder niederfrequente STs aggregiert werden. Die STs, die nicht nummeriert sind, können als andere STs gruppiert werden.
Verwenden Sie einen ähnlichen Code für die cgMLST-Varianten. Verwenden Sie den verschachtelten Ansatz, um den Anteil jeder ST-Linie innerhalb jeder BAPS1-Untergruppe zu berechnen, um die STs zu identifizieren, die derselben BAPS1-Untergruppe angehören. Der Code veranschaulicht, wie der ST-basierte Anteil in den BAPS1-Untergruppen berechnet werden kann.
Um die Verteilung von antimikrobiellen Resistenzen oder AMR-Loci über die ST-Linien darzustellen, verwenden Sie einen empirischen oder statistischen Schwellenwert, um die wichtigsten AMR-Loci herauszufiltern, um Visualisierungen zu erleichtern. Stellen Sie ein Rohmaterial bereit. csv-Datei mit den berechneten Anteilen aller AMR-Loci über alle ST-Linien hinweg.
Berechnen Sie als Nächstes den AMR-Anteil für jeden ST mithilfe des Codes. Nachdem die Berechnungen für alle STs durchgeführt wurden, kombinieren Sie die Datasets mithilfe des Codes zu einem Datenrahmen, und exportieren Sie dann die CSV-Datei mit den berechneten Proportionen mit dem Code. Bevor Sie die AMR-basierte Verteilung über die ST-Linien aufzeichnen, filtern Sie die Daten basierend auf einem Schwellenwert, um Visualisierungen zu erleichtern.
Als nächstes zeichnen Sie die Kerngenomphylogenie zusammen mit den hierarchischen genotypischen Klassifikationen in AMR-Daten in einem einzigen Diagramm mit dem Gigi-Baum auf. Optimieren Sie dann die Figurengröße innerhalb des Gigi-Baums mit den zuvor genannten Parametern. Optimieren Sie die Visualisierungen, indem Sie die Variablen aggregieren oder eine binäre Klassifizierung verwenden, z. B. das Vorhandensein oder Fehlen von Genen.
Die hierarchische Populationsstruktur der Salmonella enterica-Linie eins im Kontext einer Kerngenom-Phylogenie wurde untersucht. Die relativen Häufigkeiten aller hierarchischen Genotypen wurden dann verwendet, um die Gesamtverteilung und die am häufigsten beobachteten Klassifikationen zu bewerten. Weniger häufige ST-Linien wurden als andere STs aggregiert, um die Datenvisualisierung zu erleichtern.
In ähnlicher Weise wurden weniger häufige cgMLST-Varianten als andere cgMLSTs aggregiert. Die angestammten Beziehungen zwischen den STs wurden mit einem verschachtelten Ansatz untersucht, indem die relative Häufigkeit von ST-Linien durch die BAPS1-Untergruppen oder Haplotypen bewertet wurde. Die relative Häufigkeit der ST-Linie, die AMR-Loci differenziert, wurde bewertet, um einzigartige akzessorische genomische Signaturen zu identifizieren, die mit der Serovar Newport-Populationsstruktur verbunden sind.
In den Ergebnissen schienen MDFA- und AAC6IAA-Loci von der Serovar Newport-Population erworben worden zu sein, während ST45 voraussichtlich multiresistent ist. Im Vergleich zum ST45 sind die anderen großen ST-Linien, wie ST5 und ST118, eher anfällig für mehrere Medikamente. Zusätzlich wurde eine phylogenieverankerte Visualisierung verwendet, um die hierarchischen Populationsstrukturdaten systematisch zu integrieren.
Dieses analytische Protokoll stellt eine Grundlage für das Data Mining von Bakterienpopulationen in großem Maßstab dar. Was es ermöglicht, ist, dass Genotypen mit ProkEvo in großem Maßstab kartiert und verfolgt werden können, aber es kann auch erweitert werden, um andere Fragen zu beantworten, wie z.B. die Erforschung der Verteilung von Stoffwechselwegen und Virulenzfaktoren, die mit genotypischen Informationen verbunden sind. Das heißt, wir können die Phänotypen vorhersagen, die mit bestimmten Genotypen von Interesse assoziiert sind.
Das hier beschriebene Protokoll ebnet definitiv den Weg für Forscher, neue Fragen auf dem Gebiet der Populationsgenomik zu erforschen und evolutionäre und ökologische Muster für pathogene und nicht-pathogene Bakterienarten abzuleiten.