Эвристическая добыча иерархических генотипов и локусов генома аксессуаров в бактериальных популяциях

Natasha Pavlovikj; Joao Carlos Gomes-Neto; Andrew K. Benson

doi:10.3791/63115

АВТОРЫ

СВЯЖИТЕСЬ С НАМИ

Войдите в систему

Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.

Method Article

Эвристическая добыча иерархических генотипов и локусов генома аксессуаров в бактериальных популяциях

DOI:

10.3791/63115

⸱

December 7th, 2021

Natasha Pavlovikj*¹, Joao Carlos Gomes-Neto*²^,³, Andrew K. Benson²^,³

¹Department of Computer Science and Engineering, University of Nebraska-Lincoln, ²Department of Food Science and Technology, University of Nebraska-Lincoln, ³Nebraska Food for Health Center, University of Nebraska-Lincoln

* Эти авторы внесли равный вклад

Please note that all translations are automatically generated. Click here for the English version.

Резюме

Эта аналитическая вычислительная платформа предоставляет практическое руководство для микробиологов, экологов и эпидемиологов, заинтересованных в бактериальной популяционной геномике. В частности, представленная здесь работа продемонстрировала, как выполнять: i) филогенное картирование иерархических генотипов; ii) частотный анализ генотипов; iii) анализ родства и клональности; iv) идентификация родословной, дифференцирующей локусы аксессуаров.

Аннотация

Регулярное и систематическое использование бактериального секвенирования всего генома (WGS) повышает точность и разрешение эпидемиологических расследований, проводимых лабораториями общественного здравоохранения и регулирующими органами. Большие объемы общедоступных данных WGS могут быть использованы для изучения патогенных популяций в больших масштабах. Недавно была опубликована свободно доступная вычислительная платформа под названием ProkEvo, позволяющая воспроизводить, автоматизировать и масштабировать иерархический геномный анализ популяций с использованием бактериальных данных WGS. Эта реализация ProkEvo продемонстрировала важность сочетания стандартного генотипического картирования популяций с добычей дополнительного геномного содержания для экологического вывода. В частности, в работе, выделенной здесь, использовались выходные данные ProkEvo для иерархического анализа в масштабе популяции с использованием языка программирования R. Основная цель состояла в том, чтобы предоставить практическое руководство для микробиологов, экологов и эпидемиологов, показав, как: i) использовать филогенное картирование иерархических генотипов; ii) оценивать частотные распределения генотипов в качестве показателя экологической пригодности; iii) определять родственные отношения и генетическое разнообразие с использованием специфических генотипических классификаций; и iv) карта родословной, дифференцирующая локусы аксессуаров. Для повышения воспроизводимости и переносимости использовались файлы R markdown для демонстрации всего аналитического подхода. Пример набора данных содержал геномные данные из 2 365 изолятов зоонозного пищевого патогена Salmonella Newport. Филогенное картирование иерархических генотипов (серовар -> BAPS1 -> ST -> cgMLST) выявило генетическую структуру популяции, выделив типы последовательностей (STs) в качестве краеугольного камня, дифференцирующего генотип. В трех наиболее доминирующих линиях ST5 и ST118 имели общего предка совсем недавно, чем с высококлональным типом ST45. Различия на основе ST были дополнительно подчеркнуты распределением локусов дополнительной устойчивости к противомикробным препаратам (УПП). Наконец, филогенная визуализация была использована для объединения иерархических генотипов и содержания AMR для выявления структуры родства и геномных сигнатур, специфичных для линии. В совокупности этот аналитический подход предоставляет некоторые рекомендации для проведения эвристического бактериального геномного анализа популяции с использованием пангеномной информации.

Введение

Все более широкое использование бактериального секвенирования всего генома (WGS) в качестве основы для рутинного эпиднадзора и эпидемиологического расследования лабораториями общественного здравоохранения и регулирующими органами значительно улучшило расследования вспышек патогенов 1,2,3,4. Как следствие, большие объемы деидентифицированных данных WGS в настоящее время находятся в открытом доступе и могут быть использованы для изучения аспектов популяционной биологии патогенных видов в беспрецедентных масштабах, включая исследования, основанные на: структурах популяций, частотах генотипов и частотах генов / аллелей в нескольких резервуарах, географических регионах и типах сред⁵ . Наиболее часто используемые эпидемиологические запросы, управляемые WGS, основаны на анализах с использованием только общего основного геномного содержания, где только общее (сохраненное) содержание используется только для генотипической классификации (например, вызов вариантов), и эти варианты становятся основой для эпидемиологического анализа и отслеживания 1,2,6,7 . Как правило, генотипирование бактериального ядра на основе генома осуществляется с помощью многолокусного типирования последовательности (MLST) с использованием от семи до нескольких тысяч локусов ^8,9,10. Эти стратегии, основанные на MLST, включают в себя отображение предварительно собранных или собранных геномных последовательностей в высоко курируемых базах данных, тем самым объединяя аллельную информацию в воспроизводимые генотипические единицы для эпидемиологического и экологического анализа^11,12. Например, эта классификация на основе MLST может генерировать генотипическую информацию на двух уровнях разрешения: типы последовательностей более низкого уровня (ST) или линии ST (7 локусов) и варианты MLST более высокого уровня (~ 300-3000 локусов)¹⁰.

Генотипическая классификация на основе MLST является вычислительно портативной и хорошо воспроизводимой между лабораториями, что делает ее широко принятой в качестве точного подхода к субтипированию ниже уровня видов бактерий^13,14. Однако бактериальные популяции структурированы с видоспецифичными различными степенями клональности (т.е. генотипической однородности), сложными паттернами иерархического родства между генотипами 15,16,17 и широким диапазоном вариаций в распределении добавочного геномного содержания ^18,19 . Таким образом, более целостный подход выходит за рамки дискретных классификаций в генотипы MLST и включает иерархические отношения генотипов на разных масштабах разрешения, наряду с отображением дополнительного геномного содержимого на генотипические классификации, что облегчает популяционный вывод 18,20,21 . Кроме того, анализ может также сосредоточиться на общих паттернах наследования вспомогательных геномных локусов даже отдаленно связанных генотипов^21,22. В целом, комбинированный подход позволяет агностически исследовать взаимосвязи между структурой популяции и распределением конкретных геномных составов (например, локусов) между геопространственными или экологическими градиентами. Такой подход может дать как фундаментальную, так и практическую информацию об экологических характеристиках конкретных популяций, которая, в свою очередь, может объяснить их тропизм и закономерности дисперсии по водоемам, таким как пищевые животные или люди.

Этот системный иерархический популяционно-ориентированный подход требует больших объемов данных WGS для достаточной статистической мощности для прогнозирования различимых геномных сигнатур. Следовательно, подход требует вычислительной платформы, способной обрабатывать многие тысячи бактериальных геномов одновременно. Недавно был разработан ProkEvo и представляет собой свободно доступную, автоматизированную, портативную и масштабируемую биоинформатику, которая позволяет проводить интегративный иерархический анализ бактериальных популяций, включая пангеномное картирование²⁰. ProkEvo позволяет изучать средне- и крупномасштабные наборы бактериальных данных, обеспечивая при этом основу для создания проверяемых и выводимых эпидемиологических и экологических гипотез и фенотипических прогнозов, которые могут быть настроены пользователем. Эта работа дополняет этот конвейер в предоставлении руководства по использованию выходных файлов, полученных из ProkEvo, в качестве входных данных для анализа и интерпретации иерархических классификаций популяций и геномного майнинга аксессуаров. В представленном здесь тематическом исследовании использовалась популяция Salmonella enterica lineage I zoonotic serovar S. Ньюпорт в качестве примера и был специально направлен на предоставление практических рекомендаций для микробиологов, экологов и эпидемиологов о том, как: i) использовать автоматизированный филогенийно-зависимый подход для картирования иерархических генотипов; ii) оценивать частотное распределение генотипов в качестве прокси для оценки экологической пригодности; iii) определять специфические для родословной степени клональности с использованием независимых статистических подходов; и iv) картирование локусов УПП, дифференцирующих родословную, в качестве примера того, как добывать дополнительное геномное содержание в контексте структуры популяции. В более широком смысле, этот аналитический подход обеспечивает обобщаемую основу для выполнения популяционного геномного анализа в масштабе, который может быть использован для вывода эволюционных и экологических моделей независимо от целевого вида.

Access restricted. Please log in or start a trial to view this content.

протокол

1. Подготовка входных файлов

ПРИМЕЧАНИЕ: Протокол доступен здесь - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Протокол предполагает, что исследователь специально использовал ProkEvo (или сопоставимый конвейер) для получения необходимых выходных данных, доступных в этом репозитории Figshare (https://figshare.com/account/projects/116625/articles/15097503 - требуются учетные данные для входа - пользователь должен создать бесплатную учетную запись, чтобы иметь доступ к файлу!). Следует отметить, что ProkEvo автоматически загружает геномные последовательности из репозитория NCBI-SRA и требует только .txt файл, содержащий список идентификаций генома в качестве входных данных²⁰ и тот, который используется для этой работы на S. Изоляты ньюпорт-США приведены здесь (https://figshare.com/account/projects/116625/articles/15097503?file=29025729). Подробная информация о том, как установить и использовать эту платформу бактериальной геномики, доступна здесь (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)²⁰

Генерация филогении ядра-генома с помощью FastTree²³ , как^{описано ранее 20}, которое не является частью биоинформатической платформы²⁰. FastTree требует выравнивания ядра генома Roary²⁴ в качестве входного файла. Файл филогении называется newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690).
Генерация выходных данных SISTR²⁵ , содержащих информацию о классификациях сероваров для сальмонеллы и cgMLST вариантов вызывающих данных (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
Генерация BAPS файла fastbaps ^26,27, содержащего BAPS уровней 1-6 классификации геномов на подгруппы или гаплотипы (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684).
Генерация классификации геномов на основе MLST в ST с помощью программы MLST (https://github.com/tseemann/mlst)²⁸ (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696).
Генерация выходных данных ABRicate (https://github.com/tseemann/abricate)²⁹ в виде файла .csv, содержащего локусы AMR, нанесенные на геном (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693).
ПРИМЕЧАНИЕ: Пользователь может отключить определенные части конвейера биоинформатики ProkEvo (см. здесь для получения дополнительной информации - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). Аналитический подход, представленный здесь, предоставляет руководящие принципы для проведения популяционного анализа после запуска конвейера биоинформатики.

2. Загрузите и установите статистическое программное обеспечение и приложение интегрированной среды разработки (IDE)

Загрузите самую последнюю свободно доступную версию программного обеспечения R для Linux, Mac или PC³⁰. Следуйте инструкциям по установке по умолчанию.
Загрузите самую актуальную в свободно доступном доступе версию RStudio desktop IDE здесь³¹. Следуйте инструкциям по умолчанию для установки.
ПРИМЕЧАНИЕ: Следующие шаги включены в доступный сценарий, включая подробную информацию об использовании кода, и должны выполняться последовательно для получения выходных данных и рисунков, представленных в этой работе (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Пользователь может решить использовать другой язык программирования для проведения этого аналитического / статистического анализа, такой как Python. В этом случае используйте шаги в скриптах в качестве основы для проведения анализа.

3. Установка и активация библиотек обработки и анализа данных

Установите все библиотеки обработки и анализа данных сразу в качестве первого шага в анализе. Избегайте установки библиотек каждый раз, когда сценарий необходимо перезапускать. Используйте функцию install.packages() для установки библиотеки. Кроме того, пользователь может щелкнуть вкладку Пакеты внутри среды IDE и автоматически установить пакеты. Код, используемый для установки всех необходимых библиотек, представлен здесь:
# Установить Tidyverse
install.packages("tidyverse")
# Установить skimr
install.packages("skimr")
# Установить веганский
install.packages("веганский")
# Установка forcats
install.packages("forcats")
# Установить наниар
install.packages("naniar")
# Установить ggpubr
install.packages("ggpubr")
# Установить грепель
install.packages("ggrepel")
# Установить изменение формы2
install.packages("reshape2")
# Установить RColorBrewer
install.packages("RColorBrewer")
# Установить ggtree
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("ggtree")
# Установка ggtree вызовет вопрос об установке - ответ "a" для установки/обновления всех зависимостей
Активируйте все библиотеки или пакеты с помощью функции library() в начале скрипта, сразу после установки. Вот демонстрация того, как активировать все необходимые пакеты:
# Активация библиотек и пакетов
библиотека(аккуратный)
библиотека(скимр)
библиотека (веганская)
библиотека(форкаты)
библиотека(наниар)
библиотека(ggtree)
библиотека(ggpubr)
библиотека(ггрепель)
библиотека(изменить форму2)
библиотека(RColorBrewer)
Подавите вывод кода, используемого для установки и активации библиотеки и пакета, с помощью {r, include = FALSE} в коде chuck, следующим образом:
''' {r, include = FALSE}
# Установить Tidyverse
install.packages("tidyverse")
```
ПРИМЕЧАНИЕ: Этот шаг является необязательным, но позволяет избежать отображения фрагментов ненужного кода в окончательном отчете html, doc или pdf.
Краткое описание конкретных функций всех библиотек, а также некоторые полезные ссылки для сбора дополнительной информации см. в шагах 3.4.1-3.4.11.
1. Tidyverse - используйте эту коллекцию пакетов, используемых для обработки и анализа данных, включая ввод данных, визуализацию, синтаксический анализ и агрегацию, а также статистическое моделирование. Как правило, ggplot2 (визуализация данных) и dplyr (споры и моделирование данных) являются практическими пакетами, присутствующими в этой библиотеке³².
2. skimr - использовать этот пакет для генерации сводной статистики кадров данных, включая идентификацию отсутствующих значений³³.
3. веганский - используйте этот пакет для статистического анализа экологии сообщества, такого как расчет статистики на основе разнообразия (например, альфа- и бета-разнообразия)³⁴.
4. forcats - используйте этот пакет для работы с категориальными переменными, такими как переупорядочивание классификаций. Этот пакет является частью библиотеки Tidyverse³².
5. naniar - используйте этот пакет для визуализации распределения отсутствующих значений по переменным во фрейме данных с помощью функции³⁵ viss_miss().
6. ggtree - используйте этот пакет для визуализации филогенетических деревьев³⁶.
7. ggpubr - используйте этот пакет для улучшения качества визуализаций на основе ggplot2³⁷.
8. ggrepel - используйте этот пакет для маркировки текста внутри графиков³⁸.
9. reshape2 - используйте функцию melt() из этого пакета для преобразования кадров данных из широкого формата^{в длинный формат 39}.
10. RColorBrewer - используйте этот пакет для управления цветами в визуализациях на основе ggplot2⁴⁰.
11. Используйте следующие основные функции для исследовательского анализа данных: head() для проверки первых наблюдений во фрейме данных, tail() для проверки последних наблюдений фрейма данных, is.na() для подсчета количества строк с отсутствующими значениями в фрейме данных, dim() для проверки количества строк и столбцов в наборе данных, table() для подсчета наблюдений по переменной, и sum() для подсчета общего числа наблюдений или случаев.

4. Ввод и анализ данных

ПРИМЕЧАНИЕ: Подробную информацию о каждом шаге этого анализа можно найти в доступном скрипте (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Тем не менее, вот некоторые важные моменты, которые следует учитывать:

Выполните ввод всех геномных данных, включая все генотипические классификации (серовар, BAPS, ST и cgMLST), используя функцию read_csv().
Переименуйте, создайте новые переменные и выберите интересующие столбцы из каждого набора данных перед агрегацией нескольких наборов данных.
Не удаляйте отсутствующие значения из любого независимого набора данных. Подождите, пока все наборы данных не будут агрегированы, чтобы изменить или исключить отсутствующие значения. Если для каждого набора данных создаются новые переменные, то отсутствующие значения по умолчанию классифицируются в одну из вновь созданных классификаций.
Проверьте наличие ошибочных символов, таких как дефисы или знаки допросов, и замените их на NA (не применимо). Проделайте то же самое для отсутствующих значений.
Агрегированные данные основаны на иерархическом порядке генотипов (серовар -> BAPS1 -> ST -> cgMLST), а также путем группировки на основе идентификации индивидуального генома.
Проверьте наличие отсутствующих значений, используя несколько стратегий, и явно разберитесь с такими несоответствиями. Удаляйте геном или изолируйте из данных только в том случае, если классификация ненадежна. В противном случае рассмотрите проводимый анализ и удалите НС в каждом конкретном случае.
ПРИМЕЧАНИЕ: Настоятельно рекомендуется разработать стратегию, позволяющую априори обращаться с такими значениями. Избегайте удаления всех геномов или изолятов с отсутствующими значениями в любых переменных. Например, геном может иметь классификацию ST без номера варианта cgMLST. В этом случае геном все еще может быть использован для анализа на основе ST.
Как только все наборы данных будут агрегированы, присвойте их имени фрейма данных или объекту, который можно использовать в нескольких местах в последующем анализе, чтобы избежать необходимости генерировать один и тот же файл метаданных для каждого рисунка в документе.

5. Проводите анализ и генерируйте визуализации

ПРИМЕЧАНИЕ: Подробное описание каждого шага, необходимого для проведения всех анализов и визуализаций, можно найти в файле markdown для этой статьи (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). Код для каждого рисунка разделен на куски, и весь скрипт должен выполняться последовательно. Кроме того, код для каждого основного и дополнительного рисунка предоставляется в виде отдельного файла (см. Дополнительный файл 1 и Дополнительный файл 2). Вот некоторые важные моменты (с фрагментами кода), которые следует учитывать при генерации каждой основной и дополнительной фигур.

Используйте ggtree для построения филогенетического дерева вместе с генотипической информацией (рисунок 1).
1. Оптимизируйте размер фигуры ggtree, включая диаметр и ширину колец, изменив числовые значения внутри функций xlim() и gheatmap(width = ) соответственно (см. пример кода ниже).
  tree_plot <- ggtree(дерево, макет = "круглый") + xlim(-250, NA)
  figure_1 <- gheatmap(tree_plot, d4, offset=.0, width=20, colnames = FALSE)
  ПРИМЕЧАНИЕ: Для более подробного сравнения программ, которые могут быть использованы для филогенетического построения, проверьте эту работу²⁰. В работе подчеркивается попытка определить стратегии для улучшения визуализаций на основе ggtree, таких как уменьшение размера набора данных, но длина ветвей и топология дерева не были столь четко различимыми по сравнению с phandango⁴¹.
2. Агрегируйте все метаданные в как можно меньше категорий, чтобы облегчить выбор цветовой панели при построении нескольких слоев данных с филогенетическим деревом (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd). Проведите агрегацию данных на основе вопроса об интересе и знания предметной области.
Используйте гистограмму для оценки относительных частот (рисунок 2).
1. Агрегируйте данные как для линий ST, так и для вариантов cgMLST для облегчения визуализации. Выберите эмпирический или статистический порог, используемый для агрегирования данных, при рассмотрении задаваемого вопроса.
2. Пример кода, который можно использовать для проверки частотного распределения линий ST для определения пороговой границы, см. ниже:
  st_dist <- d2 %>% group_by(ST) %>% # по столбцу ST
  count() %>% # подсчитать количество наблюдений
  arrange(desc(n)) # упорядочить счетчики в порядке убывания
3. Пример кода, показывающий, как могут быть агрегированы второстепенные (низкочастотные) ST, приведен ниже. Как показано ниже, СП, которые не пронумерованы как 5, 31, 45, 46, 118, 132 или 350, группируются вместе как «Другие СП». Используйте аналогичный код для вариантов cgMLST (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd).
  d2$st <- ifelse(d2$ST == 5, "ST5", # создать новый столбец ST, для которого второстепенные S T агрегируются как Другие
  ifelse(d2$ST == 31, "ST31",
  ifelse(d2$ST == 45, "ST45",
  ifelse(d2$ST == 46, "ST46",
  ifelse(d2$ST == 118, "ST118",
  ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Other STs")))))))
Используйте вложенный подход для расчета доли каждой линии ST в каждой подгруппе BAPS1 для идентификации ST, которые связаны между предками (принадлежат к одной и той же подгруппе BAPS1) (рисунок 3). Приведенный ниже код иллюстрирует, как пропорция на основе ST может быть рассчитана для подгрупп BAPS1 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd):
baps <- d2b %>% фильтр(серовар == "Ньюпорт") %>% # фильтр Ньюпорта
select(baps_1, ST) %>% # выбрать столбцы baps_1 и ST
mutate(ST = as.numeric(ST)) %>% # изменить столбец ST на числовой
drop_na(baps_1, ST) %>% # падение NA
group_by(baps_1, ST) %>% # группа по baps_1 и ST
summaryse(n = n()) %>% # количество наблюдений
mutate(prop = n/sum(n)*100) # рассчитать пропорции
Построение распределения локусов AMR по линиям ST с использованием результатов аннотации генов на основе Resfinder (рисунок 4).
ПРИМЕЧАНИЕ: Resfinder широко используется в эколого-эпидемиологических исследованиях⁴². Аннотация генов, кодирующих белок, может варьироваться в зависимости от того, как часто базы данных курируются и обновляются. При использовании предлагаемого конвейера биоинформатики исследователь может сравнить классификации локусов на основе УПП в разных базах данных²⁰. Обязательно проверьте, какие базы данных постоянно обновляются. Не используйте устаревшие или плохо подобранные базы данных, чтобы избежать просчетов.
1. Используйте эмпирический или статистический порог для фильтрации наиболее важных локусов УПП для облегчения визуализации. Предоставьте необработанный файл .csv, содержащий рассчитанные пропорции всех локусов AMR во всех линиях ST, как показано здесь (https://figshare.com/account/projects/116625/articles/15097503?file=29025687).
2. Рассчитайте пропорцию AMR для каждого ST, используя следующий код (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd):
  # Расчеты для ST45
  d2c <- data6 %>% фильтр(st == "ST45") # сначала фильтр данных ST45
  # для ST45, рассчитать долю локусов AMR и сохранить только пропорцию более 10%
  d3c <- d2c %>% select(id, gene) %>% # выбрать столбцы
  group_by(id, ген) %>% # группа по id и гену
  суммировать(количество = n()) %>% # количество наблюдений
  mutate(count = replace(count, count == 2, 1)) %>% # заменить количество, равное 2 с 1, чтобы рассмотреть только одну копию каждого гена (дупликации могут быть ненадежными), но исследователь может решить исключить или сохранить их. Если исследователь хочет исключить их, то используйте функцию filter(count != 2) или оставьте как есть
  filter(count <= 1) # количество фильтров меньше или равно 1
  d4c <- d3c %>% group_by(ген) %>% # группа по генам
  суммировать(значение = n()) %>% # количество наблюдений
  mutate(total = table(data1$st)[6]) %>% # получить общее количество st mutate(prop = (значение/итог)*100) # рассчитать пропорции
  d5c <- d4c %>% mutate(st = "ST45") # создать столбец st и добавить информацию ST
3. После выполнения вычислений для всех ПАКЕТОВ данных объедините наборы данных в один фрейм данных, используя следующий код:
  # Объединение наборов данных
  d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # наборы данных привязки строк
4. Чтобы экспортировать файл .csv, содержащий вычисляемые пропорции, используйте код:
  # Экспорт таблицы данных, содержащей информацию о локусах ST и AMR
  abx_newport_st <- d6 write.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
5. Перед построением распределения на основе AMR по линиям ST отфильтруйте данные на основе порогового значения для облегчения визуализации, как показано ниже:
  # Фильтр локусов AMR с долей выше или равной 10%
  d7 <- d6 %>% фильтр (prop >= 10) # определить порог эмпирически или статистически
Построение филогении ядра генома вместе с иерархическими генотипическими классификациями и данными УПП на одном графике с использованием ggtree (рисунок 5).
1. Оптимизируйте размер фигуры внутри ggtree, используя вышеупомянутые параметры (см. шаг 5.1.1.).
2. Оптимизируйте визуализации путем агрегирования переменных или использования двоичной классификации, такой как наличие или отсутствие генов. Чем больше особенностей добавляется к сюжету, тем сложнее становится процесс выбора раскраски (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
  ПРИМЕЧАНИЕ: Дополнительные цифры - подробное описание всего кода можно найти здесь (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
Используйте точечную диаграмму в ggplot2 без агрегации данных для отображения распределения линий ST или вариантов cgMLST при выделении наиболее частых генотипов (дополнительный рисунок 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
Проведите вложенный анализ для оценки состава линий ST через долю вариантов cgMLST, чтобы получить представление о генетическом разнообразии на основе ST, при этом выявив наиболее частые варианты и их генетические отношения (т. Е. Варианты cgMLST, которые принадлежат к одному и тому же ST, имели предка совсем недавно, чем те, которые принадлежат к отдельным ST) (Дополнительный рисунок 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
Используйте метрику экологии сообщества, а именно индекс разнообразия D Симпсона, для измерения степени клональности или генотипического разнообразия каждой из основных линий ST⁴³ (дополнительный рисунок 3).
1. Рассчитайте индекс разнообразия по линиям ST на разных уровнях генотипического разрешения, включая BAPS уровня с 1 по 6 и cgMLST. Ниже приведен пример кода о том, как выполнить это вычисление на уровне BAPS 1 (BAPS1) генотипического разрешения:
  # BAPS уровень 1 (BAPS1)
  # отбросьте ST и BAPS1 с NA, сгруппируйте по ST и BAPS1, а затем рассчитайте индекс Симпсона
  baps1 <- данные6 %>%
  select(st, BAPS1) %>% # выбрать столбцы
  drop_na(st, BAPS1) %>% # падение NA
  group_by(st, BAPS1) %>% # группировка по столбцам
  summaryse(n = n()) %>% # количество наблюдений
  mutate(simpson = diversity(n, "simpson")) %>% # рассчитать разнообразие
  group_by(st) %>% # группа по столбцам
  summarise(simpson = mean(simpson)) %>% # рассчитать среднее значение индекса
  melt(id.vars=c("st"), measure.vars="simpson",
  variable.name="index", value.name="value") %>% # скрытый в длинном формате
  mutate(strat = "BAPS1") # создать столбец слоя
  ПРИМЕЧАНИЕ: Более генетически разнообразная популяция (т.е. больше вариантов на разных уровнях генотипического разрешения) имеет более высокий индекс на уровне cgMLST и производит увеличение значений на основе индексов, начиная с уровня BAPS 2 до 6 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd).
Изучить степень генотипического разнообразия линий ST путем построения относительной частоты подгрупп BAPS на всех уровнях разрешения (BAPS1-6) (дополнительный рисунок 4). Чем разнообразнее популяция, тем более редким становится распределение подгрупп BAPS (гаплотипов), переходящее от BAPS1 (более низкий уровень разрешения) к BAPS6 (более высокий уровень разрешения) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd).

Access restricted. Please log in or start a trial to view this content.

Результаты

Используя вычислительную платформу ProkEvo для анализа популяционной геномики, первым шагом в интеллектуальном анализе данных бактериальной WGS является изучение иерархической структуры популяции в контексте филогении ядра-генома (рисунок 1). В случае С. энтерическ...

Access restricted. Please log in or start a trial to view this content.

Обсуждение

Использование системного эвристического и иерархического анализа структуры популяции обеспечивает основу для выявления новых геномных сигнатур в наборах бактериальных данных, которые могут объяснить уникальные экологические и эпидемиологические закономерности²⁰. Кро?...

Access restricted. Please log in or start a trial to view this content.

Раскрытие информации

Авторы заявили, что конкурирующих интересов не существует.

Благодарности

Эта работа была поддержана финансированием, предоставленным Отделом сельскохозяйственных исследований UNL-IANR и Национальным институтом исследований и образования в области устойчивости к противомикробным препаратам, а также Центром продовольствия для здоровья штата Небраска при Департаменте пищевой науки и техники (UNL). Это исследование может быть завершено только с использованием Голландского вычислительного центра (HCC) в UNL, который получает поддержку от Исследовательской инициативы Небраски. Мы также благодарны за доступ через HCC к ресурсам, предоставляемым Open Science Grid (OSG), которая поддерживается Национальным научным фондом и Управлением науки Министерства энергетики США. В этой работе использовалось программное обеспечение Для управления рабочими процессами Pegasus, которое финансируется Национальным научным фондом (грант No 1664162).

Access restricted. Please log in or start a trial to view this content.

Материалы

Name	Company	Catalog Number	Comments
amr_data_filtered			https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw			https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output			https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny			https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra			https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC			any high-performance platform
mlst_output			https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output			https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

Ссылки

Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438(2018).
Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504(2018).
Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776(2012).
Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261(2018).
Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595(2010).
Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345(2017).
Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376(2021).
McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280(2016).
Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490(2010).
Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101(2016).
Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686(2019).
rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533(2015).
Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023(2016).
Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765(2021).
Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524(2014).
Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15(2015).
Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Access restricted. Please log in or start a trial to view this content.

Перепечатки и разрешения

Запросить разрешение на использование текста или рисунков этого JoVE статьи

Запросить разрешение

Смотреть дополнительные статьи

178

This article has been published

Video Coming Soon

Keep me updated:

Конфиденциальность

Условия эксплуатации

Политика

СВЯЖИТЕСЬ С НАМИ

РЕКОМЕНДОВАТЬ БИБЛИОТЕКЕ

НОВОСТИ JoVE

Исследования

Образование

АВТОРЫ

Библиотекарь

О JoVE