Данный аналитический протокол позволяет проводить масштабные исследования патогенных популяций бактерий. Это очень важно, потому что это улучшает возможности проведения экологических и эпидемиологических расследований. Но для того, чтобы это произошло, нам нужен автоматизированный и масштабируемый инструмент или вычислительная платформа, которая позволяет анализировать многие тысячи последовательностей генома одновременно.
ProkEvo подходит для этой ниши, и он позволяет проводить практический анализ бактериальной популяции в масштабе, одновременно картируя пангеномное содержание, которое рассматривает генотипы и уникальные особенности этих генотипов для экологического и эпидемиологического исследования. Основным преимуществом этого протокола является использование мощных, автоматизированных и масштабируемых вычислительных платформ, таких как ProkEvo, для эвристического майнинга иерархических генотипов в бактериальных популяциях. Аналитический протокол, представленный здесь сегодня, имеет ряд практических последствий.
Одним из них является облегчение диагностики в том смысле, который позволит картировать и отслеживать бактериальные генотипы в режиме реального времени масштабируемым образом, что позволяет различать и определять патогенные линии патогенов для отслеживания и картирования этих патогенов в различных условиях. Другое применение заключается в усилении регулярного эпиднадзора за лабораториями общественного здравоохранения и регулирующими органами, что делается для облегчения отслеживания патогенов в различных коммерческих условиях. Протокол, представленный здесь, предоставляет практическое руководство для микробиологов, экологов, эпидемиологов и всех, кто интересуется бактериальной популяционной геномикой.
ProkEvo является общедоступной платформой с открытым исходным кодом, а ее страница на GitHub содержит подробные инструкции по использованию. Протокол, описанный здесь, также можно найти на GitHub. С помощью предоставленных инструкций мы хотим сделать ProkEvo и этот протокол простыми в использовании и использоваться начинающими и продвинутыми исследователями.
Начните проводить анализы с использованием дерева Джиджи для построения филогенетического дерева вместе с генотипической информацией. Для этого оптимизируйте размер фигуры дерева Gigi, включая диаметр и ширину колец, изменив числовые значения внутри тепловой карты x-lim и G. При построении нескольких слоев данных с филогенетическим деревом агрегируйте все метаданные в минимально возможное количество категорий, чтобы облегчить выбор цветовой панели.
Проведите агрегацию данных на основе вопроса об интересе и знания предметной области. После этого используйте гистограмму для оценки относительных частот путем агрегирования данных для типа последовательности или линий ST, а также типирования многолокусной последовательности основного генома или вариантов cgMLST для облегчения визуализации. Выберите эмпирический или статистический порог, используемый для агрегирования данных.
Пример кода можно использовать для проверки частотного распределения линий ST и определения отсечки. В примере кода показано, как агрегируются второстепенные или низкочастотные ST. Не пронумерованные ST можно сгруппировать как другие ST.
Используйте аналогичный код для вариантов cgMLST. Используйте вложенный подход для вычисления доли каждой линии ST в каждой подгруппе BAPS1 для идентификации ST, принадлежащих к одной и той же подгруппе BAPS1. Код иллюстрирует, как пропорция на основе ST может быть рассчитана в подгруппах BAPS1.
Чтобы построить график распределения устойчивости к противомикробным препаратам или локусов УПП по линиям ST, используйте эмпирический или статистический порог для фильтрации наиболее важных локусов УПП для облегчения визуализации. Предоставьте сырой. csv-файл, содержащий рассчитанные пропорции всех локусов AMR по всем линиям ST.
Затем рассчитайте пропорцию AMR для каждого ST с помощью кода. После выполнения вычислений для всех ПАКЕТОВ данных объедините наборы данных в один фрейм данных с помощью кода, а затем экспортируйте CSV-файл, содержащий вычисляемые пропорции с кодом. Перед построением распределения на основе AMR по линиям ST отфильтруйте данные на основе порогового значения, чтобы упростить визуализацию.
Затем постройте график филогении основного генома вместе с иерархическими генотипическими классификациями в данных AMR на одном участке с использованием дерева Джиджи. Затем оптимизируйте размер фигуры внутри дерева Gigi, используя параметры, упомянутые ранее. Оптимизируйте визуализации, агрегируя переменные или используя двоичную классификацию, такую как наличие или отсутствие генов.
Рассмотрена иерархическая популяционная структура линии Salmonella enterica в контексте филогении основного генома. Относительные частоты всех иерархических генотипов затем использовались для оценки общего распределения и наиболее часто наблюдаемых классификаций. Менее частые линии ST были агрегированы как другие ST для облегчения визуализации данных.
Аналогичным образом, менее частые варианты cgMLST были агрегированы, как и другие cgMLST. Наследственные отношения между ST были изучены с использованием вложенного подхода путем оценки относительной частоты линий ST по подгруппам или гаплотипам BAPS1. Относительная частота линии ST, дифференцирующей локусы УПП, оценивалась для выявления уникальных вспомогательных геномных сигнатур, связанных со сероварной структурой популяции Ньюпорта.
В результатах локусы MDFA и AAC6IAA, по-видимому, были приобретены предками сероварной популяцией Ньюпорта, тогда как ST45, по прогнозам, будет иметь множественную лекарственную устойчивость. По сравнению с ST45, другие основные линии ST, такие как ST5 и ST118, с большей вероятностью будут восприимчивы к нескольким препаратам. Кроме того, для систематической интеграции данных иерархической структуры популяции использовалась филогенная визуализация.
Этот аналитический протокол представляет собой основу для интеллектуального анализа данных бактериальных популяций в масштабе. Он позволяет картировать и отслеживать генотипы в масштабе с помощью ProkEvo, но он также может быть расширен, чтобы ответить на другие вопросы, такие как изучение распределения метаболических путей и факторов вирулентности, связанных с генотипической информацией. То есть мы можем предсказать фенотипы, которые связаны с конкретными генотипами, представляющими интерес.
Протокол, описанный здесь, определенно прокладывает путь для исследователей для изучения новых вопросов в области популяционной геномики и вывода эволюционных и экологических моделей для патогенных, а также непатогенных видов бактерий.