Добро пожаловать в протокол высокопроизводительного анализа транскриптома для исследования взаимодействий хозяин-патоген. Этот протокол разделен на следующие шаги. Контроль качества для фильтрации низкокачественных считываний, а также для удаления последовательностей адаптера Секвенирование и аннотации, где вы должны сопоставить чтения в эталонные геномы и аннотировать считывания в гены.
Статистический и коэкспрессионный анализ, который определяет дифференциально экспрессируемые гены, а также находит модули коэкспрессии. Анализ молекулярной степени возмущения для поиска потенциальных образцов выброса. И, наконец, функциональный анализ для определения биологических функций дифференциально экспрессированных генов.
Все инструменты, использующие эти конвейеры, были предварительно установлены в системе Linux и инкапсулированы в контейнер Docker. Образцы, использующие эти протоколы, получены из статьи, опубликованной нашей группой в PLOS Pathogen. Образцы включают 20 здоровых людей и 39 пациентов, инфицированных вирусом чикунгунья.
Были собраны образцы крови и проведено секвенирование РНК. Чтобы установить Docker в системе Windows, необходимо выполнить следующие действия. Перейдите на официальную веб-страницу Docker и нажмите кнопку Начало работы.
Найдите установщик Docker Desktop для Windows. Загрузите файл. Установите локально на компьютере.
Убедитесь, что эти два параметра отмечены. После установки программы загружается образ Docker для этого протокола. Перейдите в терминал Windows.
Выполните команды для загрузки образа. После загрузки образа вы можете увидеть файл на рабочем столе Docker, и из этого образа мы можем инициировать контейнер. После нажатия круглой кнопки необходимо развернуть исходные параметры и параметры, чтобы определить имя контейнера и связать папку на локальном компьютере с папкой внутри Docker.
После этого щелкните Выполнить, чтобы запустить контейнер. Затем вы можете получить доступ к терминалу, который находится в системе Linux внутри Docker. Введите команды bash, после чего можно будет выполнить все команды этого протокола.
Во-первых, мы должны выполнить исходный код, чтобы сделать все инструменты этого протокола доступными. Вы должны получить доступ к сценариям каталога. Чтобы выполнить транскриптомный анализ, вы должны сначала загрузить эталонный геном.
Для этого необходимо выполнить следующие команды. После загрузки генома вы должны загрузить аннотацию генов. Для этого необходимо ввести следующие команды.
Далее вам предстоит настроить fastq-дамп. Это позволяет загружать файлы виртуализации примеров. После ввода следующих команд необходимо использовать кнопку Tab, чтобы перейти к опции Сервис и пометить каталог текущих параметров.
Используйте кнопки Tab для сохранения, а затем ОК. А затем выйдите из инструмента fastq-dump. Теперь мы можем инициировать загрузку чтения, введя следующие команды.
Контроль качества состоит и оценивает графически вероятность ошибок в последовательности чтения. На этом шаге также необходимо удалить технические последовательности, такие как адаптеры. Чтобы сгенерировать графики контроля качества, необходимо запустить программу FastQC.
Чтобы удалить последовательности адаптера и последовательности низкого качества, необходимо ввести следующие команды. С хорошим качеством чтения мы должны теперь сопоставить чтения в эталонном геноме. После картирования нам придется аннотировать гены в соответствии с человеческими генами, а затем подсчитать количество считываний, которые соответствуют каждому человеческому гену.
Первым шагом является индексация эталонного генома путем ввода следующей команды. Затем мы вводим эту команду, чтобы сопоставить показания в геноме человека. Затем следует запустить сценарии, которые аннотируют чтение.
После картирования и аннотации можно выполнить дифференциальный экспресс-анализ, который заключается в нахождении генов, экспрессия которых выше или ниже в одной группе по сравнению с другой. Чтобы идентифицировать дифференциально экспрессированные гены, или DEG, необходимо выполнить следующие команды. После этого можно перенести результаты обработки данных из Docker на локальный компьютер.
Для этого зайдите в терминал и введите следующие команды, чтобы сохранить все результаты в локальную папку. Для выполнения оставшегося анализа необходимо также скопировать все файлы данных каталога в каталог на локальном компьютере. На локальном компьютере вы сможете увидеть каталоги, в которых вы сохранили данные из Docker.
Как видите, вы можете получить доступ ко всем библиотекам. Можно также открыть HTML-файл, содержащий отчеты о контроле качества. Вы также можете получить доступ к каталогу, содержащему дифференциально экспрессированные гены.
И внутри этого каталога вы найдете графики вулканов, где вы можете увидеть гены, которые регулируются вверх или вниз в одной группе по сравнению с другой, в данном случае пациенты, инфицированные вирусом чикунгуньи, по сравнению со здоровыми контрольными группами. Все остальные шаги этого протокола будут выполняться в веб-инструментах с помощью вашего браузера. Давайте начнем с CEMiTool.
Зайдите в браузер и введите следующий адрес. CEMiTool идентифицирует модули совместного выражения из наборов данных выражений, предоставляемых пользователями. На главной странице можно зайти в меню и нажать на кнопку Выполнить.
Откроется новая страница, на которую можно загрузить файл выражения. Этот файл находится в каталоге локального компьютера. Вы увидите, что есть три файла выражений, и тот, который мы собираемся использовать для CEMiTool, является вызовом нормализации tmm.
Затем вы должны выбрать файл фенодат, то же самое для файла, содержащего белково-белковые взаимодействия, и, наконец, загрузить файл, содержащий наборы генов или пути. Файл наборов генов позволяет CEMiTool выполнять анализ обогащения для каждого модуля коэкспрессии. Далее необходимо развернуть раздел параметров и щелкнуть в поле Применить VST.
После этого вы можете просто нажать Запустить CEMiTool. После запуска CEMiTool вы увидите, что было идентифицировано 12 модулей совместного выражения. Нажав здесь, вы можете скачать все результаты этого анализа.
Другим инструментом, который мы собираемся использовать в этом протоколе, является MDP, или молекулярная степень возмущения. Просто введите в браузере mdp.sysbio.tools. MDP вычисляет молекулярное расстояние каждого образца по сравнению с референтной группой образцов, в данном случае здоровыми контрольными группами, чтобы найти не только потенциальные выбросы, но и то, насколько возмущены каждый образец по сравнению с этой группой.
На странице Выполнить можно просто загрузить файл выражения, нажав кнопку и выбрав файл. Затем вы должны загрузить файл phenodata. Затем необходимо определить, какой столбец содержит сведения о группе или классе, а затем какой класс или группа соответствуют контрольной группе.
После этого вы можете просто запустить MDP. Гистограмма показывает для каждого из образцов в виде бара оценку молекулярной степени возмущения, а цвета представляют различные группы. И прямоугольный график - это еще один способ визуализации тех же результатов, где вы видите на каждой точке разные образцы, разделенные двумя группами.
Для выполнения функционального анализа мы будем использовать инструмент Enrichr. Для этого вы должны выбрать список генов, которые были дифференциально экспрессированы, либо вверх, либо вниз, и использовать его в качестве входного списка генов в инструменте Enrichr. Вы увидите, что есть разные вкладки.
Все результаты также можно загрузить на локальный компьютер. Компьютерная среда для анализа транскриптома была размещена на платформе Docker. Такой подход позволяет пользователям, не имеющим опыта работы с системой Linux, использовать терминал.
В этом контейнере есть предопределенная структура папок для набора данных и скриптов, которые необходимы для всего анализа. В процессе разработки пользователи будут использовать данные транскриптома крови от 20 здоровых людей и 39 пациентов, остро инфицированных вирусом чикунгуньи. Платформа секвенирования возвращает набор файлов FASTQ, содержащих последовательность ДНК, т.е.
показания и связанное с ними качество для каждого нуклеотидного основания. Шкала качества Phred указывает на вероятность неправильного считывания для каждой базы. Инструменты выявляют и удаляют некачественные считываемые данные из образцов и повышают вероятность сопоставления считываний.
На этом этапе модуль картирования, восстановленные высококачественные считывания используются в качестве входных данных для выравнивания их с эталонным геномом человека. CEMiTool идентифицирует и анализирует модули совместного выражения. Гены в одном модуле совместно экспрессируются, что означает, что они демонстрируют сходные паттерны экспрессии в выборках наборов данных.
Сетевой анализ предоставляет информацию о наиболее связанных генах, т.е. хабах. Названия этих генов показаны в сети.
Размер узлов пропорционален степени его связности. Результаты, полученные в результате анализа DEG, были обобщены на участках вулканов. Анализ молекулярной степени возмущения позволяет идентифицировать возмущенные образцы от здоровых и инфицированных людей.
MDP предполагает, какие образцы являются потенциальными биологическими выбросами. Удаление этих образцов повлияет на последующие результаты. Анализ функционального обогащения с использованием AURA может быть выполнен с помощью инструмента Enrichr.
Эти шаги помогают интерпретировать результаты, выявляя общие функциональные роли нескольких генов, которые были дифференциально экспрессированы. Биологический процесс, показанный на гистограммах, представляет собой топ-10 обогащенных наборов генов, основанных на их рейтинге p-значения. В заключение, эти протоколы охватывают все этапы анализа RNA-Seq.
Трубопровод был разработан и инкапсулирован в некоммерческую систему под названием Docker. На изображении и сделано доступным для научного сообщества. Из-за контейнерной системы все скрипты и инструменты находятся под одной и той же конкретной версией, чтобы гарантировать воспроизводимость.
Кроме того, часть анализа биоинформатики была выполнена с помощью бесплатных удобных веб-инструментов.