JoVE Logo

Войдите в систему

Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.

В этой статье

  • Резюме
  • Аннотация
  • Введение
  • протокол
  • Результаты
  • Обсуждение
  • Раскрытие информации
  • Благодарности
  • Материалы
  • Ссылки
  • Перепечатки и разрешения

Резюме

Протокол, представленный здесь, описывает полный конвейер для анализа данных транскриптома РНК-секвенирования от необработанных считываний до функционального анализа, включая контроль качества и этапы предварительной обработки для передовых статистических аналитических подходов.

Аннотация

Возбудители могут вызывать самые разнообразные инфекционные заболевания. Биологические процессы, индуцированные хозяином в ответ на инфекцию, определяют тяжесть заболевания. Для изучения таких процессов исследователи могут использовать высокопроизводительные методы секвенирования (RNA-seq), которые измеряют динамические изменения транскриптома хозяина на разных стадиях инфекции, клинических исходах или тяжести заболевания. Это исследование может привести к лучшему пониманию заболеваний, а также к выявлению потенциальных лекарственных мишеней и методов лечения. Протокол, представленный здесь, описывает полный конвейер для анализа данных секвенирования РНК от необработанных считываний до функционального анализа. Конвейер разделен на пять этапов: (1) контроль качества данных; (2) картирование и аннотация генов; (3) статистический анализ для выявления дифференциально экспрессированных генов и коэкспрессированных генов; 4) определение молекулярной степени возмущения образцов; и 5) функциональный анализ. Шаг 1 удаляет технические артефакты, которые могут повлиять на качество последующего анализа. На этапе 2 гены отображаются и аннотируются в соответствии со стандартными библиотечными протоколами. Статистический анализ на этапе 3 идентифицирует гены, которые дифференциально экспрессируются или совместно экспрессируются в инфицированных образцах, по сравнению с неинфицированными. Изменчивость образца и наличие потенциальных биологических выбросов проверяются с использованием подхода, основанного на молекулярной степени возмущения на этапе 4. Наконец, функциональный анализ на шаге 5 выявляет пути, связанные с фенотипом заболевания. Представленный конвейер направлен на поддержку исследователей посредством анализа данных RNA-seq из исследований взаимодействия хозяина с патогеном и проведение будущих экспериментов in vitro или in vivo , которые необходимы для понимания молекулярного механизма инфекций.

Введение

Арбовирусы, такие как лихорадка денге, желтая лихорадка, чикунгунья и зика, были широко связаны с несколькими эндемическими вспышками и стали одним из основных патогенов, ответственных за заражение людей в последние десятилетия1,2. Лица, инфицированные вирусом чикунгуньи (CHIKV), часто имеют лихорадку, головную боль, сыпь, полиартралгию и артрит3,4,5. Вирусы могут подрывать экспрессию генов клетки и влиять на различные сигнальные пути хозяина. Недавно в исследованиях транскриптома крови использовался RNA-seq для идентификации дифференциально экспрессированных генов (DEG), связанных с острой инфекцией CHIKV, по сравнению с реконвалесценцией6 или здоровыми контрольными группами7. Дети, инфицированные CHIKV, имели повышенные регулируемые гены, которые участвуют во врожденном иммунитете, такие как те, которые связаны с клеточными датчиками вирусной РНК, сигнализацией JAK / STAT и сигнальными путями toll-подобных рецепторов6. Взрослые, остро инфицированные CHIKV, также показали индукцию генов, связанных с врожденным иммунитетом, таких как гены, связанные с моноцитами и активацией дендритных клеток, а также с противовирусными реакциями7. Сигнальные пути, обогащенные низкорегулируемыми генами, включали те, которые связаны с адаптивным иммунитетом, такие как активация Т-клеток, дифференцировка и обогащение в Т- и В-клетках7.

Несколько методов могут быть использованы для анализа транскриптомных данных генов хозяина и патогена. Часто подготовка библиотеки RNA-seq начинается с обогащения зрелыми поли-А транскриптами. Этот шаг удаляет большую часть рибосомной РНК (рРНК) и в некоторых случаях вирусные / бактериальные РНК. Однако, когда биологический вопрос связан с обнаружением транскрипта патогена и РНК секвенируются независимо от предыдущего отбора, многие другие различные транскрипты могут быть обнаружены путем секвенирования. Например, было показано, что субгеномные мРНК являются важным фактором для проверки тяжести заболеваний8. Кроме того, для некоторых вирусов, таких как CHIKV и SARS-CoV-2, даже библиотеки, обогащенные поли-А, генерируют вирусные считывания, которые могут быть использованы в последующих анализах9,10. Сосредоточившись на анализе транскриптома хозяина, исследователи могут исследовать биологическое возмущение в образцах, идентифицировать дифференциально экспрессированные гены и обогащенные пути, а также генерировать модули коэкспрессии7,11,12. Этот протокол выделяет анализ транскриптома пациентов, инфицированных CHIKV, и здоровых людей с использованием различных биоинформационных подходов (рисунок 1A). Данные ранее опубликованного исследования7, состоящего из 20 здоровых и 39 остро инфицированных лиц CHIKV, были использованы для получения репрезентативных результатов.

протокол

Образцы, используемые в этом протоколе, были одобрены комитетами по этике как из Департамента микробиологии Института биомедицинских наук Университета Сан-Паулу, так и из Федерального университета Сержипи (Протоколы: 54937216.5.0000.5467 и 54835916.2.0000.5546, соответственно).

1. Установка Docker на настольный компьютер

ПРИМЕЧАНИЕ: Шаги по подготовке среды Docker различаются в зависимости от операционных систем (ОС). Поэтому пользователи Mac должны выполнять действия, перечисленные как 1.1, пользователи Linux должны следовать шагам, перечисленным как 1.2, а пользователи Windows должны следовать шагам, перечисленным как 1.3.

  1. Установка на MacOS.
    1. Зайдите на веб-сайт Get Docker (Таблица материалов), щелкните Docker Desktop для Mac , а затем щелкните ссылку Загрузить из Docker Hub .
    2. Загрузите установочный файл, нажав кнопку Get Docker .
    3. Запустите файл Docker.dmg, чтобы открыть установщик, а затем перетащите значок в папку «Программы ». Локализуйте и выполняйте Docker.app в папке «Программы», чтобы запустить программу.
      ПРИМЕЧАНИЕ: Меню конкретного программного обеспечения в верхней строке состояния указывает, что программное обеспечение запущено и что оно доступно из терминала.
  2. Установите программу-контейнер в ОС Linux.
    1. Зайдите на веб-сайт Get Docker Linux (Таблица материалов) и следуйте инструкциям по установке с помощью раздела репозитория, доступного по ссылке Docker Linux Repository .
    2. Обновите все пакеты Linux с помощью командной строки:
      sudo apt-get update
    3. Установите необходимые пакеты в Docker:
      sudo apt-get install apt-transport-https ca-certificates curl gnupg lsb-release
    4. Создайте файл связки ключей архива программного обеспечения:
      curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
    5. Добавьте информацию Docker deb в файл source.list:
      echo "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) стабильный" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
    6. Обновите все пакеты еще раз, включая недавно добавленные:
      sudo apt-get update
    7. Установите настольную версию:
      sudo apt-get install docker-ce docker-ce-cli containerd.io
    8. Выберите географическую область и часовой пояс, чтобы завершить процесс установки.
  3. Установите программу-контейнер в ОС Windows.
    1. Зайдите на веб-сайт Get Docker (Таблица материалов) и нажмите «Начать». Найдите установщик docker Desktop для Windows. Загрузите файлы и установите их локально на компьютер.
    2. После загрузки запустите установочный файл (.exe) и сохраните параметры по умолчанию. Убедитесь, что отмечены два параметра Установить необходимые компоненты Windows для WSL 2 и Добавить ярлык на рабочий стол .
      ПРИМЕЧАНИЕ: В некоторых случаях, когда это программное обеспечение пытается запустить службу, оно показывает ошибку: установка WSL не завершена. Чтобы выяснить эту ошибку, зайдите на сайт WSL2-Kernel (Таблица материалов).
    3. Загрузите и установите последнюю версию ядра WSL2 Linux.
    4. Откройте терминал PowerShell от имени администратора и выполните команду:
      dism.exe /online /enable-feature /имя_компонента:Microsoft-Windows-Subsystem-Linux /all /norestart
    5. Убедитесь, что программное обеспечение Docker Desktop установлено успешно.
  4. Загрузите образ из репозитория CSBL в docker hub (Таблица материалов).
    1. Откройте Рабочий стол Docker и убедитесь, что состояние "запущено" в левом нижнем углу панели инструментов.
    2. Перейдите в командную строку терминала Windows PowerShell. Загрузите образ контейнера Linux для этого протокола из репозитория CSBL в концентраторе Docker. Чтобы загрузить образ, выполните следующую команду:
      docker pull csblusp/transcriptome
      ПРИМЕЧАНИЕ: После загрузки образа файл можно увидеть на рабочем столе Docker. Чтобы создать контейнер, пользователи Windows должны выполнить шаг 1.5, а пользователи Linux — шаг 1.6.
  5. Инициализируйте контейнер сервера в ОС Windows.
    1. Просмотрите файл образа Docker в диспетчере классических приложений на панели инструментов и перейдите на страницу Изображения.
      ПРИМЕЧАНИЕ: Если образ конвейера был успешно загружен, будет доступно изображение csblusp/transcriptome.
    2. Инициируйте контейнер из изображения csblusp/transcriptome, нажав кнопку Выполнить . Разверните узел Дополнительные параметры , чтобы настроить контейнер.
    3. Определите имя контейнера (например, сервера).
    4. Свяжите папку на локальном компьютере с папкой внутри docker. Для этого определите путь узла. Установите папку на локальном компьютере для хранения обработанных данных, которые будут загружены в конце. Задайте путь к контейнеру. Определите и свяжите папку контейнера csblusp/transcriptome с локальным путем к компьютеру (используйте имя "/opt/transferdata" для пути к контейнеру).
    5. После этого нажмите кнопку Выполнить , чтобы создать контейнер csblusp/transcriptome.
    6. Чтобы получить доступ к терминалу Linux из контейнера csblusp/transcriptome, нажмите кнопку CLI.
    7. Введите в терминал bash, чтобы получить лучший опыт. Для этого выполните команду:
      бить
    8. После выполнения команды bash убедитесь, что терминал отображает (root@:/#):
      root@ac12c583b731:/ #
  6. Инициализируйте серверный контейнер для ОС Linux.
    1. Выполните следующую команду, чтобы создать контейнер Docker на основе образа:
      docker run -d -it --rm --name server -v <Путь к узлу>:/opt/transferdata csblusp/transcriptome
      ПРИМЕЧАНИЕ: <путь хоста>: определите путь к локальной папке.
    2. Выполните следующую команду для доступа к командному терминалу контейнера Docker:
      docker exec -it сервер bash
    3. Обеспечьте доступность терминала Linux для выполнения любых программ/скриптов с помощью командной строки.
    4. После выполнения команды bash убедитесь, что терминал отображает (root@:/#):
      root@ac12c583b731:/ #
      ПРИМЕЧАНИЕ: Пароль root по умолчанию "transcriptome". При желании пароль root можно изменить, выполнив команду:
      пассвд
    5. Во-первых, выполните команду source, чтобы addpath.sh, чтобы убедиться, что все инструменты доступны. Выполните команду:
      source /opt/addpath.sh
  7. Проверьте структуру папки секвенирования РНК.
    1. Получите доступ к папке сценариев конвейера транскриптома и убедитесь, что все данные секвенирования РНК хранятся в папке: /home/transcriptome-pipeline/data.
    2. Убедитесь, что все результаты, полученные в результате анализа, хранятся в папке path /home/transcriptome-pipeline/results.
    3. Убедитесь, что файлы ссылок на геном и аннотации хранятся в папке path /home/transcriptome-pipeline/datasets. Эти файлы помогут поддерживать весь анализ.
    4. Убедитесь, что все скрипты хранятся в папке пути /home/transcriptome-pipeline/scripts и разделены каждым шагом, как описано ниже.
  8. Скачать аннотацию и геном человека.
    1. Откройте папку scripts:
      cd /home/transcriptome-конвейер/скрипты
    2. Выполните следующую команду, чтобы загрузить эталонный геном человека:
      Баш downloadGenome.sh
    3. Чтобы загрузить аннотацию, выполните команду:
      Баш downloadAnnotation.sh
  9. Измените аннотацию или версию эталонного генома.
    1. Откройте downloadAnnotation.sh и downloadGenome.sh, чтобы изменить URL-адрес каждого файла.
    2. Скопируйте файлы downloadAnnotation.sh и downloadGenome.sh в область передачи и отредактируйте в локальной ОС.
      cd /home/transcriptome-конвейер/скрипты
      cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
    3. Откройте папку Host Path , которая выбрана для связи между хостом и контейнером Docker на шаге 1.5.4.
    4. Отредактируйте файлы с помощью предпочтительного программного обеспечения редактора и сохраните. Наконец, поместите измененные файлы в папку сценария. Выполните команду:
      cd /opt/transferdata
      cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/scripts

      ПРИМЕЧАНИЕ: Эти файлы могут быть отредактированы непосредственно с помощью редактора vim или nano Linux.
  10. Затем настройте средство fastq-dump с помощью командной строки:
    vdb-config --interactive
    ПРИМЕЧАНИЕ: Это позволяет загружать файлы виртуализации из данных примера.
    1. Перейдите на страницу Сервис с помощью клавиши tab и выберите параметр текущей папки. Перейдите к опции Сохранить и нажмите OK. Затем выйдите из инструмента fastq-dump.
  11. Инициируйте загрузку прочитанных материалов из ранее опубликованного документа7. Требуется номер присоединения SRA каждого образца. Получите номера SRA на веб-сайте SRA NCBI (Таблица материалов).
    ПРИМЕЧАНИЕ: Для анализа данных RNA-Seq, доступных в общедоступных базах данных, выполните шаг 1.12. Чтобы проанализировать частные данные RNA-seq, выполните шаг 1.13.
  12. Анализ конкретных общедоступных данных.
    1. Зайдите на веб-сайт Национального центра биотехнологической информации (NCBI) и найдите ключевые слова для конкретной темы.
    2. Нажмите на ссылку Результат для BioProject в разделе Геномы .
    3. Выберите и нажмите на конкретное исследование. Нажмите на Эксперименты SRA. Откроется новая страница, на которой показаны все образцы, доступные для этого исследования.
    4. Нажмите на кнопку "Отправить в:" над номером присоединения. В опции "Выбрать место назначения" выберите опцию Файл и формат , выберите RunInfo. Нажмите «Создать файл», чтобы экспортировать всю информацию о библиотеке.
    5. Сохраните файл SraRunInfo.csv в пути к хосту, определенном на шаге 1.5.4, и выполните скрипт загрузки:
      cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
      cd /home/transcriptome-конвейер/скрипты
      Баш downloadAllLibraries.sh
  13. Анализ частных и неопубликованных данных виртуализации.
    1. Организуйте данные виртуализации в папке с именем Reads.
      ПРИМЕЧАНИЕ: Внутри папки Reads создайте по одной папке для каждого образца. Эти папки должны иметь одинаковые имена для каждого примера. Добавьте данные каждого образца в его каталог. В случае, если это парный конец RNA-Seq, каждый каталог образца должен содержать два файла FASTQ, которые должны представлять имена, оканчивающиеся в соответствии с шаблонами {sample}_1.fastq.gz и {sample}_2.fastq.gz, прямой и обратной последовательности соответственно. Например, образец с именем "Healthy_control" должен иметь каталог с тем же именем, а файлы FASTQ с именем Healthy_control_1.fastq.gz и Healthy_control_2.fastq.gz. Тем не менее, если виртуализация библиотеки является односторонней стратегией, для последующего анализа должен быть сохранен только один файл чтения. Например, тот же пример, "Healthy control", должен иметь уникальный файл FASTQ с именем Healthy_control.fastq.gz.
    2. Создайте фенотипический файл, содержащий все имена образцов: назовите первый столбец 'Sample', а второй столбец – 'Class'. Заполните столбец Sample именами образцов, которые должны совпадать с именами каталогов образцов, и заполните столбец Class фенотипической группой каждого образца (например, контрольного или зараженного). Наконец, сохраните файл с именем "metadata.tsv" и отправьте его в каталог /home/transcriptome-pipeline/data/. Проверьте существующий metadata.tsv, чтобы понять формат фенотипического файла.
      cp /opt/transferdata/metadata.tsv
      /home/transcriptome-pipeline/data/metadata.tsv
    3. Откройте каталог Host Path , определенный на шаге 1.5.4, и скопируйте новые примеры структурированных каталогов. Наконец, переместите образцы из /opt/transferdata в каталог данных конвейера.
      cp -rf /opt/transferdata/reads/*
      /home/транскриптом-конвейер/данные/чтения/
  14. Обратите внимание, что все операции чтения хранятся в папке /home/transcriptome-pipeline/data/reads.

2. Контроль качества данных

ПРИМЕЧАНИЕ: Оцените графически вероятность ошибок в последовательности чтения. Удалите все технические последовательности, например, адаптеры.

  1. Получите доступ к качеству виртуализации библиотек с помощью инструмента FastQC.
    1. Чтобы сгенерировать графики качества, запустите программу fastqc. Выполните команду:
      Баш FastQC.sh
      ПРИМЕЧАНИЕ: Результаты будут сохранены в папке /home/transcriptome-pipeline/results/FastQC. Поскольку адаптеры последовательностей используются для подготовки библиотеки и секвенирования, в некоторых случаях фрагменты последовательности адаптеров могут мешать процессу сопоставления.
  2. Удалите последовательность адаптера и некачественное чтение. Откройте папку Scripts и выполните команду для инструмента Trimmomatic:
    cd /home/transcriptome-конвейер/скрипты
    Баш trimmomatic.sh

    ПРИМЕЧАНИЕ: Параметры, используемые для фильтра секвенирования: Удалить лид низкого качества или 3 основания (ниже качества 3) (LEADING:3); Удалить замыкание низкого качества или 3 основания (ниже качества 3) (TRAILING:3); Сканируйте чтение с помощью скользящего окна шириной в 4 основания, разрезая, когда среднее качество на базу падает ниже 20 (SLIDINGWINDOW: 4: 20); и Drop читает ниже 36 оснований длиной (MINLEN:36). Эти параметры могут быть изменены путем редактирования файла скрипта Trimmomatic.
    1. Убедитесь, что результаты сохранены в следующей папке: /home/transcriptome-pipeline/results/trimreads. Выполните команду:
      ls /home/transcriptome-pipeline/results/trimreads

3. Отображение и аннотация образцов

ПРИМЕЧАНИЕ: После получения показаний хорошего качества их необходимо сопоставить с эталонным геномом. На этом шаге для сопоставления примеров примеров использовался средство сопоставления STAR. Инструмент star mapper требует 32 ГБ оперативной памяти для загрузки и выполнения чтения и картирования генома. Для пользователей, у которых нет 32 ГБ оперативной памяти, можно использовать уже сопоставленные чтения. В таких случаях перейдите к шагу 3.3 или используйте mapper Bowtie2. В этом разделе есть скрипты для STAR (результаты показаны на всех рисунках) и Bowtie2 (требуется мало памяти).

  1. Сначала индексируйте эталонный геном для процесса картирования:
    1. Откройте папку Scripts с помощью командной строки:
      cd /home/transcriptome-конвейер/скрипты
    2. Для star mapper выполните:
      Баш indexGenome.sh
    3. Для картографа Bowtie выполните:
      Баш indexGenomeBowtie2.sh
  2. Выполните следующую команду, чтобы сопоставить отфильтрованные чтения (полученные из шага 2) с эталонным геномом (версия GRCh38). Картографы STAR и Bowtie2 выполняются с использованием параметров по умолчанию.
    1. Для star mapper выполните:
      Баш mapSTAR.sh
    2. Для картографа Bowtie2 выполните:
      Баш mapBowtie2.sh
      ПРИМЕЧАНИЕ: Окончательные результаты представляют собой файлы двоичной карты выравнивания (BAM) для каждого образца, хранящегося в /home/transcriptome-pipeline/results/mapreads.
  3. Аннотируйте сопоставленные чтения с помощью инструмента FeatureCounts для получения необработанных подсчетов для каждого гена. Запустите сценарии, которые аннотируют чтение.
    ПРИМЕЧАНИЕ: Инструмент FeatureCounts отвечает за назначение сопоставленных чтений секвенирования геномным признакам. Наиболее важные аспекты аннотации генома, которые могут быть изменены после биологического вопроса, включают, обнаружение изоформ, множественных сопоставленных считываний и переходов экзон-экзон, соответствующих параметрам, GTF.attrType="gene_name" для гена или не указывать параметры для уровня мета-признаков, allowMultiOverlap=TRUE и juncCounts=TRUE, соответственно.
    1. Откройте папку scripts с помощью командной строки:
      cd /home/transcriptome-конвейер/скрипты
    2. Чтобы аннотировать сопоставленные чтения для получения необработанных подсчетов на ген, выполните командную строку:
      Аннотация Rscript. R
      ПРИМЕЧАНИЕ: Для процесса аннотации использовались следующие параметры: возврат короткого имени гена (GTF.attrType="gene_name"); разрешить множественные перекрытия (allowMultiOverlap = TRUE); и укажите, что библиотека является сопряженной (isPairedEnd=TRUE). Для односторонней стратегии используйте параметр isPairedEnd=FALSE. Результаты будут сохранены в папке /home/transcriptome-pipeline/countreads.
  4. Нормализуют экспрессию генов.
    ПРИМЕЧАНИЕ: Нормализация экспрессии генов имеет важное значение для сравнения результатов между исходами (например, здоровые и инфицированные образцы). Нормализация также необходима для выполнения анализа коэкспрессии и молекулярной степени возмущения.
    1. Откройте папку Scripts с помощью командной строки:
      cd /home/transcriptome-конвейер/скрипты
    2. Нормализуют экспрессию генов. Для этого выполните командную строку:
      Rscript нормализуетвыборки. R
      ПРИМЕЧАНИЕ: Выражение raw counts в этом эксперименте было нормализовано с использованием методов Trimmed Average of M-values (TMM) и Count Per Million (CPM). Этот шаг направлен на устранение различий в экспрессии генов из-за технического влияния, путем нормализации размера библиотеки. Результаты будут сохранены в папке /home/transcriptome-pipeline/countreads.

4. Дифференциально экспрессированные гены и коэкспрессированные гены

  1. Идентификация дифференциально экспрессированных генов с помощью пакета EdgeR с открытым исходным кодом. Это включает в себя поиск генов, экспрессия которых выше или ниже по сравнению с контролем.
    1. Откройте папку Scripts с помощью командной строки:
      cd /home/transcriptome-конвейер/скрипты
    2. Чтобы идентифицировать дифференциально экспрессированный ген, выполните сценарий DEG_edgeR R с помощью командной строки:
      Rscript DEG_edgeR.R
      ПРИМЕЧАНИЕ: Результаты, содержащие дифференциально экспрессированные гены, будут сохранены в папке /home/transcriptome-pipeline/results/degs. Данные могут быть переданы на персональный компьютер.
  2. Загрузка данных из контейнера csblusp/transcriptome.
    1. Передача обработанных данных из конвейера /home/transcriptome в папку /opt/transferdata (локальный компьютер).
    2. Скопируйте все файлы на локальный компьютер, выполнив командную строку:
      cp -rf /home/transcriptome-pipeline/results /opt/transferdata/pipeline
      cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline

      ПРИМЕЧАНИЕ: Теперь перейдите на локальный компьютер, чтобы убедиться, что все результаты, наборы данных и данные доступны для загрузки в Host Path.
  3. Определите модули совместного выражения.
    1. Доступ к веб-сайту средства идентификации модулей совместного выражения (CEMiTool) (Таблица
      Материалы
      ). Это средство идентифицирует модули совместного выражения из наборов данных выражений, предоставляемых пользователями. На главной странице нажмите кнопку Выполнить в правом верхнем углу. Откроется новая страница для загрузки файла выражения.
    2. Нажмите «Выбрать файл » под разделом « Файл выражения » и загрузите нормализованную матрицу экспрессии генов «tmm_expression.tsv» из пути хоста.
      ПРИМЕЧАНИЕ: Шаг 4.4. не является обязательным.
  4. Изучите биологическое значение модулей совместной экспрессии.
    1. Щелкните Выбрать файл в разделе Образцы фенотипов и загрузите файл с образцами фенотипов metadata_cemitool.tsv из шага Загрузка данных 4.2.2. выполнить анализ обогащения набора генов (GSEA).
    2. Нажмите Выбрать файл в разделе Взаимодействия генов, чтобы загрузить файл с взаимодействиями генов (cemitool-interactions.tsv). Можно использовать файл взаимодействия генов, приведенный в качестве примера webCEMiTool. Взаимодействия могут быть белково-белковыми взаимодействиями, факторами транскрипции и их транскрибированными генами или метаболическими путями. На этом шаге создается сеть взаимодействия для каждого модуля совместного выражения.
    3. Нажмите на файл «Выбрать файл » в разделе « Наборы генов », чтобы загрузить список генов, функционально связанных в файле формата Gene Matrix Transposed (GMT). Файл Gene Set позволяет инструменту выполнять анализ обогащения для каждого модуля совместной экспрессии, то есть анализ чрезмерного представления (ORA).
      ПРИМЕЧАНИЕ: Этот список генов может охватывать пути, термины GO или гены-миРНК-мишени. Исследователь может использовать модули транскрипции крови (BTM) в качестве наборов генов для этого анализа. Файл BTM (BTM_for_GSEA.gmt).
  5. Задайте параметры для выполнения анализа соэкспрессии и получения его результатов.
    1. Затем разверните раздел Параметр , щелкнув знак плюс, чтобы отобразить параметры по умолчанию. При необходимости измените их. Установите флажок Применить VST .
    2. Напишите сообщение электронной почты в разделе Электронная почта , чтобы получать результаты по электронной почте. Этот шаг является необязательным.
    3. Нажмите кнопку Запустить CEMiTool .
    4. Загрузите полный аналитический отчет, нажав на кнопку Загрузить полный отчет в правом верхнем углу. Он загрузит сжатый файл cemitool_results.zip.
    5. Извлеките содержимое cemitool_results.zip с помощью WinRAR.
      ПРИМЕЧАНИЕ: Папка с извлеченным содержимым включает в себя несколько файлов со всеми результатами анализа и их установленными параметрами.

5. Определение молекулярной степени возмущения образцов

  1. Веб-версия молекулярной степени возмущения (MDP).
    1. Чтобы запустить MDP, зайдите на веб-сайт MDP (Таблица материалов). MDP вычисляет молекулярное расстояние каждого образца от эталона. Нажмите на кнопку Выполнить .
    2. По ссылке Выбрать файл отправьте файл выражения tmm_expression.tsv. Затем загрузите файл фенотипических данных metadata.tsv из шага Загрузка данных 4.2.2. Также можно отправить файл аннотации пути в формате GMT для расчета оценки возмущения путей, связанных с заболеванием.
    3. После отправки данных определите столбец Class, содержащий фенотипическую информацию, используемую MDP. Затем определите класс элемента управления, выбрав метку, соответствующую классу элемента управления.
      ПРИМЕЧАНИЕ: Есть некоторые необязательные параметры, которые будут влиять на то, как рассчитываются выборочные баллы. При необходимости пользователь может изменить статистику среднего метода, стандартного отклонения и верхнего процента возмущенных генов.
    4. После этого нажмите кнопку Run MDP и отобразятся результаты MDP. Пользователь может загрузить рисунки, нажав на График загрузки на каждом графике, а также оценку MDP на кнопке Загрузить файл оценки MDP .
      ПРИМЕЧАНИЕ: В случае возникновения вопросов о том, как отправить файлы или как работает MDP, просто просмотрите веб-страницы Учебник и О программе.

6. Анализ функционального обогащения

  1. Создайте один список deG с пониженным регулированием и другой список DEG с повышенным регулированием. Названия генов должны соответствовать символам генов Entrez. Каждый ген списка должен быть помещен в одну строку.
  2. Сохраните списки генов в формате txt или tsv.
  3. Зайдите на веб-сайт Enrichr (Таблица материалов) для выполнения функционального анализа.
  4. Выберите список генов, нажав на кнопку Выбрать файл. Выберите один из списков DEG и нажмите кнопку Отправить .
  5. Нажмите на Pathways в верхней части веб-страницы, чтобы выполнить анализ функционального обогащения с помощью подхода ORA.
  6. Выберите базу данных пути. База данных путей «Reactome 2016» широко используется для получения биологического значения человеческих данных.
  7. Нажмите на имя базы данных пути еще раз. Выберите гистограмму и проверьте, отсортирована ли она по ранжированию p-значения. Если нет, нажимайте на гистограмму, пока она не будет отсортирована по p-значению. Эта гистограмма включает в себя 10 лучших путей в соответствии с p-значениями.
  8. Нажмите кнопку «Конфигурация » и выберите красный цвет для анализа генов с повышенной регуляцией или синий цвет для анализа генов с пониженной регуляцией. Сохраните гистограмму в нескольких форматах, нажав на svg, png и jpg.
  9. Выберите Таблица и нажмите Экспорт записей в таблицу в левом нижнем углу гистограммы, чтобы получить результаты анализа функционального обогащения в txt-файле.
    ПРИМЕЧАНИЕ: Этот файл результатов функционального обогащения включает в себя в каждой строке название одного пути, количество перекрывающихся генов между представленным списком DEG и путем, p-значение, скорректированное p-значение, отношение шансов, комбинированный балл и генный символ генов, присутствующих в списке DEG, которые участвуют в пути.
  10. Повторите те же действия со списком других DEG.
    ПРИМЕЧАНИЕ: Анализ с пониженными регулируемыми DEG предоставляет пути, обогащенные для пониженно регулируемых генов, а анализ с повышенными регулируемыми генами предоставляет пути, обогащенные для регулируемых генов.

Результаты

Вычислительная среда для анализа транскриптома была создана и настроена на платформе Docker. Такой подход позволяет начинающим пользователям Linux использовать терминальные системы Linux без априорных управленческих знаний. Платформа Docker использует ресурсы ос хоста для создания контейнера...

Обсуждение

Подготовка библиотек секвенирования является решающим шагом на пути к наилучшим ответам на биологические вопросы. Тип транскриптов, представляющих интерес для исследования, будет определять, какой тип библиотеки секвенирования будет выбран, и стимулировать биоинформационный анализ...

Раскрытие информации

Авторам нечего раскрывать.

Благодарности

HN финансируется FAPESP (номера грантов: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 и 2013/08216-2) и CNPq (313662/2017-7).

Мы особенно благодарны следующим грантам для стипендиатов: ANAG (FAPESP Process 2019/13880-5), VEM (FAPESP Process 2019/16418-0), IMSC (FAPESP Process 2020/05284-0), APV (FAPESP Process 2019/27146-1) и RLTO (CNPq Process 134204/2019-0).

Материалы

NameCompanyCatalog NumberComments
CEMiToolComputational Systems Biology Laboratory1.12.2Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeRBioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au])3.30.3Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcanoBioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk])1.6.0Publication-ready volcano plots with enhanced colouring and labeling
FastQCBabraham Bioinformatics0.11.9Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCountsBioinformatics Division, The Walter and Eliza Hall Institute of Medical Research2.0.0Assign mapped sequencing reads to specified genomic features
MDPComputational Systems Biology Laboratory1.8.0Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
RR Core Group4.0.3Programming language and free software environment for statistical computing and graphics
STARBioinformatics Division, The Walter and Eliza Hall Institute of Medical Research2.7.6aAligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2Johns Hopkins University2.4.2Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
TrimmomaticTHE USADEL LAB0.39Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get DockerDocker20.10.2Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-KernelWindowsNAhttps://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker LinuxDockerNAhttps://docs.docker.com/engine/install/ubuntu/
Docker Linux RepositoryDockerNAhttps://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP WebsiteComputational Systems Biology LaboratoryNAhttps://mdp.sysbio.tools
Enrichr WebsiteMaayanLabNAhttps://maayanlab.cloud/Enrichr/
webCEMiToolComputational Systems Biology LaboratoryNAhttps://cemitool.sysbio.tools/
gProfilerBioinformatics, Algorithmics and Data Mining GroupNAhttps://biit.cs.ut.ee/gprofiler/gost
goseqBioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk])NAhttp://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI studyNCBINAhttps://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

Ссылки

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -. C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Перепечатки и разрешения

Запросить разрешение на использование текста или рисунков этого JoVE статьи

Запросить разрешение

Смотреть дополнительные статьи

181

This article has been published

Video Coming Soon

JoVE Logo

Исследования

Образование

О JoVE

Авторские права © 2025 MyJoVE Corporation. Все права защищены