Три метода дифференциального экспрессионного анализа для секвенирования РНК: limma, EdgeR и DESeq2. Откройте программу RStudio и загрузите файл R, DEGs. Файл может быть получен из дополнительных файлов. Один.
Загрузка и предварительная обработка данных.1.1. Загрузите высокопроизводительный секвенирование данных о количестве холангиокарциномы из Атласа генома рака. Эта вкладка может быть легко достигнута с помощью следующего кода.
Нажмите кнопку Выполнить, чтобы установить пакет R. Нажмите кнопку Выполнить, чтобы загрузить пакет R. Задайте рабочий каталог.
Выберите тип рака. Запустите код R из файла GDCquery, чтобы загрузить данные. Файл GDCquery можно получить из дополнительных файлов/скриптов.
После выполнения данные о количестве секвенирования РНК холангиокарциномы могут быть загружены и названы CNT, где строки представляют идентификаторы генов ансамбля, а столбцы представляют идентификаторы символов. Обратите внимание на цифры в позициях с 14 по 15 в идентификаторах символов. Цифры варьируются от 01 до 09 указывают на опухоли, а от 10 до 19 указывают на нормальные ткани.1.2.
Разговор ансамблевых идентификаторов генов к генным символам. Импортируйте файл аннотации в R в соответствии с его путем хранения. Файл аннотации можно получить из дополнительных файлов.
Запустите код R из файла gtf v22. Которые можно получить из дополнительных файлов/скриптов. Примените функцию inn" и преобразуйте идентификаторы генов ансамбля в символы генов.1.3.
Фильтрация низко экспрессированных генов. Щелкните выполнить, чтобы установить пакет edgeR"Щелкните выполнить, чтобы загрузить пакет R edgeR"Выполните после кода R, чтобы сохранить гены с количеством значений на миллион, превышая одно по крайней мере два образца. Два. Анализ дифференциальных выражений с помощью limma"Щелкните Выполнить, чтобы установить пакет R limma"Щелкните Выполнить, чтобы загрузить пакет R limma"edgeR"Выполните следующий код R для создания матрицы проектирования.
Извлечение информации о группе. Устанавливают 01" в качестве опухолевой ткани. Установите 11" как нормальную ткань.
Создайте матрицу дизайна. Создайте объект DGEList. Нормализуйте данные.
Выполните следующий код R для выполнения анализа дифференциальных выражений на основе метода limma-trend. Рассчитайте значение CPM. Нажмите кнопку Выполнить, чтобы соответствовать линейной модели для прогнозирования данных или вывода взаимосвязи между переменными.
Рассчитайте значение T, значение F и логарифмы-коэффициенты на основе байесовского. Извлеките таблицу результатов. Результаты анализа дифференциальных выражений сохраняются в res_limma", который включает в себя значение изменения log2 fold.
Средний уровень экспрессии log2 гена в эксперименте. Модифицированная статистика T, значение P, частота ложных обнаружений скорректированное значение p и логарифмическая вероятность дифференциально экспрессированных генов. Идентификация дифференциально экспрессированных генов.
Таким образом, скорректированное значение P менее 0,05 и абсолютное значение ложного изменения log, большее или равное двум, являются пороговыми значениями для скрининга дифференциально экспрессированных генов. Результаты res limma показывают, что по сравнению с нормальными тканями 1 443 гена регулируются вверх, а 1 880 генов понижаются в тканях холангиокарциномы. Выведем таблицу результатов в файл.
Нажмите кнопку Выполнить, чтобы установить пакет R ggplot2"Нажмите кнопку Выполнить, чтобы загрузить пакет R ggplot2"Запустите код R из файла вулкана, чтобы создать график вулкана, и файл вулкана можно получить из дополнительных файлов. Гены могут быть сопоставлены с различными позициями в соответствии с их изменением log2 и скорректированными значениями P. Таким образом, регулируемые дифференциально экспрессированные гены окрашены в красный цвет.
а понижаемые дифференциально экспрессированные гены окрашены в зеленый цвет. Нажмите «Экспорт», чтобы сохранить график вулкана. Три. Анализ дифференциальных выражений с помощью edgeR"Щелкните Выполнить для загрузки пакета R edgeR"Выполните следующий код R для создания матрицы проектирования.
Нажмите кнопку Выполнить, чтобы создать объект DGEList и нормализовать данные. Нажмите кнопку Выполнить, чтобы оценить дисперсию значения экспрессии генов. Нажмите кнопку Выполнить, чтобы подогнать модель для подсчета данных.
Проведите статистический тест. Извлеките таблицу результатов. Результат сохраняется в res edgeR", который включает в себя значение изменения сгиба журнала, logCPM, F, p значение и скорректированное p значение ложной частоты обнаружения.
Идентификация дифференциально экспрессированных генов. Результат res edgeR" показывает, что по сравнению с нормальными тканями 3 121 ген регулируется вверх, а 1 578 генов - понижением в тканях холангиокарциномы. Выведем таблицу результатов в файл.
Создайте сюжет вулкана. Нажмите «Экспорт», чтобы сохранить график вулкана. Четыре. Дифференциальный анализ выражений с помощью DESeq2.
Нажмите кнопку Выполнить, чтобы установить пакет R DESeq2"Щелкните Выполнить, чтобы загрузить пакет R DESeq2"Выполните следующий код R, чтобы определить коэффициент нащупывания. Создайте объект набора данных DESeq2. Выполняйте анализ.
Создайте таблицу результатов. Результат сохраняется в res DESeq2, который включает в себя среднее значение нормализованного количества считываний, значение изменения сгиба журнала, стандартную стрелку изменения сгиба журнала, статистику сварки, исходное значение P и исправленное значение P. Идентификация DEG.
Результат res DESeq2 показывает, что по сравнению с нормальными тканями две тысячи девятьсот тридцать восемь генов регулируются вверх, а одна тысяча шестьсот шестнадцать генов понижаются в тканях холангиокарциномы. Выведем таблицу результатов в файл. Создайте сюжет вулкана.
Нажмите «Экспорт», чтобы сохранить график вулкана. Пять. Диаграмма Венна. Нажмите кнопку Выполнить, чтобы установить диаграмму venn пакета R.
Нажмите кнопку Выполнить, чтобы загрузить диаграмму venn пакета R. Составьте диаграмму Венна из регулируемых дифференциально экспрессированных генов. Нажмите кнопку «Экспорт», чтобы сохранить диаграмму фургона, сделайте диаграмму Венна из дифференциально экспрессированных генов.
Нажмите кнопку Экспорт, чтобы сохранить диаграмму Venn. Шесть. Репрезентативные результаты. На первом рисунке показаны вулканические графики всех генов, приобретенных limma, edgeR и DESeq2.
Отрицательное значение log p отображается на основе изменения сгиба журнала. Красные точки представляют регулируемые дифференциально экспрессированные гены, а зеленые точки представляют пониженно регулируемые дифференциально экспрессированные гены. Лимма идентифицирует тысячу восемьсот восемьдесят понижаемо регулируемых дифференциально экспрессированных генов и тысячу четыреста сорок три повырегулируемых дифференциально экспрессированных гена в тканях холангиокарциномы.
EdgeR идентифицирует тысячу пятьсот семьдесят восемь пониженно регулируемых дифференциально экспрессированных генов и три тысячи сто двадцать один повырегулируемый дифференциально экспрессированный ген. DESeq2 идентифицирует тысячу шестьсот шестнадцать понижаемых дифференциально экспрессированных генов и две тысячи девятьсот тридцать восемь повырегулируемых дифференциально экспрессированных генов. На рисунке два диаграммы Венна показывают перекрытие результатов, деленные на limma edgeR и DESeq2.
Сравните результаты этих трех методов: тысяча четыреста тридцать один дифференциально экспрессированный ген и тысяча пятьсот тридцать один пониженно регулируемый дифференциально экспрессированный ген перекрываются. В этом протоколе мы предоставили подробный протокол анализа различных типов измерений для высокой последовательности данных подсчета с использованием пакетов R, limma, edgeR и DESeq2. Три метода имеют схожие и штатные сотрудники в процессе их анализа.
И тогда их из этих трех лекарств частично перекрываются. Все три лекарства имеют свои преимущества. И выбор как раз зависит от времени ваших данных.
Если есть мои текущие данные, лимма должна быть дана с приоритетом, но данные секвенирования генерации в edgeR и DESeq2 предпочтительнее.