Этот протокол обеспечивает всестороннее понимание изоформ генов, генерируемых альтернативным сплайсингом и полиаденилированием, предоставляя пошаговый рабочий процесс для идентификации дифференциальных сайтов сплайсинга, дифференциально экспрессированных экзонов и поли(А)сайтов. Основным преимуществом этого протокола является то, что он оценивает как экзонные, так и событийные методы изучения альтернативного сплайсинга. Он также применяет метод на основе экзонов для изучения альтернативного полиаденилирования.
Были предоставлены файлы R Markdown, содержащие коды и примечания для анализа AS и AP. Было бы целесообразно следовать шагам в файле R Markdown и тщательно добираться до примечания к каждому шагу. Чтобы определить дифференциальное сращивание с помощью diffSplice от limma, следуйте файлу записной книжки R.
Подготовьте входные файлы, как описано в текстовой рукописи. Убедитесь, что шаги с первого по третий в рукописи были выполнены последовательно для подготовки входных файлов, прежде чем продолжить работу. Начните с загрузки необходимых библиотек.
Чтобы выполнить неспецифическую фильтрацию, сначала извлеките матрицу счетчиков чтения, полученную ранее, и создайте список объектов с помощью функции DGEList из пакета edgeR, где строки представляют гены, а столбцы представляют образцы. Затем преобразуйте данные из необработанного масштаба в счетчики на миллион с помощью функции CPM из пакета edgeR и сохраните экзоны с количеством, превышающим заданное пороговое значение. Этот набор данных содержит шесть образцов.
Следовательно, CPM устанавливается на более чем один и, по крайней мере, три образца из шести. Нормализуйте счетчики между выборками с помощью функции calcNormFactors из пакета edgeR, используя усеченное среднее значение значений M. Эта функция вычисляет коэффициенты масштабирования для настройки размеров библиотек.
Используйте ранее созданную таблицу образцов для создания матрицы проектирования для определения экспериментальных условий для каждого образца. Запустите функцию voom пакета limma для обработки данных секвенирования РНК для оценки дисперсии. Эта функция будет генерировать прецизионные веса для исправления шума подсчета Пуассона и преобразования значений уровня экзона для регистрации двух подсчетов на миллион или logCPM.
Запустите функцию lmfit, чтобы привести линейные модели в соответствие с данными выражения для каждого экзона. Затем запустите функцию eBayes для вычисления эмпирической статистики для установленной модели для обнаружения дифференциального выражения экзона. Определите контрастную матрицу для экспериментальных сравнений, представляющих интерес.
Используйте контрасты. функция fit для получения коэффициентов и стандартных погрешностей для каждой пары сравнений. Запустите diffSplice на подходящей модели, чтобы проверить различия в использовании генов экзона между диким типом и нокаутом.
Изучите результаты с самым высоким рейтингом, используя функцию topSplice, где тест, равный t, дает рейтинг экзонов AS, а тест, равный simes, дает ранжирование генов. Запустите функцию plotSplice для построения результатов. Помещая интересующий ген в аргумент идентификатора гена, красные точки показывают дифференциально экспрессированные экзоны.
Сгенерируйте график вулкана, используя пакет биопроводников EnhancedVolcano для демонстрации дифференциально выраженных экзонов. Чтобы использовать rMATS, убедитесь, что последняя версия rMATS версии 4.1.1 установлена либо с помощью conda, либо GitHub в рабочем каталоге. Перейдите в папку, содержащую файлы bam, полученные после сопоставления.
Подготовьте текстовые файлы в соответствии с требованиями rMATS для двух условий копирования имени файлов bam и пути к ним, разделенные запятой. Запустите rmas. py с использованием двух сгенерированных входных текстовых файлов, описывающих путь к файлам bam и аннотацию.
gtf файл, полученный ранее. При этом создается выходная папка rmats_out содержащая текстовые файлы, описывающие статистику, включая P-значения и уровни включения для каждого события сплайсинга отдельно. Используйте биопроводниковый мазер для изучения результатов rMATS.
Загрузите в объект maser текстовые файлы с расширением JCEC соединения и exon count и включите не менее пяти средних считываний на событие сплайсинга, чтобы отфильтровать результат на основе покрытия. Чтобы визуализировать результаты rMATS, сначала запустите функцию topEvents из пакета масера, выбрав значимые события сплайсинга со скоростью ложного обнаружения 10% и минимальным изменением процента сращивания в или PSI. Проверьте события гена для отдельных генов, представляющих интерес, и постройте график значений PSI для каждого события сплайсинга этого гена.
Создайте график вулкана, указав тип события. Используйте результаты событий сплайсинга, полученные с помощью rMATS в виде текстовых файлов, для генерации графиков сашими с помощью пакета rmats2sashimiplot. График сашими показывает пропущенное событие экзона в гене Wnk1.
Каждая строка представляет собой образец RNA-seq, три реплики дикого типа и нокаут Mbnl1. Высота показывает покрытие считывания в RPKM, а соединительные дуги изображают считывание соединения между экзонами. В нижней части показаны аннотированные альтернативные изоформы модели генов.
Существенное изменение складки и убедительные статистические доказательства подлинных различий можно наблюдать в генах, расположенных в верхнем левом или правом квадрантах графиков вулканов, полученных с помощью diffSplice и DEXSeq. Было обнаружено, что кассетный экзон варьируется между различными условиями для гена Wnk1. График использования дифференциального экзона показал доказательства дифференциального сращивания на пяти участках экзонов вблизи Wnk1.6.45, причем экзоны, выделенные розовым цветом, вероятно, будут сращены в нокаут-образцах Mbnl1 по сравнению с диким типом.
Вулканический участок генов, которые альтернативно сращиваются, помог различить гены, которые были исключены из дикого типа, и те, которые были включены в дикий тип. Типы событий сплайсинга SE, A5SS, A3SS, MXE и RI были визуализированы с использованием графиков сашими главных значимых генов этих событий. Дифференциальная активность АПА в трех простых нетранслируемых областях генов наблюдалась с использованием вулканических графиков.
Значительно дифференцированные результаты использования сайта PA, полученные от разных конвейеров, были визуализированы с помощью графика событий. Значительный дистальный и проксимальный сдвиг использования сайта ПА в двойных нокаутах может наблюдаться как в генах FOSL1, так и в Papola. Среднее покрытие во фланговых областях, закрепленных на известных участках расщепления ПА на уровне всего генома, определяли с помощью диагностического участка.
Убедитесь, что параметры, такие как трансспецифическая информация и разрешение на множественное перекрытие, правильно используются при создании метрик счетчика. Линейная модель подгонки и генерация контрастных пар важна для правильного сравнения. Для rMATS убедитесь, что все параметры установлены правильно в соответствии с вашими данными, прежде чем выполнять команду.
Гены, полученные в результате дифференциальной сплайсинговой активности, могут быть использованы для проведения анализа обогащения набора генов. Другой инструмент под названием MISO может быть использован для дальнейшего анализа на основе событий.