Интерпретация данных секвенирования, генерируемых экспериментом по профилированию рибосом, имеет решающее значение для количественного измерения поступательной активности рибосом на мРНК и для изучения механизмов трансляционной регуляции. В этом протоколе мы опишем вычислительную процедуру использования данных профилирования рибосом и RiboCode, инструмент командной строки для декодирования трансляции мРНК в масштабе всего генома и с разрешением одного нуклеотида. Этот метод позволяет искать новые пептиды, возникающие из геномных областей за пределами аннотированных генов, кодирующих белки, и дает возможность количественно оценить скорость трансляции мРНК.
Для начала откройте окно терминала Linux и создайте среду conda, выполнив команду. Переключитесь на созданную среду и установите RiboCode и зависимости, выполнив команду. Чтобы получить справочные файлы генома для эталонной последовательности, перейдите на веб-сайт Ensembl, затем нажмите «Загрузить», а затем «Загрузка по FTP».
Нажмите на опцию FASTA в столбце DNA FASTA, и выберите строку, где вид является человеком, показанную в таблице на странице сайта. На странице веб-сайта Ensembl скопируйте ссылку, как указано в тексте, затем загрузите и распакуйте файлы в терминале, выполнив команду. Чтобы получить справочную аннотацию, щелкните правой кнопкой мыши GTF в наборах генов столбцов на последней открытой веб-странице.
Скопируйте ссылку и загрузите ее с помощью команды. Чтобы получить последовательности рРНК, откройте браузер генома UCSC, затем щелкните Инструменты и выберите браузер таблиц в раскрывающемся списке. На странице браузера генома UCSC укажите mammal для клады, человека для генома, все таблицы для группы, R-маску для таблицы и геном для региона.
Для фильтра нажмите кнопку создать, чтобы перейти на новую страницу, и задайте класс rep, соответствующий рРНК. Нажмите кнопку Отправить, а затем задайте для выходного формата последовательность, а для имени выходного файла — HG38_rRNA. ФА. Наконец, нажмите кнопку Получить вывод, а затем выберите получить последовательность, чтобы получить последовательность рРНК.
Чтобы получить наборы данных профилирования рибосом из архива чтения последовательностей, загрузите реплицированные образцы группы обработки si-eIFe и переименуйте их, выполнив команду. Затем загрузите реплицированные образцы контрольной группы и переименуйте их, выполнив команду. Чтобы удалить загрязнение рРНК, начните индексацию эталонных последовательностей рРНК, выполнив команду.
После индексации выровняйте показания по ссылке на рРНК, чтобы исключить показания, исходящие от рРНК, выполнив команду. Начните с создания индекса генома, выполнив команду. Затем выровняйте чистые чтения без загрязнения рРНК по созданной ссылке, выполнив команду, а затем отсортируйте и индексируйте файлы выравнивания, выполнив команду.
Подготовьте аннотации стенограммы, выполнив команду. Выберите защищенные рибосомы фрагменты определенной длины и определите их позиции P-site, выполнив команду. Отредактируйте файлы конфигурации для каждого примера и объедините их.
Затем запустите RiboCode, выполнив команду. Частотное распределение длин считывания показало, что большинство защищенных рибосомных фрагментов соответствуют от 25 до 35 нуклеотидов. Местоположения P-участка для различных длин защищенных рибосом фрагментов были определены путем изучения расстояний от их пяти основных концов до аннотированных кодонов запуска и остановки.
Результаты картирования показывают, что 10 394 гена кодируют аннотированные открытые кадры чтения. Кроме того, 509 и 168 генов кодируют открытые кадры чтения вверх и вниз по течению, в то время как 939 генов кодируют либо восходящие, либо нисходящие открытые кадры чтения, перекрывающиеся известными аннотированными открытыми кадрами чтения. Кроме того, 68 генов, кодирующих белки, и 2 601 некодирующий ген кодируют новые открытые кадры чтения.
Распределение длин показало, что восходящие, нисходящие, новые и перекрывающиеся открытые кадры чтения были короче, чем аннотированные открытые кадры чтения. Относительное количество фрагментов, защищенных рибосомами, было рассчитано для каждого открытого кадра считывания, показав, что плотность рибосом восходящих открытых кадров считывания была значительно выше в клетках с дефицитом eIF3e, чем в контрольных клетках. Анализ метагенов показал, что масса рибосом застряла между кодонами 25 и 75 ниже по течению от стартового кодона, предполагая, что удлинение трансляции может быть заблокировано на ранней стадии клеток с дефицитом eIF3e.
Были исследованы профили плотности P-сайтов для восходящих открытых кадров считывания PSMA6 и последующих открытых кадров считывания гена SENP3-EIF4A1, демонстрирующих закономерности периодичности и плотности фрагментов, защищенных рибосомами. Проверка расположения считываний вокруг начальных и стоп-кодонов известных областей кодирования белка необходима для оценки периодических свойств считываний для каждой длины. RiboCode, вместе с другим инструментом командной строки, RiboMiner также может выполнять контроль качества и множественные анализы, такие как количественная оценка и визуализация занятости рибосом на прогнозируемых открытых кадрах чтения.
Этот вычислительный инструмент обеспечивает высокую пропускную способность для идентификации неканонических событий трансляции с данными профилирования рибосом в конкретных физиологических контекстах и того, как трансляция модулируется в ответ на стимул.