Войдите в систему

Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.

В этой статье

  • Резюме
  • Аннотация
  • Введение
  • протокол
  • Результаты
  • Обсуждение
  • Раскрытие информации
  • Благодарности
  • Материалы
  • Ссылки
  • Перепечатки и разрешения

Резюме

Протокол, описанный здесь, предоставляет подробные инструкции о том, как анализировать геномные области, представляющие интерес, на потенциал кодирования микропротеинов с помощью PhyloCSF в удобном для пользователя браузере генома UCSC. Кроме того, рекомендуется несколько инструментов и ресурсов для дальнейшего изучения характеристик последовательности идентифицированных микропротеинов, чтобы получить представление об их предполагаемых функциях.

Аннотация

Секвенирование следующего поколения (NGS) продвинуло область геномики вперед и произвело целые последовательности генома для многочисленных видов животных и модельных организмов. Однако, несмотря на это богатство информации о последовательностях, комплексные усилия по аннотированию генов оказались сложными, особенно для небольших белков. Примечательно, что обычные методы аннотирования белков были разработаны для преднамеренного исключения предполагаемых белков, кодируемых короткими открытыми кадрами считывания (sORFs) длиной менее 300 нуклеотидов, чтобы отфильтровать экспоненциально большее количество ложных некодирующих SORF по всему геному. В результате сотни функциональных небольших белков, называемых микропротеинами (длиной <100 аминокислот), были неправильно классифицированы как некодирующие РНК или полностью упущены из виду.

Здесь мы предоставляем подробный протокол для использования бесплатных, общедоступных биоинформационных инструментов для запроса геномных областей на наличие потенциала кодирования микропротеинов на основе эволюционного сохранения. В частности, мы предоставляем пошаговые инструкции о том, как исследовать потенциал сохранения последовательностей и кодирования с использованием филогенетических частот замещения кодонов (PhyloCSF) в удобном для пользователя браузере генома Калифорнийского университета Санта-Крус (UCSC). Кроме того, мы подробно описываем шаги по эффективному созданию множественных видовых выравниваний идентифицированных последовательностей микропротеинов для визуализации сохранения аминокислотных последовательностей и рекомендуем ресурсы для анализа характеристик микропротеинов, включая прогнозируемые доменные структуры. Эти мощные инструменты могут быть использованы, чтобы помочь идентифицировать предполагаемые микропротеин-кодирующие последовательности в неканонических геномных областях или исключить наличие сохраненной кодирующей последовательности с трансляционным потенциалом в некодирующей транскрипте, представляющей интерес.

Введение

Идентификация полного набора кодирующих элементов в геноме была основной целью с момента начала проекта «Геном человека» и остается центральной задачей для понимания биологических систем и этиологии генетических заболеваний 1,2,3,4. Достижения в методах NGS привели к производству целых последовательностей генома для широкого круга организмов, включая позвоночных, беспозвоночных, дрожжи и растения5. Кроме того, высокопроизводительные методы транскрипционного секвенирования дополнительно выявили сложность клеточного транскриптома и идентифицировали тысячи новых молекул РНК с кодирующими белки и некодирующими функциями 6,7. Расшифровка этого огромного количества информации о последовательностях является непрерывным процессом, и проблемы остаются с комплексными усилиями по аннотированию генов8.

Недавняя разработка методов трансляционного профилирования, включая профилирование рибосом 9,10 и секвенирование полирибосом11, предоставила доказательства, указывающие на то, что сотни неканонических событий трансляции сопоставляются с неаннотированными в настоящее время sORFs по всему геному, с потенциалом генерировать небольшие белки, называемые микропротеинами или микропептидами 12,13,14,15,16. 17. Микропротеины появились как новый класс универсальных белков, ранее упускавшихся из виду стандартными методами аннотирования генов из-за их небольшого размера (<100 аминокислот) и отсутствия классических кодирующих белок характеристик генов 8,12,18,19,20. Микропротеины были описаны практически во всех организмах, включая дрожжи21,22, мух 17,23,24 и млекопитающих 25,26,27,28, и было показано, что они играют решающую роль в различных процессах, включая развитие, метаболизм и передачу сигналов о стрессе 19,20,29. 30,31,32,33,34. Таким образом, крайне важно продолжать добывать геном для дополнительных членов этого давно забытого класса функциональных малых белков.

Несмотря на широкое признание биологической важности микропротеинов, этот класс генов остается значительно недопредставленным в аннотациях генома, и их точная идентификация по-прежнему является постоянной проблемой, которая препятствует прогрессу в этой области. Недавно были разработаны различные вычислительные инструменты и экспериментальные методы для преодоления трудностей, связанных с идентификацией микропротеин-кодирующих последовательностей (подробно обсуждается в нескольких всеобъемлющих обзорах 8,35,36,37). Многие недавние исследования по идентификации микропротеинов 38,39,40,41,42,43,44,45,46,47 в значительной степени опирались на использование одного такого алгоритма под названием PhyloCSF48,49 , мощный подход к сравнительной геномике, который может быть использован для отличия сохраненных белково-кодирующих областей генома от тех, которые не являются кодирующими.

PhyloCSF сравнивает частоты замещения кодонов (CSF) с использованием многовидовых нуклеотидных выравниваний и филогенетических моделей для обнаружения эволюционных сигнатур генов, кодирующих белок. Этот эмпирический подход, основанный на модели, опирается на предпосылку, что белки в основном сохраняются на уровне аминокислот, а не на нуклеотидной последовательности. Поэтому синонимичные замены кодонов, которые кодируют одну и ту же аминокислоту, или замены кодонов на аминокислоты с сохраненными свойствами (т. е. заряд, гидрофобность, полярность) оцениваются положительно, в то время как несинонимные замены, включая неправильные и бессмысленные замены, оцениваются отрицательно. PhyloCSF обучен на данных всего генома и доказал свою эффективность в оценке коротких участков кодирующей последовательности (CDS) в отрыве от полной последовательности, что необходимо при анализе микропротеинов или отдельных экзонов стандартных белково-кодирующих генов48,49.

Примечательно, что недавняя интеграция трековых хабов PhyloCSF в браузере генома 49,50,51 Калифорнийского университета в Санта-Крус (UCSC) позволяет исследователям всех слоев общества легко получить доступ к удобному интерфейсу для запроса геномных областей, представляющих интерес для потенциала кодирования белка. Протокол, описанный ниже, предоставляет подробную инструкцию о том, как загрузить концентраторы трека PhyloCSF в браузер генома UCSC и впоследствии опрашивать геномные области, представляющие интерес для исследования высоконадежных белково-кодирующих областей (или их отсутствия). Кроме того, в случае, когда наблюдается положительная оценка PhyloCSF, описываются шаги для дальнейшего анализа потенциала кодирования микропротеинов и эффективного создания нескольких видовых выравниваний идентифицированных аминокислотных последовательностей для иллюстрации сохранения межвидовых последовательностей. Наконец, в ходе обсуждения был представлен ряд дополнительных общедоступных ресурсов и инструментов для изучения выявленных характеристик микропротеинов, включая прогнозируемые структуры доменов и понимание предполагаемой функции микропротеинов.

протокол

Протокол, описанный ниже, описывает шаги для загрузки и навигации по дорожкам браузера PhyloCSF в браузере генома UCSC (сгенерированном Mudge et al.49). Для общих вопросов, касающихся браузера генома UCSC, обширное руководство пользователя браузера генома можно найти здесь: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.

1. Загрузка PhyloCSF Track Hub в браузер генома UCSC

  1. Откройте окно интернет-браузера и перейдите к браузеру генома UCSC (https://genome.ucsc.edu/).
  2. Под заголовком Наши инструменты выберите параметр Отслеживать концентраторы .
    ПРИМЕЧАНИЕ: Опцию Track Hubs также можно найти на вкладке Мои данные .
  3. На вкладке Общедоступные концентраторы введите PhyloCSF в поле Условия поиска . Нажмите кнопку Поиск в общедоступных концентраторах .
  4. Подключитесь к PhyloCSF, нажав кнопку «Подключиться » для имени концентратора PhyloCSF (Описание: Эволюционный потенциал кодирования белка, измеренный PhyloCSF).
    ПРИМЕЧАНИЕ: Этот Track Hub будет загружаться на многочисленные сборки, включая человека (hg19 и hg38) и мышь (mm10 и mm39).
  5. После нажатия кнопки «Подключиться» подождите, пока вас перенаправят на страницу UCSC Genome Browser Gateway (https://genome.ucsc.edu/cgi-bin/hgGateway).

2. Переход к генам, представляющим интерес, с помощью идентификаторов генов

  1. Выберите вид и сборку генома для запроса. Чтобы запросить другой вид (например, мышью), выберите интересующий вид под заголовком «Обзор/Выбор видов », щелкнув соответствующий значок, или введите вид в текстовое поле с надписью «Введите виды, общее название или идентификатор сборки».
    ПРИМЕЧАНИЕ: Сборка указана непосредственно под заголовком Найти позицию . Как правило, по умолчанию используется человеческая сборка (например, декабрь 2009 г. [GRCh37/hg19]).
  2. Выберите сборку для поиска под заголовком Найти позицию с помощью раскрывающегося меню.
  3. Введите позицию, символ гена или условия поиска в поле «Позиция/Условие поиска» и нажмите « Перейти», чтобы перейти к интересующему гену в браузере генома.
  4. Если поиск привел к нескольким совпадениям, подождите, пока вас перенаправят на страницу, которая требует выбора интересующей позиции. Нажмите на соответствующий ген, представляющий интерес.

3. Навигация по интересующим геномным областям с использованием информации о последовательностях

  1. Перейдите в браузер генома UCSC (https://genome.ucsc.edu/) и выберите BLAST-Like Alignment Tool (BLAT) под заголовком Наши инструменты для запроса определенной последовательности ДНК или белка. Кроме того, наведите курсор на вкладку Сервис и выберите опцию Blat или перейдите по этой ссылке: https://genome.ucsc.edu/cgi-bin/hgBlat.
  2. Выберите интересующий вид (Геном) и Сборку с помощью выпадающих меню.
  3. Определите тип запроса с помощью раскрывающегося меню.
  4. Вставьте интересующую последовательность в текстовое поле BLAT Search Genome и нажмите кнопку Отправить.
  5. Нажмите на ссылку браузера под заголовком ACTIONS , чтобы перейти к интересующей геномной области.

4. Идентификация сохраненных sORF с помощью данных трека PhyloCSF

  1. Визуально сканируйте интересующую геномную область для положительной оценки областей PhyloCSF (рисунок 1).
    ПРИМЕЧАНИЕ: Подробное объяснение того, как визуально интерпретировать оценки PhyloCSF в браузере генома UCSC, см. в разделе репрезентативных результатов ниже.
  2. Используйте функцию масштабирования для увеличения областей, представляющих интерес, для изучения характеристик последовательности и поиска кодонов запуска/остановки. Чтобы увеличить масштаб вручную, удерживайте клавишу Shift, а затем щелкните и удерживайте кнопку мыши, перетаскивая вдоль интересующей области. Кроме того, для навигации можно использовать кнопки увеличения и уменьшения масштаба в верхней части страницы (доступны параметры масштабирования 1,5x, 3x, 10x или base zoom).
    ПРИМЕЧАНИЕ: Перед использованием кнопок увеличения/уменьшения масштаба необходимо изменить положение гена так, чтобы интересующая область находилась в середине экрана. Чтобы выполнить это действие, нажмите на изображение и перетащите его влево или вправо, чтобы переместить геномную область горизонтально по желанию, или используйте стрелки перемещения в верхней части страницы.
  3. Увеличивайте масштаб до тех пор, пока не станет видна нуклеотидная (базовая) последовательность.
    ПРИМЕЧАНИЕ: Нуклеотидная последовательность появится непосредственно над оценкой +1 Smoothed PhyloCSF.
  4. Визуально сканируйте нуклеотидную последовательность вблизи начала и конца положительно оцениваемых областей PhyloCSF, чтобы идентифицировать предполагаемые начальные (ATG) и остановочные (TGA / TAA / TAG) кодоны.
    ПРИМЕЧАНИЕ: Если интересующий ген находится на минусовой цепи ДНК, то стартовый и стоп-кодоны будут обратным дополнением (т.е. CAT для стартового кодона и TCA/TTA/CTA для стоп-кодона).

5. Просмотр гомологичных областей в других геномах

  1. Наведите указатель мыши на заголовок Вид в верхней части страницы и нажмите на опцию В других геномах (Преобразовать ).
  2. Определите интересующий геном с помощью раскрывающегося меню под заголовком Новый геном .
  3. Выберите интересующую геномную сборку с помощью раскрывающегося меню под заголовком Новая сборка , затем нажмите кнопку Отправить .
  4. Как только браузер вернет список областей в новой сборке со сходством, щелкните ссылку на положение хромосомы , чтобы перейти к гомологичной интересующей области.
    ПРИМЕЧАНИЕ: Процент общих оснований (нуклеотидов) и диапазон, охватываемый областью, будут определены для каждого из перечисленных регионов. Чем выше процент соответствующих баз, тем выше сохранение для интересующего региона.
  5. Следуйте тем же навигационным стратегиям, описанным в разделе 4, чтобы проанализировать последовательность.

6. Создание многовидовых выравниваний последовательностей для интересующих микропротеинов

  1. Нажмите на интересующий ген в треке GENCODE в браузере генома UCSC (показан на рисунке 1A синим прямоугольником), чтобы перейти на страницу описания гена.
  2. Под заголовком Последовательность и ссылки на инструменты и базы данных нажмите на ссылку в таблице, которая гласит Другие виды FASTA.
  3. Нажмите на поля, связанные с интересующими видами, чтобы выбрать их. Нажмите кнопку Отправить. Скопируйте и вставьте последовательности, появившиеся внизу страницы в формате FASTA, в текстовый документ.
  4. Откройте второе окно браузера и перейдите к инструменту Clustal Omega Multiple Sequence Alignment tool 52 на веб-сайте Европейского института биоинформатики (EMBL-EBI)53,54: https://www.ebi.ac.uk/Tools/msa/clustalo/.
  5. Вставьте файлы последовательностей, которые все еще находятся в буфере обмена, в поле на шаге 1 , которое считывает последовательности в любом поддерживаемом формате. Прокрутите страницу вниз и нажмите «Отправить». Ниже приведены выровненные результаты (черным шрифтом) для символов, которые указывают на степень сохранности каждой аминокислоты (символы определены в таблице 1).
    ПРИМЕЧАНИЕ: Создание выравнивания может занять несколько минут.
  6. Чтобы просмотреть свойства аминокислот в цвете, нажмите на ссылку Показать цвета непосредственно над последовательностями, чтобы окрасить аминокислоты в соответствии с их свойствами (определенными в таблице 2).
  7. Скопируйте и вставьте выравнивание последовательности в программу обработки текста или слайд-шоу для создания файла рисунка или иллюстрации (например, рисунок 2).
    ПРИМЕЧАНИЕ: Используйте моноширинный шрифт для выравнивания, например Courier.
  8. Чтобы просмотреть другие выходные данные со страницы результатов Clustal Omega , нажмите на соответствующие вкладки (например, Guide Tree или Phylogenetic Tree).
  9. Перейдите на вкладку Средства просмотра результатов , чтобы просмотреть информацию о последовательностях с помощью Jalview, бесплатной программы, которая специализируется на редактировании, визуализации и анализе нескольких последовательностей55, или для доступа к прямым ссылкам на MView и Simple Phylogeny56.

Результаты

Здесь мы будем использовать проверенный микропротеин миторегулин (Mtln) в качестве примера, чтобы продемонстрировать, как законсервированный sORF будет генерировать положительную оценку PhyloCSF, которую можно легко визуализировать и проанализировать в браузере генома UCSC. Миторегулин ранее...

Обсуждение

Протокол, представленный здесь, предоставляет подробные инструкции о том, как опрашивать геномные области, представляющие интерес для потенциала кодирования микропротеинами, с помощью PhyloCSF на удобном для пользователя UCSC Genome Browser 48,49,50,51.

Раскрытие информации

Авторы заявляют, что у них нет конкурирующих финансовых интересов.

Благодарности

Эта работа была поддержана грантами Национальных институтов здравоохранения (HL-141630 и HL-160569) и Фонда детских исследований Цинциннати (Trustee Award).

Материалы

NameCompanyCatalog NumberComments
WebsiteWebsite AddressRequirements
Clustal Omega Multiple Sequence Alignment Toolhttps://www.ebi.ac.uk/Tools/msa/clustalo/Web browserMultiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins)
COXPRESSdbhttps://coxpresdb.jpWeb browserProvides co-regulated gene relationships to estimate gene functions
EMBL-EBI Bioinformatics Tools FAQshttps://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQWeb browserFrequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments
European Bioinformatics Institute (EMBL-EBI),
Tools and Data Resources
https://www.ebi.ac.uk/services/allWeb browserComprehensive list of freely available websites, tools and data resources
Expasy - Swiss Bioinformatics Resource Portalhttps://www.expasy.orgWeb browserSuite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB)
National Center for Biotechnology Information (NCBI)
Conserved Domain Search
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgiWeb browserSearch tool to identify conserved domains within protein or coding nucleotide sequences
Pfam 35http://pfam.xfam.orgWeb browserProtein family (Pfam) database, provides alignments and classification of protein families and domains
PhyloCSF Track Hub Description https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q
edaCd4ir8aZ65ryaD&db=mm10
&c=chr2&g=hub_109801_
PhyloCSF_smooth
Web browserDetailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub
   
   
   
   
   
SignalP 6.0https://services.healthtech.dtu.dk/service.php?SignalP-6.0Web browserPredicts the presence of signal peptides and the location of their cleavage sites
TMHMM - 2.0https://services.healthtech.dtu.dk/service.php?TMHMM-2.0Web browserPrediction of transmembrane helices in proteins
UCSC Genome Browser BLAT Searchhttps://genome.ucsc.edu/cgi-bin/hgBlatWeb browserTool used to find genomic regions using DNA or protein sequence information
UCSC Genome Browser Gatewayhttps://genome.ucsc.edu/cgi-bin/hgGatewayWeb browserDirect link to the UCSC Genome Browser Gateway
UCSC Genome Browser Homehttps://genome.ucsc.edu/Web browserHome website for the UCSC Genome Browser
UCSC Genome Browser Track Data Hubshttps://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubsWeb browserDirect link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks
UCSC Genome Browser User Guidehttps://genome.ucsc.edu/goldenPath/help/hgTracksHelp.htmlWeb browserComprehensive user guide detailing how to navigate the UCSC Genome Browser
WoLF PSORThttps://wolfpsort.hgc.jpWeb browserProtein subcellular localization prediction tool

Ссылки

  1. Collins, F. S., Morgan, M., Patrinos, A. The human genome project: lessons from large-scale biology. Science. 300 (5617), 286-290 (2003).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Sachidanandam, R., et al. A map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms. Nature. 409 (6822), 928-933 (2001).
  4. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  5. Fuentes-Pardo, A. P., Ruzzante, D. E. Whole-genome sequencing approaches for conservation biology: Advantages, limitations and practical recommendations. Molecular Ecology. 26 (20), 5369-5406 (2017).
  6. Carninci, P., et al. The transcriptional landscape of the mammalian genome. Science. 309 (5740), 1559-1563 (2005).
  7. Maeda, N., et al. Transcript annotation in FANTOM3: mouse gene catalog based on physical cDNAs. PLoS Genetics. 2 (4), 62 (2006).
  8. Schlesinger, D., Elsasser, S. J. Revisiting sORFs: overcoming challenges to identify and characterize functional microproteins. The FEBS Journal. 289 (1), 53-74 (2022).
  9. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  10. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  11. Aspden, J. L., et al. Extensive translation of small Open Reading Frames revealed by Poly-Ribo-Seq. Elife. 3, 03528 (2014).
  12. Andrews, S. J., Rothnagel, J. A. Emerging evidence for functional peptides encoded by short open reading frames. Nature Reviews Genetics. 15 (3), 193-204 (2014).
  13. Mackowiak, S. D., et al. Extensive identification and analysis of conserved small ORFs in animals. Genome Biology. 16 (1), 1-21 (2015).
  14. Ruiz-Orera, J., Messeguer, X., Subirana, J. A., Alba, M. M. Long non-coding RNAs as a source of new peptides. Elife. 3, 03523 (2014).
  15. Basrai, M. A., Hieter, P., Boeke, J. D. Small open reading frames: beautiful needles in the haystack. Genome Research. 7 (8), 768-771 (1997).
  16. Frith, M. C., et al. The abundance of short proteins in the mammalian proteome. PLoS Genetics. 2 (4), 52 (2006).
  17. Ladoukakis, E., Pereira, V., Magny, E. G., Eyre-Walker, A., Couso, J. P. Hundreds of putatively functional small open reading frames in Drosophila. Genome Biology. 12 (11), 118 (2011).
  18. Makarewich, C. A., Olson, E. N. Mining for Micropeptides. Trends in Cell Biology. 27 (9), 685-696 (2017).
  19. Wright, B. W., Yi, Z., Weissman, J. S., Chen, J. The dark proteome: translation from noncanonical open reading frames. Trends in Cell Biology. , (2021).
  20. Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11 (12), 909-916 (2015).
  21. Kastenmayer, J. P., et al. Functional genomics of genes with small open reading frames (sORFs) in S. cerevisiae. Genome Research. 16 (3), 365-373 (2006).
  22. Smith, J. E., et al. Translation of small open reading frames within unannotated RNA transcripts in Saccharomyces cerevisiae. Cell Reports. 7 (6), 1858-1866 (2014).
  23. Lin, M. F., et al. Revisiting the protein-coding gene catalog of Drosophila melanogaster using 12 fly genomes. Genome Research. 17 (12), 1823-1836 (2007).
  24. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  25. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. EMBO J. 33 (9), 981-993 (2014).
  26. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  27. Ma, J., et al. Discovery of human sORF-encoded polypeptides (SEPs) in cell lines and tissue. J Proteome Res. 13 (3), 1757-1765 (2014).
  28. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  29. Khitun, A., Ness, T. J., Slavoff, S. A. Small open reading frames and cellular stress responses. Molecular Omics. 15 (2), 108-116 (2019).
  30. Makarewich, C. A. The hidden world of membrane microproteins. Experimental Cell Research. 388 (2), 111853 (2020).
  31. Pueyo, J. I., Magny, E. G., Couso, J. P. New peptides under the s(ORF)ace of the genome. Trends in Biochemical Sciences. 41 (8), 665-678 (2016).
  32. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  33. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  34. Lee, C., et al. The mitochondrial-derived peptide MOTS-c promotes metabolic homeostasis and reduces obesity and insulin resistance. Cell Metabolism. 21 (3), 443-454 (2015).
  35. Pauli, A., Valen, E., Schier, A. F. Identifying (non-)coding RNAs and small peptides: challenges and opportunities. Bioessays. 37 (1), 103-112 (2015).
  36. Plaza, S., Menschaert, G., Payre, F. In search of lost small peptides. Annual Review of Cell and Developmental Biology. 33, 391-416 (2017).
  37. Kiniry, S. J., Michel, A. M., Baranov, P. V. Computational methods for ribosome profiling data analysis. Wiley Interdisciplinary Reviews: RNA. 11 (3), 1577 (2020).
  38. Anderson, D. M., et al. A micropeptide encoded by a putative long noncoding RNA regulates muscle performance. Cell. 160 (4), 595-606 (2015).
  39. Anderson, D. M., et al. Widespread control of calcium signaling by a family of SERCA-inhibiting micropeptides. Science Signaling. 9 (457), (2016).
  40. Makarewich, C. A., et al. MOXI Is a mitochondrial micropeptide that enhances fatty acid beta-oxidation. Cell Reports. 23 (13), 3701-3709 (2018).
  41. Nelson, B. R., et al. A peptide encoded by a transcript annotated as long noncoding RNA enhances SERCA activity in muscle. Science. 351 (6270), 271-275 (2016).
  42. Chu, Q., et al. Regulation of the ER stress response by a mitochondrial microprotein. Nat Commun. 10 (1), 4883 (2019).
  43. Senis, E., et al. TUNAR lncRNA encodes a microprotein that regulates neural differentiation and neurite formation by modulating calcium dynamics. Frontiers in Cell and Developmental Biology. 9, 747667 (2021).
  44. Li, M., et al. A putative long noncoding RNA-encoded micropeptide maintains cellular homeostasis in pancreatic beta cells. Molecular Therapy-Nucleic Acids. 26, 307-320 (2021).
  45. Martinez, T. F., et al. Accurate annotation of human protein-coding small open reading frames. Nature Chemical Biology. 16 (4), 458-468 (2020).
  46. van Heesch, S., et al. The translational landscape of the human heart. Cell. 178 (1), 242-260 (2019).
  47. Makarewich, C. A., et al. The cardiac-enriched microprotein mitolamban regulates mitochondrial respiratory complex assembly and function in mice. Proceedings of the National Academy of Sciences of the United States of America. 119 (6), 2120476119 (2022).
  48. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  49. Mudge, J. M., et al. Discovery of high-confidence human protein-coding genes and exons by whole-genome PhyloCSF helps elucidate 118 GWAS loci. Genome Research. 29 (12), 2073-2087 (2019).
  50. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  51. Raney, B. J., et al. Track data hubs enable visualization of user-defined genome-wide annotations on the UCSC Genome Browser. Bioinformatics. 30 (7), 1003-1005 (2014).
  52. Sievers, F., et al. scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Molecular Systems Biology. 7 (1), 539 (2011).
  53. Goujon, M., et al. A new bioinformatics analysis tools framework at EMBL-EBI. Nucleic Acids Research. 38 (2), 695-699 (2010).
  54. Harte, N., et al. Public web-based services from the European Bioinformatics Institute. Nucleic Acids Research. 32 (2), 3-9 (2004).
  55. Waterhouse, A. M., Procter, J. B., Martin, D. M., Clamp, M., Barton, G. J. Jalview Version 2-a multiple sequence alignment editor and analysis workbench. Bioinformatics. 25 (9), 1189-1191 (2009).
  56. Madeira, F., et al. The EMBL-EBI search and sequence analysis tools APIs in 2019. Nucleic Acids Research. 47 (1), 636-641 (2019).
  57. Friesen, M., et al. Mitoregulin controls beta-oxidation in human and mouse adipocytes. Stem Cell Reports. 14 (4), 590-602 (2020).
  58. Stein, C. S., et al. Mitoregulin: A lncRNA-Encoded microprotein that supports mitochondrial supercomplexes and respiratory efficiency. Cell Reports. 23 (13), 3710-3720 (2018).
  59. Chugunova, A., et al. LINC00116 codes for a mitochondrial peptide linking respiration and lipid metabolism. Proceedings of the Nationall Academy of Sciences of the United States of America. 116 (11), 4940-4945 (2019).
  60. Lin, Y. F., et al. A novel mitochondrial micropeptide MPM enhances mitochondrial respiratory activity and promotes myogenic differentiation. Cell Death and Disease. 10 (7), 528 (2019).
  61. Wang, L., et al. The micropeptide LEMP plays an evolutionarily conserved role in myogenesis. Cell Death and Disease. 11 (5), 357 (2020).
  62. He, S., Liu, S., Zhu, H. The sequence, structure and evolutionary features of HOTAIR in mammals. BMC Evolutionary Biology. 11 (1), 1-14 (2011).
  63. Rinn, J. L., et al. Functional demarcation of active and silent chromatin domains in human HOX loci by noncoding RNAs. Cell. 129 (7), 1311-1323 (2007).
  64. Bhatta, A., et al. A Mitochondrial micropeptide is required for activation of the Nlrp3 inflammasome. Journal of Immunology. 204 (2), 428-437 (2020).
  65. Zhang, D., et al. Functional prediction and physiological characterization of a novel short trans-membrane protein 1 as a subunit of mitochondrial respiratory complexes. Physiological Genomics. 44 (23), 1133-1140 (2012).
  66. Rathore, A., et al. MIEF1 microprotein regulates mitochondrial translation. Biochemistry. 57 (38), 5564-5575 (2018).
  67. Jungreis, I., Sealfon, R., Kellis, M. SARS-CoV-2 gene content and COVID-19 mutation impact by comparing 44 Sarbecovirus genomes. Nature Communications. 12 (1), 2642 (2021).
  68. Chen, J., et al. Pervasive functional translation of noncanonical human open reading frames. Science. 367 (6482), 1140-1146 (2020).
  69. Ruiz-Orera, J., Verdaguer-Grau, P., Villanueva-Canas, J. L., Messeguer, X., Alba, M. M. Translation of neutrally evolving peptides provides a basis for de novo gene evolution. Nature Ecology and Evolution. 2 (5), 890-896 (2018).
  70. Blevins, W. R., et al. Uncovering de novo gene birth in yeast using deep transcriptomics. Nature Communications. 12 (1), 604 (2021).
  71. Papadopoulos, C., et al. Intergenic ORFs as elementary structural modules of de novo gene birth and protein evolution. Genome Research. , (2021).
  72. Vakirlis, N., Duggan, K. M., McLysaght, A. De novo birth of functional, human-specific microproteins. bioRxiv. , 462744 (2021).
  73. Van Oss, S. B., Carvunis, A. R. De novo gene birth. PLoS Genetics. 15 (5), 1008160 (2019).
  74. Andersson, D. I., Jerlstrom-Hultqvist, J., Nasvall, J. Evolution of new functions de novo and from preexisting genes. Cold Spring Harbor Perspectives in Biology. 7 (6), 017996 (2015).
  75. Ge, Q., et al. Micropeptide ASAP encoded by LINC00467 promotes colorectal cancer progression by directly modulating ATP synthase activity. Journal of Clinical Investigations. 131 (22), (2021).
  76. Sonnhammer, E. L., von Heijne, G., Krogh, A. A hidden Markov model for predicting transmembrane helices in protein sequences. Proceedings. International Conference on Intelligent Syststems for Molecular Biology. 6, 175-182 (1998).
  77. Lu, S., et al. CDD/SPARCLE: the conserved domain database in 2020. Nucleic Acids Research. 48, 265-268 (2020).
  78. Mistry, J., et al. Pfam: The protein families database in 2021. Nucleic Acids Research. 49, 412-419 (2021).
  79. Horton, P., et al. PSORT: protein localization predictor. Nucleic Acids Research. 35 (2), 585-587 (2007).
  80. Obayashi, T., Kagaya, Y., Aoki, Y., Tadaka, S., Kinoshita, K. COXPRESdb v7: a gene coexpression database for 11 animal species supported by 23 coexpression platforms for technical evaluation and evolutionary inference. Nucleic Acids Research. 47, 55-62 (2019).
  81. Teufel, F., et al. SignalP 6.0 predicts all five types of signal peptides using protein language models. Nature Biotechnology. , 01156 (2022).

Перепечатки и разрешения

Запросить разрешение на использование текста или рисунков этого JoVE статьи

Запросить разрешение

Смотреть дополнительные статьи

185

This article has been published

Video Coming Soon

JoVE Logo

Исследования

Образование

О JoVE

Авторские права © 2025 MyJoVE Corporation. Все права защищены