Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.
Method Article
Протокол, описанный здесь, предоставляет подробные инструкции о том, как анализировать геномные области, представляющие интерес, на потенциал кодирования микропротеинов с помощью PhyloCSF в удобном для пользователя браузере генома UCSC. Кроме того, рекомендуется несколько инструментов и ресурсов для дальнейшего изучения характеристик последовательности идентифицированных микропротеинов, чтобы получить представление об их предполагаемых функциях.
Секвенирование следующего поколения (NGS) продвинуло область геномики вперед и произвело целые последовательности генома для многочисленных видов животных и модельных организмов. Однако, несмотря на это богатство информации о последовательностях, комплексные усилия по аннотированию генов оказались сложными, особенно для небольших белков. Примечательно, что обычные методы аннотирования белков были разработаны для преднамеренного исключения предполагаемых белков, кодируемых короткими открытыми кадрами считывания (sORFs) длиной менее 300 нуклеотидов, чтобы отфильтровать экспоненциально большее количество ложных некодирующих SORF по всему геному. В результате сотни функциональных небольших белков, называемых микропротеинами (длиной <100 аминокислот), были неправильно классифицированы как некодирующие РНК или полностью упущены из виду.
Здесь мы предоставляем подробный протокол для использования бесплатных, общедоступных биоинформационных инструментов для запроса геномных областей на наличие потенциала кодирования микропротеинов на основе эволюционного сохранения. В частности, мы предоставляем пошаговые инструкции о том, как исследовать потенциал сохранения последовательностей и кодирования с использованием филогенетических частот замещения кодонов (PhyloCSF) в удобном для пользователя браузере генома Калифорнийского университета Санта-Крус (UCSC). Кроме того, мы подробно описываем шаги по эффективному созданию множественных видовых выравниваний идентифицированных последовательностей микропротеинов для визуализации сохранения аминокислотных последовательностей и рекомендуем ресурсы для анализа характеристик микропротеинов, включая прогнозируемые доменные структуры. Эти мощные инструменты могут быть использованы, чтобы помочь идентифицировать предполагаемые микропротеин-кодирующие последовательности в неканонических геномных областях или исключить наличие сохраненной кодирующей последовательности с трансляционным потенциалом в некодирующей транскрипте, представляющей интерес.
Идентификация полного набора кодирующих элементов в геноме была основной целью с момента начала проекта «Геном человека» и остается центральной задачей для понимания биологических систем и этиологии генетических заболеваний 1,2,3,4. Достижения в методах NGS привели к производству целых последовательностей генома для широкого круга организмов, включая позвоночных, беспозвоночных, дрожжи и растения5. Кроме того, высокопроизводительные методы транскрипционного секвенирования дополнительно выявили сложность клеточного транскриптома и идентифицировали тысячи новых молекул РНК с кодирующими белки и некодирующими функциями 6,7. Расшифровка этого огромного количества информации о последовательностях является непрерывным процессом, и проблемы остаются с комплексными усилиями по аннотированию генов8.
Недавняя разработка методов трансляционного профилирования, включая профилирование рибосом 9,10 и секвенирование полирибосом11, предоставила доказательства, указывающие на то, что сотни неканонических событий трансляции сопоставляются с неаннотированными в настоящее время sORFs по всему геному, с потенциалом генерировать небольшие белки, называемые микропротеинами или микропептидами 12,13,14,15,16. 17. Микропротеины появились как новый класс универсальных белков, ранее упускавшихся из виду стандартными методами аннотирования генов из-за их небольшого размера (<100 аминокислот) и отсутствия классических кодирующих белок характеристик генов 8,12,18,19,20. Микропротеины были описаны практически во всех организмах, включая дрожжи21,22, мух 17,23,24 и млекопитающих 25,26,27,28, и было показано, что они играют решающую роль в различных процессах, включая развитие, метаболизм и передачу сигналов о стрессе 19,20,29. 30,31,32,33,34. Таким образом, крайне важно продолжать добывать геном для дополнительных членов этого давно забытого класса функциональных малых белков.
Несмотря на широкое признание биологической важности микропротеинов, этот класс генов остается значительно недопредставленным в аннотациях генома, и их точная идентификация по-прежнему является постоянной проблемой, которая препятствует прогрессу в этой области. Недавно были разработаны различные вычислительные инструменты и экспериментальные методы для преодоления трудностей, связанных с идентификацией микропротеин-кодирующих последовательностей (подробно обсуждается в нескольких всеобъемлющих обзорах 8,35,36,37). Многие недавние исследования по идентификации микропротеинов 38,39,40,41,42,43,44,45,46,47 в значительной степени опирались на использование одного такого алгоритма под названием PhyloCSF48,49 , мощный подход к сравнительной геномике, который может быть использован для отличия сохраненных белково-кодирующих областей генома от тех, которые не являются кодирующими.
PhyloCSF сравнивает частоты замещения кодонов (CSF) с использованием многовидовых нуклеотидных выравниваний и филогенетических моделей для обнаружения эволюционных сигнатур генов, кодирующих белок. Этот эмпирический подход, основанный на модели, опирается на предпосылку, что белки в основном сохраняются на уровне аминокислот, а не на нуклеотидной последовательности. Поэтому синонимичные замены кодонов, которые кодируют одну и ту же аминокислоту, или замены кодонов на аминокислоты с сохраненными свойствами (т. е. заряд, гидрофобность, полярность) оцениваются положительно, в то время как несинонимные замены, включая неправильные и бессмысленные замены, оцениваются отрицательно. PhyloCSF обучен на данных всего генома и доказал свою эффективность в оценке коротких участков кодирующей последовательности (CDS) в отрыве от полной последовательности, что необходимо при анализе микропротеинов или отдельных экзонов стандартных белково-кодирующих генов48,49.
Примечательно, что недавняя интеграция трековых хабов PhyloCSF в браузере генома 49,50,51 Калифорнийского университета в Санта-Крус (UCSC) позволяет исследователям всех слоев общества легко получить доступ к удобному интерфейсу для запроса геномных областей, представляющих интерес для потенциала кодирования белка. Протокол, описанный ниже, предоставляет подробную инструкцию о том, как загрузить концентраторы трека PhyloCSF в браузер генома UCSC и впоследствии опрашивать геномные области, представляющие интерес для исследования высоконадежных белково-кодирующих областей (или их отсутствия). Кроме того, в случае, когда наблюдается положительная оценка PhyloCSF, описываются шаги для дальнейшего анализа потенциала кодирования микропротеинов и эффективного создания нескольких видовых выравниваний идентифицированных аминокислотных последовательностей для иллюстрации сохранения межвидовых последовательностей. Наконец, в ходе обсуждения был представлен ряд дополнительных общедоступных ресурсов и инструментов для изучения выявленных характеристик микропротеинов, включая прогнозируемые структуры доменов и понимание предполагаемой функции микропротеинов.
Протокол, описанный ниже, описывает шаги для загрузки и навигации по дорожкам браузера PhyloCSF в браузере генома UCSC (сгенерированном Mudge et al.49). Для общих вопросов, касающихся браузера генома UCSC, обширное руководство пользователя браузера генома можно найти здесь: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.
1. Загрузка PhyloCSF Track Hub в браузер генома UCSC
2. Переход к генам, представляющим интерес, с помощью идентификаторов генов
3. Навигация по интересующим геномным областям с использованием информации о последовательностях
4. Идентификация сохраненных sORF с помощью данных трека PhyloCSF
5. Просмотр гомологичных областей в других геномах
6. Создание многовидовых выравниваний последовательностей для интересующих микропротеинов
Здесь мы будем использовать проверенный микропротеин миторегулин (Mtln) в качестве примера, чтобы продемонстрировать, как законсервированный sORF будет генерировать положительную оценку PhyloCSF, которую можно легко визуализировать и проанализировать в браузере генома UCSC. Миторегулин ранее...
Протокол, представленный здесь, предоставляет подробные инструкции о том, как опрашивать геномные области, представляющие интерес для потенциала кодирования микропротеинами, с помощью PhyloCSF на удобном для пользователя UCSC Genome Browser 48,49,50,51.
Авторы заявляют, что у них нет конкурирующих финансовых интересов.
Эта работа была поддержана грантами Национальных институтов здравоохранения (HL-141630 и HL-160569) и Фонда детских исследований Цинциннати (Trustee Award).
Name | Company | Catalog Number | Comments |
Website | Website Address | Requirements | |
Clustal Omega Multiple Sequence Alignment Tool | https://www.ebi.ac.uk/Tools/msa/clustalo/ | Web browser | Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins) |
COXPRESSdb | https://coxpresdb.jp | Web browser | Provides co-regulated gene relationships to estimate gene functions |
EMBL-EBI Bioinformatics Tools FAQs | https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ | Web browser | Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments |
European Bioinformatics Institute (EMBL-EBI), Tools and Data Resources | https://www.ebi.ac.uk/services/all | Web browser | Comprehensive list of freely available websites, tools and data resources |
Expasy - Swiss Bioinformatics Resource Portal | https://www.expasy.org | Web browser | Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB) |
National Center for Biotechnology Information (NCBI) Conserved Domain Search | https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi | Web browser | Search tool to identify conserved domains within protein or coding nucleotide sequences |
Pfam 35 | http://pfam.xfam.org | Web browser | Protein family (Pfam) database, provides alignments and classification of protein families and domains |
PhyloCSF Track Hub Description | https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q edaCd4ir8aZ65ryaD&db=mm10 &c=chr2&g=hub_109801_ PhyloCSF_smooth | Web browser | Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub |
SignalP 6.0 | https://services.healthtech.dtu.dk/service.php?SignalP-6.0 | Web browser | Predicts the presence of signal peptides and the location of their cleavage sites |
TMHMM - 2.0 | https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 | Web browser | Prediction of transmembrane helices in proteins |
UCSC Genome Browser BLAT Search | https://genome.ucsc.edu/cgi-bin/hgBlat | Web browser | Tool used to find genomic regions using DNA or protein sequence information |
UCSC Genome Browser Gateway | https://genome.ucsc.edu/cgi-bin/hgGateway | Web browser | Direct link to the UCSC Genome Browser Gateway |
UCSC Genome Browser Home | https://genome.ucsc.edu/ | Web browser | Home website for the UCSC Genome Browser |
UCSC Genome Browser Track Data Hubs | https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs | Web browser | Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks |
UCSC Genome Browser User Guide | https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html | Web browser | Comprehensive user guide detailing how to navigate the UCSC Genome Browser |
WoLF PSORT | https://wolfpsort.hgc.jp | Web browser | Protein subcellular localization prediction tool |
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены