JoVE Logo

S'identifier

Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.

Dans cet article

  • Résumé
  • Résumé
  • Introduction
  • Protocole
  • Résultats
  • Discussion
  • Déclarations de divulgation
  • Remerciements
  • matériels
  • Références
  • Réimpressions et Autorisations

Résumé

Le protocole décrit ici fournit des instructions détaillées sur la façon d’analyser les régions génomiques d’intérêt pour le potentiel de codage des microprotéines à l’aide de PhyloCSF sur le navigateur de génome convivial UCSC. En outre, plusieurs outils et ressources sont recommandés pour étudier plus avant les caractéristiques de séquence des microprotéines identifiées afin de mieux comprendre leurs fonctions putatives.

Résumé

Le séquençage de nouvelle génération (NGS) a propulsé le domaine de la génomique vers l’avant et produit des séquences de génome entier pour de nombreuses espèces animales et organismes modèles. Cependant, malgré cette richesse d’informations sur les séquences, les efforts complets d’annotation des gènes se sont avérés difficiles, en particulier pour les petites protéines. Notamment, les méthodes conventionnelles d’annotation des protéines ont été conçues pour exclure intentionnellement les protéines putatives codées par de courts cadres de lecture ouverts (sORF) de moins de 300 nucléotides de longueur afin de filtrer le nombre exponentiellement plus élevé de faux sORF non codants dans tout le génome. En conséquence, des centaines de petites protéines fonctionnelles appelées microprotéines (<100 acides aminés de longueur) ont été classées à tort comme des ARN non codants ou complètement négligées.

Ici, nous fournissons un protocole détaillé pour tirer parti d’outils bioinformatiques gratuits et accessibles au public pour interroger les régions génomiques sur le potentiel de codage des microprotéines basé sur la conservation évolutive. Plus précisément, nous fournissons des instructions étape par étape sur la façon d’examiner la conservation des séquences et le potentiel de codage à l’aide des fréquences de substitution phylogénétique du codon (PhyloCSF) sur le navigateur de génome convivial de l’Université de Californie à Santa Cruz (UCSC). De plus, nous détaillons les étapes pour générer efficacement plusieurs alignements d’espèces de séquences de microprotéines identifiées afin de visualiser la conservation des séquences d’acides aminés et recommandons des ressources pour analyser les caractéristiques des microprotéines, y compris les structures de domaine prédites. Ces outils puissants peuvent être utilisés pour aider à identifier des séquences de codage de microprotéines putatives dans des régions génomiques non canoniques ou pour exclure la présence d’une séquence codante conservée avec un potentiel translationnel dans une transcription d’intérêt non codante.

Introduction

L’identification de l’ensemble complet des éléments codants dans le génome est un objectif majeur depuis le lancement du projet du génome humain et demeure un objectif central pour la compréhension des systèmes biologiques et l’étiologie des maladies génétiques 1,2,3,4. Les progrès des techniques NGS ont conduit à la production de séquences du génome entier pour un grand nombre d’organismes, y compris les vertébrés, les invertébrés, les levures et les plantes5. De plus, les méthodes de séquençage transcriptionnel à haut débit ont révélé la complexité du transcriptome cellulaire et identifié des milliers de nouvelles molécules d’ARN ayant à la fois des fonctions codant pour les protéines et non codantes 6,7. Le décodage de cette grande quantité d’informations de séquence est un processus continu, et des défis subsistent avec des efforts complets d’annotationde gènes 8.

Le développement récent de méthodes de profilage translationnel, y compris le profilage des ribosomes 9,10 et le séquençage des poly-ribosomes11, a fourni des preuves indiquant que des centaines d’événements de traduction non canoniques correspondent à des SORF actuellement non annotés dans tout le génome, avec le potentiel de générer de petites protéines appelées microprotéines ou micropeptides 12,13,14,15,16, 17. Les microprotéines sont apparues comme une nouvelle classe de protéines polyvalentes auparavant négligées par les méthodes standard d’annotation des gènes en raison de leur petite taille (<100 acides aminés) et de l’absence de caractéristiques génétiques classiquescodant pour les protéines 8,12,18,19,20. Les microprotéines ont été décrites dans pratiquement tous les organismes, y compris la levure21,22, les mouches 17,23,24 et les mammifères 25,26,27,28, et il a été démontré qu’elles jouent un rôle essentiel dans divers processus, y compris le développement, le métabolisme et la signalisation du stress 19,20,29, 30,31,32,33,34. Ainsi, il est impératif de continuer à exploiter le génome pour trouver d’autres membres de cette classe de petites protéines fonctionnelles longtemps négligée.

Malgré la reconnaissance généralisée de l’importance biologique des microprotéines, cette classe de gènes reste largement sous-représentée dans les annotations du génome, et leur identification précise continue d’être un défi permanent qui a entravé les progrès dans le domaine. Divers outils de calcul et méthodes expérimentales ont récemment été mis au point pour surmonter les difficultés associées à l’identification des séquences codant pour les microprotéines (discutés en détail dans plusieurs revues complètes 8,35,36,37). De nombreuses études récentes d’identification des microprotéines 38,39,40,41,42,43,44,45,46,47 se sont fortement appuyées sur l’utilisation d’un tel algorithme appelé PhyloCSF 48,49 , une puissante approche génomique comparative qui peut être exploitée pour distinguer les régions du génome codant pour les protéines conservées de celles qui ne sont pas codantes.

Le PhyloCSF compare les fréquences de substitution des codons (LCR) à l’aide d’alignements de nucléotides multi-espèces et de modèles phylogénétiques pour détecter les signatures évolutives de gènes codant pour les protéines. Cette approche empirique basée sur un modèle repose sur la prémisse que les protéines sont principalement conservées au niveau des acides aminés plutôt qu’à la séquence nucléotidique. Par conséquent, les substitutions de codon synonymes, qui codent le même acide aminé, ou les substitutions de codon aux acides aminés ayant des propriétés conservées (c.-à-d. charge, hydrophobicité, polarité) sont notées positivement, tandis que les substitutions non synonymes, y compris les substitutions fausses et absurdes, obtiennent un score négatif. PhyloCSF est formé sur des données du génome entier et s’est avéré efficace pour marquer de courtes portions d’une séquence codante (CDS) isolée de la séquence complète, ce qui est nécessaire lors de l’analyse de microprotéines ou d’exons individuels de gènes codant pour des protéines standard48,49.

Notamment, l’intégration récente des hubs de suivi PhyloCSF dans le Genome Browser 49,50,51 de l’Université de Californie à Santa Cruz (UCSC) permet aux chercheurs de tous horizons d’accéder facilement à une interface conviviale pour interroger les régions génomiques d’intérêt pour le potentiel de codage des protéines. Le protocole décrit ci-dessous fournit des instructions détaillées sur la façon de charger les hubs de suivi PhyloCSF sur le navigateur de génome UCSC et d’interroger ensuite les régions génomiques d’intérêt pour sonder les régions codant pour les protéines à haute confiance (ou l’absence de celles-ci). De plus, dans le cas où un score PhyloCSF positif est observé, des étapes sont délimitées pour analyser davantage le potentiel codant pour les microprotéines et générer efficacement plusieurs alignements d’espèces des séquences d’acides aminés identifiées afin d’illustrer la conservation des séquences inter-espèces. Enfin, plusieurs ressources et outils supplémentaires accessibles au public sont présentés dans la discussion pour étudier les caractéristiques des microprotéines identifiées, y compris les structures de domaine prédites et les connaissances sur la fonction des microprotéines putatives.

Protocole

Le protocole décrit ci-dessous détaille les étapes à suivre pour charger et naviguer dans les pistes du navigateur PhyloCSF sur le navigateur du génome UCSC (généré par Mudge et al.49). Pour des questions générales concernant le navigateur de génome UCSC, un guide complet de l’utilisateur de Genome Browser peut être trouvé ici: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.

1. Chargement du PhyloCSF Track Hub dans le navigateur de génome UCSC

  1. Ouvrez une fenêtre de navigateur Internet et accédez au navigateur de génome UCSC (https://genome.ucsc.edu/).
  2. Sous l’en-tête Nos outils , sélectionnez l’option Track Hubs .
    REMARQUE: L’option Track Hubs se trouve également sous l’onglet Mes données .
  3. Dans l’onglet Hubs publics , tapez PhyloCSF dans la zone Termes de recherche. Cliquez sur le bouton Rechercher dans les hubs publics .
  4. Connectez-vous à PhyloCSF en cliquant sur le bouton Connecter pour le nom du hub PhyloCSF (Description: Potentiel évolutif codant pour les protéines tel que mesuré par PhyloCSF).
    REMARQUE: Ce moyeu de piste se chargera sur de nombreux assemblages, y compris l’homme (hg19 et hg38) et la souris (mm10 et mm39).
  5. Après avoir cliqué sur se connecter, attendez d’être redirigé vers la page UCSC Genome Browser Gateway (https://genome.ucsc.edu/cgi-bin/hgGateway).

2. Naviguer vers les gènes d’intérêt à l’aide d’identificateurs de gènes

  1. Sélectionnez l’espèce et l’assemblage du génome à interroger. Pour interroger une autre espèce (par exemple, la souris), sélectionnez l’espèce d’intérêt sous l’en-tête Parcourir/Sélectionner une espèce en cliquant sur l’icône appropriée, ou tapez l’espèce dans la zone de texte qui dit: Entrez l’espèce, le nom commun ou l’ID d’assemblage.
    REMARQUE : L’assemblage est répertorié directement sous l’en-tête Rechercher une position . En règle générale, la valeur par défaut est l’assemblage humain (par exemple, décembre 2009 [GRCh37/hg19]).
  2. Choisissez l’assemblage à rechercher sous l’en-tête Rechercher une position à l’aide du menu déroulant.
  3. Entrez la position, le symbole du gène ou les termes de recherche dans la zone Position/Terme de recherche et cliquez sur Aller pour accéder à un gène d’intérêt dans le navigateur de génomes.
  4. Si la recherche a abouti à plusieurs correspondances, attendez d’être redirigé vers une page qui nécessite la sélection d’une position d’intérêt. Cliquez sur le gène approprié qui vous intéresse.

3. Naviguer vers les régions génomiques d’intérêt à l’aide d’informations de séquence

  1. Accédez au navigateur de génomes UCSC (https://genome.ucsc.edu/) et sélectionnez l’outil d’alignement de type BLAST (BLAT) sous l’en-tête Nos outils pour interroger une séquence d’ADN ou de protéine spécifique. Vous pouvez également placer le curseur sur l’onglet Outils et sélectionner l’option Blat ou suivre ce lien : https://genome.ucsc.edu/cgi-bin/hgBlat.
  2. Sélectionnez l’espèce (génome) et l’assemblage qui vous intéressent à l’aide des menus déroulants.
  3. Définissez le type de requête à l’aide du menu déroulant.
  4. Collez la séquence d’intérêt dans la zone de texte BLAT Search Genome et cliquez sur Envoyer.
  5. Cliquez sur le lien du navigateur sous la rubrique ACTIONS pour accéder à la région génomique qui vous intéresse.

4. Identification des SORF conservés à l’aide des données de suivi PhyloCSF

  1. Scannez visuellement la zone d’intérêt génomique pour obtenir une note positive des régions PhyloCSF (Figure 1).
    REMARQUE: Pour une explication détaillée de la façon d’interpréter visuellement les scores PhyloCSF sur le navigateur de génome UCSC, consultez la section des résultats représentatifs ci-dessous.
  2. Utilisez la fonction de zoom pour agrandir les régions d’intérêt afin d’examiner les caractéristiques de séquence et de rechercher des codons de démarrage/arrêt. Pour effectuer un zoom avant manuellement, maintenez la touche Maj enfoncée et maintenez enfoncé le bouton de la souris tout en faisant glisser la région d’intérêt. Vous pouvez également utiliser les boutons de zoom avant et de zoom arrière en haut de la page pour naviguer (des options de zoom 1,5x, 3x, 10x ou de base sont disponibles).
    REMARQUE: Avant d’utiliser les boutons de zoom avant / zoom arrière , il est nécessaire de repositionner le gène de sorte que la région d’intérêt soit au milieu de l’écran. Pour effectuer cette action, cliquez sur l’image et faites-la glisser vers la gauche ou la droite pour déplacer la région génomique horizontalement comme vous le souhaitez ou utilisez les flèches de déplacement en haut de la page.
  3. Effectuez un zoom avant jusqu’à ce que la séquence nucléotidique (base) soit visible.
    REMARQUE: La séquence nucléotidique apparaîtra directement au-dessus du score PhyloCSF lissé +1.
  4. Scannez visuellement la séquence nucléotidique près du début et de la fin des régions PhyloCSF à score positif pour identifier les codons putatifs start (ATG) et stop (TGA/TAA/TAG).
    REMARQUE: Si le gène d’intérêt est sur le brin moins de l’ADN, les codons de départ et d’arrêt seront le complément inverse (c.-à-d. CAT pour le codon de départ et TCA / TTA / CTA pour le codon stop).

5. Affichage des régions homologues dans d’autres génomes

  1. Passez la souris sur l’en-tête Affichage en haut de la page et cliquez sur l’option Dans d’autres génomes (Convertir ).
  2. Définissez le génome d’intérêt à l’aide du menu déroulant sous l’en-tête Nouveau génome .
  3. Sélectionnez l’assemblage génomique qui vous intéresse à l’aide du menu déroulant sous l’en-tête Nouvel assemblage , puis cliquez sur le bouton Envoyer .
  4. Une fois que le navigateur renvoie une liste de régions du nouvel assemblage présentant une similitude, cliquez sur le lien de position du chromosome pour accéder à la région homologue d’intérêt.
    REMARQUE : Le pourcentage de bases totales (nucléotides) et la portée couverte par la région seront définis pour chaque région énumérée. Plus le pourcentage de bases correspondantes est élevé, plus la conservation est élevée pour la région d’intérêt.
  5. Suivez les mêmes stratégies de navigation détaillées à la section 4 pour analyser la séquence.

6. Génération d’alignements de séquences multi-espèces pour les microprotéines d’intérêt

  1. Cliquez sur le gène d’intérêt dans la piste GENCODE sur le navigateur de génome UCSC (indiqué à la figure 1A avec une boîte bleue) pour accéder à la page de description du gène.
  2. Sous l’en-tête Séquence et liens vers outils et bases de données , cliquez sur le lien dans le tableau qui lit Autres espèces FASTA.
  3. Cliquez sur les cases associées aux espèces d’intérêt pour les sélectionner. Cliquez sur Soumettre. Copiez et collez les séquences apparaissant en bas de page au format FASTA dans un document de traitement de texte.
  4. Ouvrez une deuxième fenêtre de navigateur et accédez à l’outil Clustal Omega Multiple Sequence Alignment tool 52 sur le site Web de l’Institut européen de bioinformatique (EMBL-EBI)53,54: https://www.ebi.ac.uk/Tools/msa/clustalo/.
  5. Collez les fichiers de séquence qui se trouvent encore dans le Presse-papiers dans la zone de l’ÉTAPE 1 qui lit les séquences dans n’importe quel format pris en charge. Faites défiler jusqu’au bas de la page et cliquez sur Soumettre. Regardez ci-dessous les résultats alignés (en police noire) pour les symboles qui indiquent le degré de conservation de chaque acide aminé (les symboles sont définis dans le tableau 1).
    REMARQUE : la génération de l’alignement peut prendre plusieurs minutes.
  6. Pour afficher les propriétés des acides aminés en couleur, cliquez sur le lien Afficher les couleurs directement au-dessus des séquences pour colorer les acides aminés en fonction de leurs propriétés (définies dans le tableau 2).
  7. Copiez et collez l’alignement de séquence dans un programme de traitement de texte ou de diaporama pour générer une figure ou un fichier d’illustration (par exemple, figure 2).
    REMARQUE: Utilisez une police mono-espacée pour l’alignement, telle que Courier.
  8. Pour afficher d’autres résultats de la page de résultats de Clustal Omega , cliquez sur les onglets appropriés (c.-à-d. Arbre guide ou Arbre phylogénétique).
  9. Cliquez sur l’onglet Visionneuses de résultats pour obtenir des options permettant d’afficher les informations de séquence à l’aide de Jalview, un programme gratuit spécialisé dans l’édition, la visualisation et l’analyse d’alignement de séquencesmultiples 55, ou pour accéder à des liens directs vers MView et Simple Phylogeny56.

Résultats

Ici, nous utiliserons la microprotéine mitoréguline validée (Mtln) comme exemple pour démontrer comment un sORF conservé générera un score PhyloCSF positif qui peut être facilement visualisé et analysé sur le navigateur de génome UCSC. La mitoréguline était auparavant annotée en tant qu’ARN non codant (anciennement ID du gène humain LINC00116 et ID du gène de la souris 1500011K16Rik). La génomique comparative et les méthodes d’analyse de conservation des séquences ont joué un rô...

Discussion

Le protocole présenté ici fournit des instructions détaillées sur la façon d’interroger les régions génomiques d’intérêt pour le potentiel de codage des microprotéines à l’aide de PhyloCSF sur le navigateur de génome convivial UCSC 48,49,50,51. Comme détaillé ci-dessus, PhyloCSF est un puissant algorithme de génomique comparative qui intègre des modèles phylogénétiques ...

Déclarations de divulgation

Les auteurs déclarent qu’ils n’ont pas d’intérêts financiers concurrents.

Remerciements

Ce travail a été soutenu par des subventions des National Institutes of Health (HL-141630 et HL-160569) et de la Cincinnati Children’s Research Foundation (Trustee Award).

matériels

NameCompanyCatalog NumberComments
WebsiteWebsite AddressRequirements
Clustal Omega Multiple Sequence Alignment Toolhttps://www.ebi.ac.uk/Tools/msa/clustalo/Web browserMultiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins)
COXPRESSdbhttps://coxpresdb.jpWeb browserProvides co-regulated gene relationships to estimate gene functions
EMBL-EBI Bioinformatics Tools FAQshttps://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQWeb browserFrequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments
European Bioinformatics Institute (EMBL-EBI),
Tools and Data Resources
https://www.ebi.ac.uk/services/allWeb browserComprehensive list of freely available websites, tools and data resources
Expasy - Swiss Bioinformatics Resource Portalhttps://www.expasy.orgWeb browserSuite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB)
National Center for Biotechnology Information (NCBI)
Conserved Domain Search
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgiWeb browserSearch tool to identify conserved domains within protein or coding nucleotide sequences
Pfam 35http://pfam.xfam.orgWeb browserProtein family (Pfam) database, provides alignments and classification of protein families and domains
PhyloCSF Track Hub Description https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q
edaCd4ir8aZ65ryaD&db=mm10
&c=chr2&g=hub_109801_
PhyloCSF_smooth
Web browserDetailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub
   
   
   
   
   
SignalP 6.0https://services.healthtech.dtu.dk/service.php?SignalP-6.0Web browserPredicts the presence of signal peptides and the location of their cleavage sites
TMHMM - 2.0https://services.healthtech.dtu.dk/service.php?TMHMM-2.0Web browserPrediction of transmembrane helices in proteins
UCSC Genome Browser BLAT Searchhttps://genome.ucsc.edu/cgi-bin/hgBlatWeb browserTool used to find genomic regions using DNA or protein sequence information
UCSC Genome Browser Gatewayhttps://genome.ucsc.edu/cgi-bin/hgGatewayWeb browserDirect link to the UCSC Genome Browser Gateway
UCSC Genome Browser Homehttps://genome.ucsc.edu/Web browserHome website for the UCSC Genome Browser
UCSC Genome Browser Track Data Hubshttps://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubsWeb browserDirect link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks
UCSC Genome Browser User Guidehttps://genome.ucsc.edu/goldenPath/help/hgTracksHelp.htmlWeb browserComprehensive user guide detailing how to navigate the UCSC Genome Browser
WoLF PSORThttps://wolfpsort.hgc.jpWeb browserProtein subcellular localization prediction tool

Références

  1. Collins, F. S., Morgan, M., Patrinos, A. The human genome project: lessons from large-scale biology. Science. 300 (5617), 286-290 (2003).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Sachidanandam, R., et al. A map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms. Nature. 409 (6822), 928-933 (2001).
  4. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  5. Fuentes-Pardo, A. P., Ruzzante, D. E. Whole-genome sequencing approaches for conservation biology: Advantages, limitations and practical recommendations. Molecular Ecology. 26 (20), 5369-5406 (2017).
  6. Carninci, P., et al. The transcriptional landscape of the mammalian genome. Science. 309 (5740), 1559-1563 (2005).
  7. Maeda, N., et al. Transcript annotation in FANTOM3: mouse gene catalog based on physical cDNAs. PLoS Genetics. 2 (4), 62 (2006).
  8. Schlesinger, D., Elsasser, S. J. Revisiting sORFs: overcoming challenges to identify and characterize functional microproteins. The FEBS Journal. 289 (1), 53-74 (2022).
  9. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  10. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  11. Aspden, J. L., et al. Extensive translation of small Open Reading Frames revealed by Poly-Ribo-Seq. Elife. 3, 03528 (2014).
  12. Andrews, S. J., Rothnagel, J. A. Emerging evidence for functional peptides encoded by short open reading frames. Nature Reviews Genetics. 15 (3), 193-204 (2014).
  13. Mackowiak, S. D., et al. Extensive identification and analysis of conserved small ORFs in animals. Genome Biology. 16 (1), 1-21 (2015).
  14. Ruiz-Orera, J., Messeguer, X., Subirana, J. A., Alba, M. M. Long non-coding RNAs as a source of new peptides. Elife. 3, 03523 (2014).
  15. Basrai, M. A., Hieter, P., Boeke, J. D. Small open reading frames: beautiful needles in the haystack. Genome Research. 7 (8), 768-771 (1997).
  16. Frith, M. C., et al. The abundance of short proteins in the mammalian proteome. PLoS Genetics. 2 (4), 52 (2006).
  17. Ladoukakis, E., Pereira, V., Magny, E. G., Eyre-Walker, A., Couso, J. P. Hundreds of putatively functional small open reading frames in Drosophila. Genome Biology. 12 (11), 118 (2011).
  18. Makarewich, C. A., Olson, E. N. Mining for Micropeptides. Trends in Cell Biology. 27 (9), 685-696 (2017).
  19. Wright, B. W., Yi, Z., Weissman, J. S., Chen, J. The dark proteome: translation from noncanonical open reading frames. Trends in Cell Biology. , (2021).
  20. Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11 (12), 909-916 (2015).
  21. Kastenmayer, J. P., et al. Functional genomics of genes with small open reading frames (sORFs) in S. cerevisiae. Genome Research. 16 (3), 365-373 (2006).
  22. Smith, J. E., et al. Translation of small open reading frames within unannotated RNA transcripts in Saccharomyces cerevisiae. Cell Reports. 7 (6), 1858-1866 (2014).
  23. Lin, M. F., et al. Revisiting the protein-coding gene catalog of Drosophila melanogaster using 12 fly genomes. Genome Research. 17 (12), 1823-1836 (2007).
  24. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  25. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. EMBO J. 33 (9), 981-993 (2014).
  26. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  27. Ma, J., et al. Discovery of human sORF-encoded polypeptides (SEPs) in cell lines and tissue. J Proteome Res. 13 (3), 1757-1765 (2014).
  28. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  29. Khitun, A., Ness, T. J., Slavoff, S. A. Small open reading frames and cellular stress responses. Molecular Omics. 15 (2), 108-116 (2019).
  30. Makarewich, C. A. The hidden world of membrane microproteins. Experimental Cell Research. 388 (2), 111853 (2020).
  31. Pueyo, J. I., Magny, E. G., Couso, J. P. New peptides under the s(ORF)ace of the genome. Trends in Biochemical Sciences. 41 (8), 665-678 (2016).
  32. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  33. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  34. Lee, C., et al. The mitochondrial-derived peptide MOTS-c promotes metabolic homeostasis and reduces obesity and insulin resistance. Cell Metabolism. 21 (3), 443-454 (2015).
  35. Pauli, A., Valen, E., Schier, A. F. Identifying (non-)coding RNAs and small peptides: challenges and opportunities. Bioessays. 37 (1), 103-112 (2015).
  36. Plaza, S., Menschaert, G., Payre, F. In search of lost small peptides. Annual Review of Cell and Developmental Biology. 33, 391-416 (2017).
  37. Kiniry, S. J., Michel, A. M., Baranov, P. V. Computational methods for ribosome profiling data analysis. Wiley Interdisciplinary Reviews: RNA. 11 (3), 1577 (2020).
  38. Anderson, D. M., et al. A micropeptide encoded by a putative long noncoding RNA regulates muscle performance. Cell. 160 (4), 595-606 (2015).
  39. Anderson, D. M., et al. Widespread control of calcium signaling by a family of SERCA-inhibiting micropeptides. Science Signaling. 9 (457), (2016).
  40. Makarewich, C. A., et al. MOXI Is a mitochondrial micropeptide that enhances fatty acid beta-oxidation. Cell Reports. 23 (13), 3701-3709 (2018).
  41. Nelson, B. R., et al. A peptide encoded by a transcript annotated as long noncoding RNA enhances SERCA activity in muscle. Science. 351 (6270), 271-275 (2016).
  42. Chu, Q., et al. Regulation of the ER stress response by a mitochondrial microprotein. Nat Commun. 10 (1), 4883 (2019).
  43. Senis, E., et al. TUNAR lncRNA encodes a microprotein that regulates neural differentiation and neurite formation by modulating calcium dynamics. Frontiers in Cell and Developmental Biology. 9, 747667 (2021).
  44. Li, M., et al. A putative long noncoding RNA-encoded micropeptide maintains cellular homeostasis in pancreatic beta cells. Molecular Therapy-Nucleic Acids. 26, 307-320 (2021).
  45. Martinez, T. F., et al. Accurate annotation of human protein-coding small open reading frames. Nature Chemical Biology. 16 (4), 458-468 (2020).
  46. van Heesch, S., et al. The translational landscape of the human heart. Cell. 178 (1), 242-260 (2019).
  47. Makarewich, C. A., et al. The cardiac-enriched microprotein mitolamban regulates mitochondrial respiratory complex assembly and function in mice. Proceedings of the National Academy of Sciences of the United States of America. 119 (6), 2120476119 (2022).
  48. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  49. Mudge, J. M., et al. Discovery of high-confidence human protein-coding genes and exons by whole-genome PhyloCSF helps elucidate 118 GWAS loci. Genome Research. 29 (12), 2073-2087 (2019).
  50. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  51. Raney, B. J., et al. Track data hubs enable visualization of user-defined genome-wide annotations on the UCSC Genome Browser. Bioinformatics. 30 (7), 1003-1005 (2014).
  52. Sievers, F., et al. scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Molecular Systems Biology. 7 (1), 539 (2011).
  53. Goujon, M., et al. A new bioinformatics analysis tools framework at EMBL-EBI. Nucleic Acids Research. 38 (2), 695-699 (2010).
  54. Harte, N., et al. Public web-based services from the European Bioinformatics Institute. Nucleic Acids Research. 32 (2), 3-9 (2004).
  55. Waterhouse, A. M., Procter, J. B., Martin, D. M., Clamp, M., Barton, G. J. Jalview Version 2-a multiple sequence alignment editor and analysis workbench. Bioinformatics. 25 (9), 1189-1191 (2009).
  56. Madeira, F., et al. The EMBL-EBI search and sequence analysis tools APIs in 2019. Nucleic Acids Research. 47 (1), 636-641 (2019).
  57. Friesen, M., et al. Mitoregulin controls beta-oxidation in human and mouse adipocytes. Stem Cell Reports. 14 (4), 590-602 (2020).
  58. Stein, C. S., et al. Mitoregulin: A lncRNA-Encoded microprotein that supports mitochondrial supercomplexes and respiratory efficiency. Cell Reports. 23 (13), 3710-3720 (2018).
  59. Chugunova, A., et al. LINC00116 codes for a mitochondrial peptide linking respiration and lipid metabolism. Proceedings of the Nationall Academy of Sciences of the United States of America. 116 (11), 4940-4945 (2019).
  60. Lin, Y. F., et al. A novel mitochondrial micropeptide MPM enhances mitochondrial respiratory activity and promotes myogenic differentiation. Cell Death and Disease. 10 (7), 528 (2019).
  61. Wang, L., et al. The micropeptide LEMP plays an evolutionarily conserved role in myogenesis. Cell Death and Disease. 11 (5), 357 (2020).
  62. He, S., Liu, S., Zhu, H. The sequence, structure and evolutionary features of HOTAIR in mammals. BMC Evolutionary Biology. 11 (1), 1-14 (2011).
  63. Rinn, J. L., et al. Functional demarcation of active and silent chromatin domains in human HOX loci by noncoding RNAs. Cell. 129 (7), 1311-1323 (2007).
  64. Bhatta, A., et al. A Mitochondrial micropeptide is required for activation of the Nlrp3 inflammasome. Journal of Immunology. 204 (2), 428-437 (2020).
  65. Zhang, D., et al. Functional prediction and physiological characterization of a novel short trans-membrane protein 1 as a subunit of mitochondrial respiratory complexes. Physiological Genomics. 44 (23), 1133-1140 (2012).
  66. Rathore, A., et al. MIEF1 microprotein regulates mitochondrial translation. Biochemistry. 57 (38), 5564-5575 (2018).
  67. Jungreis, I., Sealfon, R., Kellis, M. SARS-CoV-2 gene content and COVID-19 mutation impact by comparing 44 Sarbecovirus genomes. Nature Communications. 12 (1), 2642 (2021).
  68. Chen, J., et al. Pervasive functional translation of noncanonical human open reading frames. Science. 367 (6482), 1140-1146 (2020).
  69. Ruiz-Orera, J., Verdaguer-Grau, P., Villanueva-Canas, J. L., Messeguer, X., Alba, M. M. Translation of neutrally evolving peptides provides a basis for de novo gene evolution. Nature Ecology and Evolution. 2 (5), 890-896 (2018).
  70. Blevins, W. R., et al. Uncovering de novo gene birth in yeast using deep transcriptomics. Nature Communications. 12 (1), 604 (2021).
  71. Papadopoulos, C., et al. Intergenic ORFs as elementary structural modules of de novo gene birth and protein evolution. Genome Research. , (2021).
  72. Vakirlis, N., Duggan, K. M., McLysaght, A. De novo birth of functional, human-specific microproteins. bioRxiv. , 462744 (2021).
  73. Van Oss, S. B., Carvunis, A. R. De novo gene birth. PLoS Genetics. 15 (5), 1008160 (2019).
  74. Andersson, D. I., Jerlstrom-Hultqvist, J., Nasvall, J. Evolution of new functions de novo and from preexisting genes. Cold Spring Harbor Perspectives in Biology. 7 (6), 017996 (2015).
  75. Ge, Q., et al. Micropeptide ASAP encoded by LINC00467 promotes colorectal cancer progression by directly modulating ATP synthase activity. Journal of Clinical Investigations. 131 (22), (2021).
  76. Sonnhammer, E. L., von Heijne, G., Krogh, A. A hidden Markov model for predicting transmembrane helices in protein sequences. Proceedings. International Conference on Intelligent Syststems for Molecular Biology. 6, 175-182 (1998).
  77. Lu, S., et al. CDD/SPARCLE: the conserved domain database in 2020. Nucleic Acids Research. 48, 265-268 (2020).
  78. Mistry, J., et al. Pfam: The protein families database in 2021. Nucleic Acids Research. 49, 412-419 (2021).
  79. Horton, P., et al. PSORT: protein localization predictor. Nucleic Acids Research. 35 (2), 585-587 (2007).
  80. Obayashi, T., Kagaya, Y., Aoki, Y., Tadaka, S., Kinoshita, K. COXPRESdb v7: a gene coexpression database for 11 animal species supported by 23 coexpression platforms for technical evaluation and evolutionary inference. Nucleic Acids Research. 47, 55-62 (2019).
  81. Teufel, F., et al. SignalP 6.0 predicts all five types of signal peptides using protein language models. Nature Biotechnology. , 01156 (2022).

Réimpressions et Autorisations

Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE

Demande d’autorisation

Explorer plus d’articles

Biologienum ro 185

This article has been published

Video Coming Soon

JoVE Logo

Confidentialité

Conditions d'utilisation

Politiques

Recherche

Enseignement

À PROPOS DE JoVE

Copyright © 2025 MyJoVE Corporation. Tous droits réservés.