Un approccio integrato per l'identificazione delle microproteine e l'analisi delle sequenze

Omar Brito-Estrada; Keira R. Hassel; Catherine A. Makarewich

doi:10.3791/63841

È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.

Method Article

Un approccio integrato per l'identificazione delle microproteine e l'analisi delle sequenze

DOI:

10.3791/63841

⸱

July 12th, 2022

Omar Brito-Estrada*¹, Keira R. Hassel*¹, Catherine A. Makarewich¹^,²

¹The Heart Institute, Division of Molecular Cardiovascular Biology, Cincinnati Children's Hospital Medical Center, ²Department of Pediatrics, University of Cincinnati College of Medicine

* Questi autori hanno contribuito in egual misura

Please note that all translations are automatically generated. Click here for the English version.

Riepilogo

Il protocollo qui descritto fornisce istruzioni dettagliate su come analizzare le regioni genomiche di interesse per il potenziale di codifica delle microproteine utilizzando PhyloCSF sul browser del genoma UCSC di facile utilizzo. Inoltre, si raccomandano diversi strumenti e risorse per studiare ulteriormente le caratteristiche di sequenza delle microproteine identificate per ottenere informazioni sulle loro presunte funzioni.

Abstract

Il sequenziamento di nuova generazione (NGS) ha spinto in avanti il campo della genomica e ha prodotto sequenze di genoma intero per numerose specie animali e organismi modello. Tuttavia, nonostante questa ricchezza di informazioni sulla sequenza, gli sforzi completi di annotazione genica si sono dimostrati impegnativi, specialmente per le piccole proteine. In particolare, i metodi convenzionali di annotazione delle proteine sono stati progettati per escludere intenzionalmente le proteine putative codificate da brevi frame di lettura aperti (SORF) di lunghezza inferiore a 300 nucleotidi per filtrare il numero esponenzialmente più elevato di SORF non codificanti spuri in tutto il genoma. Di conseguenza, centinaia di piccole proteine funzionali chiamate microproteine (<100 amminoacidi di lunghezza) sono state erroneamente classificate come RNA non codificanti o completamente trascurate.

Qui forniamo un protocollo dettagliato per sfruttare strumenti bioinformatici gratuiti e pubblicamente disponibili per interrogare le regioni genomiche per il potenziale di codifica delle microproteine basato sulla conservazione evolutiva. In particolare, forniamo istruzioni dettagliate su come esaminare la conservazione della sequenza e il potenziale di codifica utilizzando le frequenze di sostituzione filogenetica dei codone (PhyloCSF) sul browser del genoma dell'Università della California Santa Cruz (UCSC). Inoltre, descriviamo in dettaglio i passaggi per generare in modo efficiente allineamenti di più specie di sequenze di microproteine identificate per visualizzare la conservazione della sequenza di aminoacidi e raccomandiamo risorse per analizzare le caratteristiche delle microproteine, comprese le strutture di dominio previste. Questi potenti strumenti possono essere utilizzati per aiutare a identificare presunte sequenze di codifica microproteica in regioni genomiche non canoniche o per escludere la presenza di una sequenza di codifica conservata con potenziale traslazionale in una trascrizione non codificante di interesse.

Introduzione

L'identificazione del set completo di elementi codificanti nel genoma è stato un obiettivo importante sin dall'inizio del Progetto Genoma Umano, e rimane un obiettivo centrale verso la comprensione dei sistemi biologici e l'eziologia delle malattie a base genetica 1,2,3,4. I progressi nelle tecniche NGS hanno portato alla produzione di sequenze di genoma intero per un vasto numero di organismi, tra cui vertebrati, invertebrati, lieviti e piante⁵. Inoltre, i metodi di sequenziamento trascrizionale ad alto rendimento hanno ulteriormente rivelato la complessità del trascrittoma cellulare e identificato migliaia di nuove molecole di RNA con funzioni sia codificanti che non codificanti proteine ^6,7. La decodifica di questa grande quantità di informazioni sulla sequenza è un processo continuo e le sfide rimangono con gli sforzi completi di annotazione genica⁸.

Il recente sviluppo di metodi di profilazione traslazionale, tra cui il profilo dei ribosomi ^9,10 e il sequenziamento dei poli-ribosomi¹¹, hanno fornito prove che indicano che centinaia di eventi di traduzione non canonica mappano a SORF attualmente non annotate in tutto il genoma, con il potenziale di generare piccole proteine chiamate microproteine o micropeptidi 12,13,14,15,16^, ¹⁷. Le microproteine sono emerse come una nuova classe di proteine versatili precedentemente trascurate dai metodi standard di annotazione genica a causa delle loro piccole dimensioni (<100 amminoacidi) e della mancanza di caratteristiche genetiche classiche che codificano proteine 8,12,18,19,20. Le microproteine sono state descritte praticamente in tutti gli organismi, compresi i lieviti^21,22, le mosche 17,23,24 e i mammiferi 25,26,27,28, e hanno dimostrato di svolgere ruoli critici in diversi processi, tra cui sviluppo, metabolismo e segnalazione dello stress 19,20,29^, 30,31,32,33,34. Pertanto, è imperativo continuare a estrarre il genoma per ulteriori membri di questa classe a lungo trascurata di piccole proteine funzionali.

Nonostante il diffuso riconoscimento dell'importanza biologica delle microproteine, questa classe di geni rimane ampiamente sottorappresentata nelle annotazioni del genoma e la loro accurata identificazione continua ad essere una sfida continua che ha ostacolato i progressi nel campo. Recentemente sono stati sviluppati vari strumenti computazionali e metodi sperimentali per superare le difficoltà associate all'identificazione delle sequenze di codifica delle microproteine (ampiamente discusse in diverse revisioni complete 8,35,36,37). Molti recenti studi di identificazione delle microproteine 38,39,40,41,42,43,44,45,46,47 hanno fatto molto affidamento sull'uso di uno di questi algoritmi chiamato PhyloCSF ^48,49 , un potente approccio di genomica comparativa che può essere sfruttato per distinguere le regioni del genoma che codificano proteine conservate da quelle che non sono codificanti.

PhyloCSF confronta le frequenze di sostituzione dei codon (CSF) utilizzando allineamenti nucleotidici multi-specie e modelli filogenetici per rilevare le firme evolutive dei geni che codificano per le proteine. Questo approccio empirico basato su modelli si basa sulla premessa che le proteine sono principalmente conservate a livello di amminoacidi piuttosto che alla sequenza nucleotidica. Pertanto, le sostituzioni di codone sinonimi, che codificano lo stesso amminoacido, o le sostituzioni di codone ad amminoacidi con proprietà conservate (cioè carica, idrofobicità, polarità) sono valutate positivamente, mentre le sostituzioni non sinonimi, comprese le sostituzioni missense e senza senso, ottengono un punteggio negativo. PhyloCSF è addestrato su dati dell'intero genoma e ha dimostrato di essere efficace nel segnare brevi porzioni di una sequenza codificante (CDS) in isolamento dalla sequenza completa, che è necessaria quando si analizzano microproteine o singoli esoni di geni codificanti proteine standard^48,49.

In particolare, la recente integrazione degli hub di traccia PhyloCSF nel Genome Browser 49,50,51 dell'Università della California Santa Cruz (UCSC) consente ai ricercatori di ogni provenienza di accedere facilmente a un'interfaccia user-friendly per interrogare le regioni genomiche di interesse per il potenziale di codifica delle proteine. Il protocollo descritto di seguito fornisce istruzioni dettagliate su come caricare gli hub di traccia PhyloCSF sul browser del genoma UCSC e successivamente interrogare le regioni genomiche di interesse per sondare le regioni codificanti proteine ad alta confidenza (o la loro mancanza). Inoltre, nel caso in cui si osservi un punteggio PhyloCSF positivo, vengono delineati passaggi per analizzare ulteriormente il potenziale di codifica delle microproteine e generare in modo efficiente allineamenti di più specie delle sequenze di amminoacidi identificate per illustrare la conservazione delle sequenze tra specie. Infine, diverse risorse e strumenti aggiuntivi disponibili pubblicamente sono introdotti nella discussione per esaminare le caratteristiche delle microproteine identificate, comprese le strutture di dominio previste e le informazioni sulla presunta funzione delle microproteine.

Protocollo

Il protocollo descritto di seguito descrive i passaggi per caricare e navigare le tracce del browser PhyloCSF sul browser del genoma UCSC (generato da Mudge et ^al.49). Per domande generali riguardanti il browser del genoma UCSC, una guida per l'utente del browser Genome completa può essere trovata qui: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.

1. Caricamento dell'hub di traccia PhyloCSF sul browser del genoma UCSC

Aprire una finestra del browser Internet e passare al browser del genoma UCSC (https://genome.ucsc.edu/).
Sotto l'intestazione I nostri strumenti , seleziona l'opzione Traccia hub .
NOTA: l'opzione Track Hubs si trova anche nella scheda I miei dati .
Nella scheda Hub pubblici digitare PhyloCSF nella casella Termini di ricerca . Fare clic sul pulsante Cerca hub pubblici .
Connettiti a PhyloCSF facendo clic sul pulsante Connetti per il PhyloCSF del nome hub (Descrizione: Potenziale evolutivo di codifica delle proteine misurato da PhyloCSF).
NOTA: questo Track Hub verrà caricato su numerosi assiemi, tra cui umano (hg19 e hg38) e mouse (mm10 e mm39).
Dopo aver fatto clic su Connetti, attendere di essere reindirizzati alla pagina UCSC Genome Browser Gateway (https://genome.ucsc.edu/cgi-bin/hgGateway).

2. Navigazione verso i geni di interesse utilizzando gli identificatori genici

Selezionare l'assembly di specie e genoma da interrogare. Per interrogare una specie diversa (ad esempio, il mouse), selezionare la specie di interesse sotto l'intestazione Sfoglia/Seleziona specie facendo clic sull'icona appropriata o digitare la specie nella casella di testo che dice Inserisci specie, nome comune o ID assemblea.
NOTA: l'assieme è elencato direttamente sotto l'intestazione Trova posizione (Find Position ). In genere, l'impostazione predefinita è l'Assembly umano (ad esempio, dicembre 2009 [GRCh37/hg19]).
Scegliete l'assieme da cercare sotto l'intestazione Trova posizione (Find Position ) utilizzando il menu a discesa.
Inserisci la posizione, il simbolo del gene o i termini di ricerca nella casella Posizione/Termine di ricerca e fai clic su Vai per accedere a un gene di interesse sul Browser del genoma.
Se la ricerca ha portato a più corrispondenze, attendi di essere reindirizzato a una pagina che richiede la selezione di una posizione di interesse. Fare clic sul gene di interesse appropriato.

3. Navigazione verso le regioni genomiche di interesse utilizzando le informazioni di sequenza

Passare al browser del genoma UCSC (https://genome.ucsc.edu/) e selezionare lo strumento di allineamento simile a BLAST (BLAT) sotto l'intestazione I nostri strumenti per interrogare una specifica sequenza di DNA o proteine. In alternativa, passa il cursore sulla scheda Strumenti e seleziona l'opzione Blat o segui questo link: https://genome.ucsc.edu/cgi-bin/hgBlat.
Seleziona la specie (Genoma) e l'Assemblaggio di interesse utilizzando i menu a discesa.
Definire il tipo di query utilizzando il menu a discesa.
Incollare la sequenza di interesse nella casella di testo BLAT Search Genome e fare clic su Invia.
Fare clic sul collegamento del browser sotto l'intestazione AZIONI per navigare verso la regione genomica di interesse.

4. Identificazione delle sORF conservate utilizzando i dati di traccia PhyloCSF

Scansiona visivamente l'area genomica di interesse per ottenere un punteggio positivo nelle regioni PhyloCSF (Figura 1).
NOTA: per una spiegazione dettagliata di come interpretare visivamente i punteggi PhyloCSF sul browser del genoma UCSC, vedere la sezione dei risultati rappresentativi di seguito.
Utilizzate la funzione di zoom per ingrandire le regioni di interesse per esaminare le caratteristiche della sequenza e cercare codoni start/stop. Per ingrandire manualmente, tieni premuto il tasto Maiusc e fai clic e tieni premuto il pulsante del mouse mentre trascini lungo l'area di interesse. In alternativa, utilizzare i pulsanti di zoom avanti e indietro nella parte superiore della pagina per navigare (sono disponibili opzioni di zoom 1,5x, 3x, 10x o di base).
NOTA: Prima di utilizzare i pulsanti di zoom in/zoom out , è necessario riposizionare il gene in modo che la regione di interesse si trovi al centro dello schermo. Per eseguire questa azione, fare clic sull'immagine e trascinarla a sinistra o a destra per spostare la regione genomica orizzontalmente come desiderato o utilizzare le frecce di spostamento nella parte superiore della pagina.
Ingrandire fino a quando la sequenza nucleotidica (base) è visibile.
NOTA: La sequenza nucleotidica apparirà direttamente sopra il punteggio +1 Smoothed PhyloCSF.
Scansiona visivamente la sequenza nucleotidica vicino all'inizio e alla fine delle regioni PhyloCSF con punteggio positivo per identificare i codoni putativi start (ATG) e stop (TGA / TAA / TAG).
NOTA: Se il gene di interesse si trova sul filamento meno del DNA, i codoni di inizio e di arresto saranno il complemento inverso (cioè CAT per il codone di partenza e TCA / TTA / CTA per il codone di arresto).

5. Visualizzazione di regioni omologhe in altri genomi

Passa il mouse sopra l'intestazione Visualizza nella parte superiore della pagina e fai clic sull'opzione In altri genomi (Converti ).
Definisci il genoma di interesse utilizzando il menu a discesa sotto l'intestazione Nuovo genoma .
Selezionare l'assemblaggio genomico di interesse utilizzando il menu a discesa sotto l'intestazione Nuovo assemblaggio , quindi fare clic sul pulsante Invia .
Una volta che il browser restituisce un elenco di regioni nel nuovo assieme con somiglianza, fare clic sul collegamento posizione cromosomica per passare alla regione omologica di interesse.
NOTA: la percentuale di basi totali (nucleotidi) e l'intervallo coperto dalla regione saranno definiti per ogni regione elencata. Maggiore è la percentuale di basi corrispondenti, maggiore è la conservazione per la regione di interesse.
Seguire le stesse strategie di navigazione descritte nella Sezione 4 per analizzare la sequenza.

6. Generazione di allineamenti di sequenze multi-specie per microproteine di interesse

Fare clic sul gene di interesse nella traccia GENCODE sul browser del genoma UCSC (indicato nella Figura 1A con una casella blu) per accedere alla pagina di descrizione del gene.
Sotto l'intestazione Sequenza e collegamenti a strumenti e database , fare clic sul collegamento nella tabella che legge Altre specie FASTA.
Clicca sulle caselle associate alle specie di interesse per selezionarle. Clicca su Invia. Copia e incolla le sequenze visualizzate nella parte inferiore della pagina in formato FASTA in un documento di elaborazione testi.
Aprire una seconda finestra del browser e passare allo strumento Clustal Omega Multiple Sequence Alignment ⁵² sul sito web dell'Istituto europeo di bioinformatica (EMBL-EBI)^53,54: https://www.ebi.ac.uk/Tools/msa/clustalo/.
Incollare i file di sequenza che si trovano ancora negli Appunti nella casella in STEP 1 che legge le sequenze in qualsiasi formato supportato. Scorri fino in fondo alla pagina e fai clic su Invia. Guarda sotto i risultati allineati (in carattere nero) per i simboli che indicano il grado di conservazione di ciascun amminoacido (i simboli sono definiti nella Tabella 1).
NOTA: la generazione dell'allineamento potrebbe richiedere alcuni minuti.
Per visualizzare le proprietà degli amminoacidi a colori, fare clic sul collegamento Mostra colori direttamente sopra le sequenze per colorare gli amminoacidi in base alle loro proprietà (definite nella Tabella 2).
Copiare e incollare l'allineamento della sequenza in un programma di elaborazione testi o presentazione per generare un file di figura o illustrazione (ad esempio, Figura 2).
NOTA: utilizzare un carattere monospaziato per l'allineamento, ad esempio Courier.
Per visualizzare altri output dalla pagina dei risultati di Clustal Omega , fare clic sulle schede appropriate (ad esempio, Albero guida o Albero filogenetico).
Fare clic sulla scheda Visualizzatori risultati per visualizzare le informazioni sulla sequenza utilizzando Jalview, un programma gratuito specializzato in modifica, visualizzazione e analisi dell'allineamento di sequenze multiple⁵⁵, o per accedere a collegamenti diretti a MView e Simple Phylogeny⁵⁶.

Risultati

Qui useremo la microproteina convalidata mitoregulina (Mtln) come esempio per dimostrare come un sORF conservato genererà un punteggio PhyloCSF positivo che può essere facilmente visualizzato e analizzato sul browser del genoma UCSC. La mitoregulina è stata precedentemente annotata come RNA non codificante (precedentemente gene umano ID LINC00116 e gene di topo ID 1500011K16Rik). La genomica comparativa e i metodi di analisi della conservazione delle sequenze hanno svolto un ruolo fondamentale nella ...

Discussione

Il protocollo qui presentato fornisce istruzioni dettagliate su come interrogare le regioni genomiche di interesse per il potenziale di codifica delle microproteine utilizzando PhyloCSF sul browser del genoma UCSC 48,49,50,51. Come descritto sopra, PhyloCSF è un potente algoritmo di genomica comparativa che integra modelli filogenetici e frequenze di sostituzione dei codone per identificare le...

Divulgazioni

Gli autori dichiarano di non avere interessi finanziari concorrenti.

Riconoscimenti

Questo lavoro è stato sostenuto da sovvenzioni del National Institutes of Health (HL-141630 e HL-160569) e della Cincinnati Children's Research Foundation (Trustee Award).

Materiali

Name	Company	Catalog Number	Comments
Website	Website Address	Requirements
Clustal Omega Multiple Sequence Alignment Tool	https://www.ebi.ac.uk/Tools/msa/clustalo/	Web browser	Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins)
COXPRESSdb	https://coxpresdb.jp	Web browser	Provides co-regulated gene relationships to estimate gene functions
EMBL-EBI Bioinformatics Tools FAQs	https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ	Web browser	Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments
European Bioinformatics Institute (EMBL-EBI), Tools and Data Resources	https://www.ebi.ac.uk/services/all	Web browser	Comprehensive list of freely available websites, tools and data resources
Expasy - Swiss Bioinformatics Resource Portal	https://www.expasy.org	Web browser	Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB)
National Center for Biotechnology Information (NCBI) Conserved Domain Search	https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi	Web browser	Search tool to identify conserved domains within protein or coding nucleotide sequences
Pfam 35	http://pfam.xfam.org	Web browser	Protein family (Pfam) database, provides alignments and classification of protein families and domains
PhyloCSF Track Hub Description	https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q edaCd4ir8aZ65ryaD&db=mm10 &c=chr2&g=hub_109801_ PhyloCSF_smooth	Web browser	Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub
SignalP 6.0	https://services.healthtech.dtu.dk/service.php?SignalP-6.0	Web browser	Predicts the presence of signal peptides and the location of their cleavage sites
TMHMM - 2.0	https://services.healthtech.dtu.dk/service.php?TMHMM-2.0	Web browser	Prediction of transmembrane helices in proteins
UCSC Genome Browser BLAT Search	https://genome.ucsc.edu/cgi-bin/hgBlat	Web browser	Tool used to find genomic regions using DNA or protein sequence information
UCSC Genome Browser Gateway	https://genome.ucsc.edu/cgi-bin/hgGateway	Web browser	Direct link to the UCSC Genome Browser Gateway
UCSC Genome Browser Home	https://genome.ucsc.edu/	Web browser	Home website for the UCSC Genome Browser
UCSC Genome Browser Track Data Hubs	https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs	Web browser	Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks
UCSC Genome Browser User Guide	https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html	Web browser	Comprehensive user guide detailing how to navigate the UCSC Genome Browser
WoLF PSORT	https://wolfpsort.hgc.jp	Web browser	Protein subcellular localization prediction tool

Riferimenti

Collins, F. S., Morgan, M., Patrinos, A. The human genome project: lessons from large-scale biology. Science. 300 (5617), 286-290 (2003).
Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
Sachidanandam, R., et al. A map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms. Nature. 409 (6822), 928-933 (2001).
Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
Fuentes-Pardo, A. P., Ruzzante, D. E. Whole-genome sequencing approaches for conservation biology: Advantages, limitations and practical recommendations. Molecular Ecology. 26 (20), 5369-5406 (2017).
Carninci, P., et al. The transcriptional landscape of the mammalian genome. Science. 309 (5740), 1559-1563 (2005).
Maeda, N., et al. Transcript annotation in FANTOM3: mouse gene catalog based on physical cDNAs. PLoS Genetics. 2 (4), 62 (2006).
Schlesinger, D., Elsasser, S. J. Revisiting sORFs: overcoming challenges to identify and characterize functional microproteins. The FEBS Journal. 289 (1), 53-74 (2022).
Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
Aspden, J. L., et al. Extensive translation of small Open Reading Frames revealed by Poly-Ribo-Seq. Elife. 3, 03528 (2014).
Andrews, S. J., Rothnagel, J. A. Emerging evidence for functional peptides encoded by short open reading frames. Nature Reviews Genetics. 15 (3), 193-204 (2014).
Mackowiak, S. D., et al. Extensive identification and analysis of conserved small ORFs in animals. Genome Biology. 16 (1), 1-21 (2015).
Ruiz-Orera, J., Messeguer, X., Subirana, J. A., Alba, M. M. Long non-coding RNAs as a source of new peptides. Elife. 3, 03523 (2014).
Basrai, M. A., Hieter, P., Boeke, J. D. Small open reading frames: beautiful needles in the haystack. Genome Research. 7 (8), 768-771 (1997).
Frith, M. C., et al. The abundance of short proteins in the mammalian proteome. PLoS Genetics. 2 (4), 52 (2006).
Ladoukakis, E., Pereira, V., Magny, E. G., Eyre-Walker, A., Couso, J. P. Hundreds of putatively functional small open reading frames in Drosophila. Genome Biology. 12 (11), 118 (2011).
Makarewich, C. A., Olson, E. N. Mining for Micropeptides. Trends in Cell Biology. 27 (9), 685-696 (2017).
Wright, B. W., Yi, Z., Weissman, J. S., Chen, J. The dark proteome: translation from noncanonical open reading frames. Trends in Cell Biology. , (2021).
Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11 (12), 909-916 (2015).
Kastenmayer, J. P., et al. Functional genomics of genes with small open reading frames (sORFs) in S. cerevisiae. Genome Research. 16 (3), 365-373 (2006).
Smith, J. E., et al. Translation of small open reading frames within unannotated RNA transcripts in Saccharomyces cerevisiae. Cell Reports. 7 (6), 1858-1866 (2014).
Lin, M. F., et al. Revisiting the protein-coding gene catalog of Drosophila melanogaster using 12 fly genomes. Genome Research. 17 (12), 1823-1836 (2007).
Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. EMBO J. 33 (9), 981-993 (2014).
Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
Ma, J., et al. Discovery of human sORF-encoded polypeptides (SEPs) in cell lines and tissue. J Proteome Res. 13 (3), 1757-1765 (2014).
Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
Khitun, A., Ness, T. J., Slavoff, S. A. Small open reading frames and cellular stress responses. Molecular Omics. 15 (2), 108-116 (2019).
Makarewich, C. A. The hidden world of membrane microproteins. Experimental Cell Research. 388 (2), 111853 (2020).
Pueyo, J. I., Magny, E. G., Couso, J. P. New peptides under the s(ORF)ace of the genome. Trends in Biochemical Sciences. 41 (8), 665-678 (2016).
Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
Lee, C., et al. The mitochondrial-derived peptide MOTS-c promotes metabolic homeostasis and reduces obesity and insulin resistance. Cell Metabolism. 21 (3), 443-454 (2015).
Pauli, A., Valen, E., Schier, A. F. Identifying (non-)coding RNAs and small peptides: challenges and opportunities. Bioessays. 37 (1), 103-112 (2015).
Plaza, S., Menschaert, G., Payre, F. In search of lost small peptides. Annual Review of Cell and Developmental Biology. 33, 391-416 (2017).
Kiniry, S. J., Michel, A. M., Baranov, P. V. Computational methods for ribosome profiling data analysis. Wiley Interdisciplinary Reviews: RNA. 11 (3), 1577 (2020).
Anderson, D. M., et al. A micropeptide encoded by a putative long noncoding RNA regulates muscle performance. Cell. 160 (4), 595-606 (2015).
Anderson, D. M., et al. Widespread control of calcium signaling by a family of SERCA-inhibiting micropeptides. Science Signaling. 9 (457), (2016).
Makarewich, C. A., et al. MOXI Is a mitochondrial micropeptide that enhances fatty acid beta-oxidation. Cell Reports. 23 (13), 3701-3709 (2018).
Nelson, B. R., et al. A peptide encoded by a transcript annotated as long noncoding RNA enhances SERCA activity in muscle. Science. 351 (6270), 271-275 (2016).
Chu, Q., et al. Regulation of the ER stress response by a mitochondrial microprotein. Nat Commun. 10 (1), 4883 (2019).
Senis, E., et al. TUNAR lncRNA encodes a microprotein that regulates neural differentiation and neurite formation by modulating calcium dynamics. Frontiers in Cell and Developmental Biology. 9, 747667 (2021).
Li, M., et al. A putative long noncoding RNA-encoded micropeptide maintains cellular homeostasis in pancreatic beta cells. Molecular Therapy-Nucleic Acids. 26, 307-320 (2021).
Martinez, T. F., et al. Accurate annotation of human protein-coding small open reading frames. Nature Chemical Biology. 16 (4), 458-468 (2020).
van Heesch, S., et al. The translational landscape of the human heart. Cell. 178 (1), 242-260 (2019).
Makarewich, C. A., et al. The cardiac-enriched microprotein mitolamban regulates mitochondrial respiratory complex assembly and function in mice. Proceedings of the National Academy of Sciences of the United States of America. 119 (6), 2120476119 (2022).
Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
Mudge, J. M., et al. Discovery of high-confidence human protein-coding genes and exons by whole-genome PhyloCSF helps elucidate 118 GWAS loci. Genome Research. 29 (12), 2073-2087 (2019).
Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
Raney, B. J., et al. Track data hubs enable visualization of user-defined genome-wide annotations on the UCSC Genome Browser. Bioinformatics. 30 (7), 1003-1005 (2014).
Sievers, F., et al. scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Molecular Systems Biology. 7 (1), 539 (2011).
Goujon, M., et al. A new bioinformatics analysis tools framework at EMBL-EBI. Nucleic Acids Research. 38 (2), 695-699 (2010).
Harte, N., et al. Public web-based services from the European Bioinformatics Institute. Nucleic Acids Research. 32 (2), 3-9 (2004).
Waterhouse, A. M., Procter, J. B., Martin, D. M., Clamp, M., Barton, G. J. Jalview Version 2-a multiple sequence alignment editor and analysis workbench. Bioinformatics. 25 (9), 1189-1191 (2009).
Madeira, F., et al. The EMBL-EBI search and sequence analysis tools APIs in 2019. Nucleic Acids Research. 47 (1), 636-641 (2019).
Friesen, M., et al. Mitoregulin controls beta-oxidation in human and mouse adipocytes. Stem Cell Reports. 14 (4), 590-602 (2020).
Stein, C. S., et al. Mitoregulin: A lncRNA-Encoded microprotein that supports mitochondrial supercomplexes and respiratory efficiency. Cell Reports. 23 (13), 3710-3720 (2018).
Chugunova, A., et al. LINC00116 codes for a mitochondrial peptide linking respiration and lipid metabolism. Proceedings of the Nationall Academy of Sciences of the United States of America. 116 (11), 4940-4945 (2019).
Lin, Y. F., et al. A novel mitochondrial micropeptide MPM enhances mitochondrial respiratory activity and promotes myogenic differentiation. Cell Death and Disease. 10 (7), 528 (2019).
Wang, L., et al. The micropeptide LEMP plays an evolutionarily conserved role in myogenesis. Cell Death and Disease. 11 (5), 357 (2020).
He, S., Liu, S., Zhu, H. The sequence, structure and evolutionary features of HOTAIR in mammals. BMC Evolutionary Biology. 11 (1), 1-14 (2011).
Rinn, J. L., et al. Functional demarcation of active and silent chromatin domains in human HOX loci by noncoding RNAs. Cell. 129 (7), 1311-1323 (2007).
Bhatta, A., et al. A Mitochondrial micropeptide is required for activation of the Nlrp3 inflammasome. Journal of Immunology. 204 (2), 428-437 (2020).
Zhang, D., et al. Functional prediction and physiological characterization of a novel short trans-membrane protein 1 as a subunit of mitochondrial respiratory complexes. Physiological Genomics. 44 (23), 1133-1140 (2012).
Rathore, A., et al. MIEF1 microprotein regulates mitochondrial translation. Biochemistry. 57 (38), 5564-5575 (2018).
Jungreis, I., Sealfon, R., Kellis, M. SARS-CoV-2 gene content and COVID-19 mutation impact by comparing 44 Sarbecovirus genomes. Nature Communications. 12 (1), 2642 (2021).
Chen, J., et al. Pervasive functional translation of noncanonical human open reading frames. Science. 367 (6482), 1140-1146 (2020).
Ruiz-Orera, J., Verdaguer-Grau, P., Villanueva-Canas, J. L., Messeguer, X., Alba, M. M. Translation of neutrally evolving peptides provides a basis for de novo gene evolution. Nature Ecology and Evolution. 2 (5), 890-896 (2018).
Blevins, W. R., et al. Uncovering de novo gene birth in yeast using deep transcriptomics. Nature Communications. 12 (1), 604 (2021).
Papadopoulos, C., et al. Intergenic ORFs as elementary structural modules of de novo gene birth and protein evolution. Genome Research. , (2021).
Vakirlis, N., Duggan, K. M., McLysaght, A. De novo birth of functional, human-specific microproteins. bioRxiv. , 462744 (2021).
Van Oss, S. B., Carvunis, A. R. De novo gene birth. PLoS Genetics. 15 (5), 1008160 (2019).
Andersson, D. I., Jerlstrom-Hultqvist, J., Nasvall, J. Evolution of new functions de novo and from preexisting genes. Cold Spring Harbor Perspectives in Biology. 7 (6), 017996 (2015).
Ge, Q., et al. Micropeptide ASAP encoded by LINC00467 promotes colorectal cancer progression by directly modulating ATP synthase activity. Journal of Clinical Investigations. 131 (22), (2021).
Sonnhammer, E. L., von Heijne, G., Krogh, A. A hidden Markov model for predicting transmembrane helices in protein sequences. Proceedings. International Conference on Intelligent Syststems for Molecular Biology. 6, 175-182 (1998).
Lu, S., et al. CDD/SPARCLE: the conserved domain database in 2020. Nucleic Acids Research. 48, 265-268 (2020).
Mistry, J., et al. Pfam: The protein families database in 2021. Nucleic Acids Research. 49, 412-419 (2021).
Horton, P., et al. PSORT: protein localization predictor. Nucleic Acids Research. 35 (2), 585-587 (2007).
Obayashi, T., Kagaya, Y., Aoki, Y., Tadaka, S., Kinoshita, K. COXPRESdb v7: a gene coexpression database for 11 animal species supported by 23 coexpression platforms for technical evaluation and evolutionary inference. Nucleic Acids Research. 47, 55-62 (2019).
Teufel, F., et al. SignalP 6.0 predicts all five types of signal peptides using protein language models. Nature Biotechnology. , 01156 (2022).

Ristampe e Autorizzazioni

Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE

Richiedi Autorizzazione

Esplora altri articoli

Biologia Numero 185

This article has been published

Video Coming Soon

Keep me updated: