È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.
Method Article
* Questi autori hanno contribuito in egual misura
Il protocollo qui descritto fornisce istruzioni dettagliate su come analizzare le regioni genomiche di interesse per il potenziale di codifica delle microproteine utilizzando PhyloCSF sul browser del genoma UCSC di facile utilizzo. Inoltre, si raccomandano diversi strumenti e risorse per studiare ulteriormente le caratteristiche di sequenza delle microproteine identificate per ottenere informazioni sulle loro presunte funzioni.
Il sequenziamento di nuova generazione (NGS) ha spinto in avanti il campo della genomica e ha prodotto sequenze di genoma intero per numerose specie animali e organismi modello. Tuttavia, nonostante questa ricchezza di informazioni sulla sequenza, gli sforzi completi di annotazione genica si sono dimostrati impegnativi, specialmente per le piccole proteine. In particolare, i metodi convenzionali di annotazione delle proteine sono stati progettati per escludere intenzionalmente le proteine putative codificate da brevi frame di lettura aperti (SORF) di lunghezza inferiore a 300 nucleotidi per filtrare il numero esponenzialmente più elevato di SORF non codificanti spuri in tutto il genoma. Di conseguenza, centinaia di piccole proteine funzionali chiamate microproteine (<100 amminoacidi di lunghezza) sono state erroneamente classificate come RNA non codificanti o completamente trascurate.
Qui forniamo un protocollo dettagliato per sfruttare strumenti bioinformatici gratuiti e pubblicamente disponibili per interrogare le regioni genomiche per il potenziale di codifica delle microproteine basato sulla conservazione evolutiva. In particolare, forniamo istruzioni dettagliate su come esaminare la conservazione della sequenza e il potenziale di codifica utilizzando le frequenze di sostituzione filogenetica dei codone (PhyloCSF) sul browser del genoma dell'Università della California Santa Cruz (UCSC). Inoltre, descriviamo in dettaglio i passaggi per generare in modo efficiente allineamenti di più specie di sequenze di microproteine identificate per visualizzare la conservazione della sequenza di aminoacidi e raccomandiamo risorse per analizzare le caratteristiche delle microproteine, comprese le strutture di dominio previste. Questi potenti strumenti possono essere utilizzati per aiutare a identificare presunte sequenze di codifica microproteica in regioni genomiche non canoniche o per escludere la presenza di una sequenza di codifica conservata con potenziale traslazionale in una trascrizione non codificante di interesse.
L'identificazione del set completo di elementi codificanti nel genoma è stato un obiettivo importante sin dall'inizio del Progetto Genoma Umano, e rimane un obiettivo centrale verso la comprensione dei sistemi biologici e l'eziologia delle malattie a base genetica 1,2,3,4. I progressi nelle tecniche NGS hanno portato alla produzione di sequenze di genoma intero per un vasto numero di organismi, tra cui vertebrati, invertebrati, lieviti e piante5. Inoltre, i metodi di sequenziamento trascrizionale ad alto rendimento hanno ulteriormente rivelato la complessità del trascrittoma cellulare e identificato migliaia di nuove molecole di RNA con funzioni sia codificanti che non codificanti proteine 6,7. La decodifica di questa grande quantità di informazioni sulla sequenza è un processo continuo e le sfide rimangono con gli sforzi completi di annotazione genica8.
Il recente sviluppo di metodi di profilazione traslazionale, tra cui il profilo dei ribosomi 9,10 e il sequenziamento dei poli-ribosomi11, hanno fornito prove che indicano che centinaia di eventi di traduzione non canonica mappano a SORF attualmente non annotate in tutto il genoma, con il potenziale di generare piccole proteine chiamate microproteine o micropeptidi 12,13,14,15,16, 17. Le microproteine sono emerse come una nuova classe di proteine versatili precedentemente trascurate dai metodi standard di annotazione genica a causa delle loro piccole dimensioni (<100 amminoacidi) e della mancanza di caratteristiche genetiche classiche che codificano proteine 8,12,18,19,20. Le microproteine sono state descritte praticamente in tutti gli organismi, compresi i lieviti21,22, le mosche 17,23,24 e i mammiferi 25,26,27,28, e hanno dimostrato di svolgere ruoli critici in diversi processi, tra cui sviluppo, metabolismo e segnalazione dello stress 19,20,29, 30,31,32,33,34. Pertanto, è imperativo continuare a estrarre il genoma per ulteriori membri di questa classe a lungo trascurata di piccole proteine funzionali.
Nonostante il diffuso riconoscimento dell'importanza biologica delle microproteine, questa classe di geni rimane ampiamente sottorappresentata nelle annotazioni del genoma e la loro accurata identificazione continua ad essere una sfida continua che ha ostacolato i progressi nel campo. Recentemente sono stati sviluppati vari strumenti computazionali e metodi sperimentali per superare le difficoltà associate all'identificazione delle sequenze di codifica delle microproteine (ampiamente discusse in diverse revisioni complete 8,35,36,37). Molti recenti studi di identificazione delle microproteine 38,39,40,41,42,43,44,45,46,47 hanno fatto molto affidamento sull'uso di uno di questi algoritmi chiamato PhyloCSF 48,49 , un potente approccio di genomica comparativa che può essere sfruttato per distinguere le regioni del genoma che codificano proteine conservate da quelle che non sono codificanti.
PhyloCSF confronta le frequenze di sostituzione dei codon (CSF) utilizzando allineamenti nucleotidici multi-specie e modelli filogenetici per rilevare le firme evolutive dei geni che codificano per le proteine. Questo approccio empirico basato su modelli si basa sulla premessa che le proteine sono principalmente conservate a livello di amminoacidi piuttosto che alla sequenza nucleotidica. Pertanto, le sostituzioni di codone sinonimi, che codificano lo stesso amminoacido, o le sostituzioni di codone ad amminoacidi con proprietà conservate (cioè carica, idrofobicità, polarità) sono valutate positivamente, mentre le sostituzioni non sinonimi, comprese le sostituzioni missense e senza senso, ottengono un punteggio negativo. PhyloCSF è addestrato su dati dell'intero genoma e ha dimostrato di essere efficace nel segnare brevi porzioni di una sequenza codificante (CDS) in isolamento dalla sequenza completa, che è necessaria quando si analizzano microproteine o singoli esoni di geni codificanti proteine standard48,49.
In particolare, la recente integrazione degli hub di traccia PhyloCSF nel Genome Browser 49,50,51 dell'Università della California Santa Cruz (UCSC) consente ai ricercatori di ogni provenienza di accedere facilmente a un'interfaccia user-friendly per interrogare le regioni genomiche di interesse per il potenziale di codifica delle proteine. Il protocollo descritto di seguito fornisce istruzioni dettagliate su come caricare gli hub di traccia PhyloCSF sul browser del genoma UCSC e successivamente interrogare le regioni genomiche di interesse per sondare le regioni codificanti proteine ad alta confidenza (o la loro mancanza). Inoltre, nel caso in cui si osservi un punteggio PhyloCSF positivo, vengono delineati passaggi per analizzare ulteriormente il potenziale di codifica delle microproteine e generare in modo efficiente allineamenti di più specie delle sequenze di amminoacidi identificate per illustrare la conservazione delle sequenze tra specie. Infine, diverse risorse e strumenti aggiuntivi disponibili pubblicamente sono introdotti nella discussione per esaminare le caratteristiche delle microproteine identificate, comprese le strutture di dominio previste e le informazioni sulla presunta funzione delle microproteine.
Il protocollo descritto di seguito descrive i passaggi per caricare e navigare le tracce del browser PhyloCSF sul browser del genoma UCSC (generato da Mudge et al.49). Per domande generali riguardanti il browser del genoma UCSC, una guida per l'utente del browser Genome completa può essere trovata qui: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.
1. Caricamento dell'hub di traccia PhyloCSF sul browser del genoma UCSC
2. Navigazione verso i geni di interesse utilizzando gli identificatori genici
3. Navigazione verso le regioni genomiche di interesse utilizzando le informazioni di sequenza
4. Identificazione delle sORF conservate utilizzando i dati di traccia PhyloCSF
5. Visualizzazione di regioni omologhe in altri genomi
6. Generazione di allineamenti di sequenze multi-specie per microproteine di interesse
Qui useremo la microproteina convalidata mitoregulina (Mtln) come esempio per dimostrare come un sORF conservato genererà un punteggio PhyloCSF positivo che può essere facilmente visualizzato e analizzato sul browser del genoma UCSC. La mitoregulina è stata precedentemente annotata come RNA non codificante (precedentemente gene umano ID LINC00116 e gene di topo ID 1500011K16Rik). La genomica comparativa e i metodi di analisi della conservazione delle sequenze hanno svolto un ruolo fondamentale nella ...
Il protocollo qui presentato fornisce istruzioni dettagliate su come interrogare le regioni genomiche di interesse per il potenziale di codifica delle microproteine utilizzando PhyloCSF sul browser del genoma UCSC 48,49,50,51. Come descritto sopra, PhyloCSF è un potente algoritmo di genomica comparativa che integra modelli filogenetici e frequenze di sostituzione dei codone per identificare le...
Gli autori dichiarano di non avere interessi finanziari concorrenti.
Questo lavoro è stato sostenuto da sovvenzioni del National Institutes of Health (HL-141630 e HL-160569) e della Cincinnati Children's Research Foundation (Trustee Award).
Name | Company | Catalog Number | Comments |
Website | Website Address | Requirements | |
Clustal Omega Multiple Sequence Alignment Tool | https://www.ebi.ac.uk/Tools/msa/clustalo/ | Web browser | Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins) |
COXPRESSdb | https://coxpresdb.jp | Web browser | Provides co-regulated gene relationships to estimate gene functions |
EMBL-EBI Bioinformatics Tools FAQs | https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ | Web browser | Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments |
European Bioinformatics Institute (EMBL-EBI), Tools and Data Resources | https://www.ebi.ac.uk/services/all | Web browser | Comprehensive list of freely available websites, tools and data resources |
Expasy - Swiss Bioinformatics Resource Portal | https://www.expasy.org | Web browser | Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB) |
National Center for Biotechnology Information (NCBI) Conserved Domain Search | https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi | Web browser | Search tool to identify conserved domains within protein or coding nucleotide sequences |
Pfam 35 | http://pfam.xfam.org | Web browser | Protein family (Pfam) database, provides alignments and classification of protein families and domains |
PhyloCSF Track Hub Description | https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q edaCd4ir8aZ65ryaD&db=mm10 &c=chr2&g=hub_109801_ PhyloCSF_smooth | Web browser | Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub |
SignalP 6.0 | https://services.healthtech.dtu.dk/service.php?SignalP-6.0 | Web browser | Predicts the presence of signal peptides and the location of their cleavage sites |
TMHMM - 2.0 | https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 | Web browser | Prediction of transmembrane helices in proteins |
UCSC Genome Browser BLAT Search | https://genome.ucsc.edu/cgi-bin/hgBlat | Web browser | Tool used to find genomic regions using DNA or protein sequence information |
UCSC Genome Browser Gateway | https://genome.ucsc.edu/cgi-bin/hgGateway | Web browser | Direct link to the UCSC Genome Browser Gateway |
UCSC Genome Browser Home | https://genome.ucsc.edu/ | Web browser | Home website for the UCSC Genome Browser |
UCSC Genome Browser Track Data Hubs | https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs | Web browser | Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks |
UCSC Genome Browser User Guide | https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html | Web browser | Comprehensive user guide detailing how to navigate the UCSC Genome Browser |
WoLF PSORT | https://wolfpsort.hgc.jp | Web browser | Protein subcellular localization prediction tool |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon