È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.
* Questi autori hanno contribuito in egual misura
Il protocollo qui descritto fornisce istruzioni dettagliate su come analizzare le regioni genomiche di interesse per il potenziale di codifica delle microproteine utilizzando PhyloCSF sul browser del genoma UCSC di facile utilizzo. Inoltre, si raccomandano diversi strumenti e risorse per studiare ulteriormente le caratteristiche di sequenza delle microproteine identificate per ottenere informazioni sulle loro presunte funzioni.
Il sequenziamento di nuova generazione (NGS) ha spinto in avanti il campo della genomica e ha prodotto sequenze di genoma intero per numerose specie animali e organismi modello. Tuttavia, nonostante questa ricchezza di informazioni sulla sequenza, gli sforzi completi di annotazione genica si sono dimostrati impegnativi, specialmente per le piccole proteine. In particolare, i metodi convenzionali di annotazione delle proteine sono stati progettati per escludere intenzionalmente le proteine putative codificate da brevi frame di lettura aperti (SORF) di lunghezza inferiore a 300 nucleotidi per filtrare il numero esponenzialmente più elevato di SORF non codificanti spuri in tutto il genoma. Di conseguenza, centinaia di piccole proteine funzionali chiamate microproteine (<100 amminoacidi di lunghezza) sono state erroneamente classificate come RNA non codificanti o completamente trascurate.
Qui forniamo un protocollo dettagliato per sfruttare strumenti bioinformatici gratuiti e pubblicamente disponibili per interrogare le regioni genomiche per il potenziale di codifica delle microproteine basato sulla conservazione evolutiva. In particolare, forniamo istruzioni dettagliate su come esaminare la conservazione della sequenza e il potenziale di codifica utilizzando le frequenze di sostituzione filogenetica dei codone (PhyloCSF) sul browser del genoma dell'Università della California Santa Cruz (UCSC). Inoltre, descriviamo in dettaglio i passaggi per generare in modo efficiente allineamenti di più specie di sequenze di microproteine identificate per visualizzare la conservazione della sequenza di aminoacidi e raccomandiamo risorse per analizzare le caratteristiche delle microproteine, comprese le strutture di dominio previste. Questi potenti strumenti possono essere utilizzati per aiutare a identificare presunte sequenze di codifica microproteica in regioni genomiche non canoniche o per escludere la presenza di una sequenza di codifica conservata con potenziale traslazionale in una trascrizione non codificante di interesse.
L'identificazione del set completo di elementi codificanti nel genoma è stato un obiettivo importante sin dall'inizio del Progetto Genoma Umano, e rimane un obiettivo centrale verso la comprensione dei sistemi biologici e l'eziologia delle malattie a base genetica 1,2,3,4. I progressi nelle tecniche NGS hanno portato alla produzione di sequenze di genoma intero per un vasto numero di organismi, tra cui vertebrati, invertebrati, lieviti e piante5. Inoltre, i metodi di sequenziamento trascrizionale ad alto rendimento ha....
Il protocollo descritto di seguito descrive i passaggi per caricare e navigare le tracce del browser PhyloCSF sul browser del genoma UCSC (generato da Mudge et al.49). Per domande generali riguardanti il browser del genoma UCSC, una guida per l'utente del browser Genome completa può essere trovata qui: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.
1. Caricamento dell'hub di traccia PhyloCSF sul browser del genoma UCSC
Qui useremo la microproteina convalidata mitoregulina (Mtln) come esempio per dimostrare come un sORF conservato genererà un punteggio PhyloCSF positivo che può essere facilmente visualizzato e analizzato sul browser del genoma UCSC. La mitoregulina è stata precedentemente annotata come RNA non codificante (precedentemente gene umano ID LINC00116 e gene di topo ID 1500011K16Rik). La genomica comparativa e i metodi di analisi della conservazione delle sequenze hanno svolto un ruolo fondamentale nella .......
Il protocollo qui presentato fornisce istruzioni dettagliate su come interrogare le regioni genomiche di interesse per il potenziale di codifica delle microproteine utilizzando PhyloCSF sul browser del genoma UCSC 48,49,50,51. Come descritto sopra, PhyloCSF è un potente algoritmo di genomica comparativa che integra modelli filogenetici e frequenze di sostituzione dei codone per identificare le.......
Gli autori dichiarano di non avere interessi finanziari concorrenti.
Questo lavoro è stato sostenuto da sovvenzioni del National Institutes of Health (HL-141630 e HL-160569) e della Cincinnati Children's Research Foundation (Trustee Award).
....Name | Company | Catalog Number | Comments |
Website | Website Address | Requirements | |
Clustal Omega Multiple Sequence Alignment Tool | https://www.ebi.ac.uk/Tools/msa/clustalo/ | Web browser | Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins) |
COXPRESSdb | https://coxpresdb.jp | Web browser | Provides co-regulated gene relationships to estimate gene functions |
EMBL-EBI Bioinformatics Tools FAQs | https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ | Web browser | Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments |
European Bioinformatics Institute (EMBL-EBI), Tools and Data Resources | https://www.ebi.ac.uk/services/all | Web browser | Comprehensive list of freely available websites, tools and data resources |
Expasy - Swiss Bioinformatics Resource Portal | https://www.expasy.org | Web browser | Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB) |
National Center for Biotechnology Information (NCBI) Conserved Domain Search | https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi | Web browser | Search tool to identify conserved domains within protein or coding nucleotide sequences |
Pfam 35 | http://pfam.xfam.org | Web browser | Protein family (Pfam) database, provides alignments and classification of protein families and domains |
PhyloCSF Track Hub Description |
https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q edaCd4ir8aZ65ryaD&db=mm10 &c=chr2&g=hub_109801_ PhyloCSF_smooth | Web browser | Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub |
SignalP 6.0 | https://services.healthtech.dtu.dk/service.php?SignalP-6.0 | Web browser | Predicts the presence of signal peptides and the location of their cleavage sites |
TMHMM - 2.0 | https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 | Web browser | Prediction of transmembrane helices in proteins |
UCSC Genome Browser BLAT Search | https://genome.ucsc.edu/cgi-bin/hgBlat | Web browser | Tool used to find genomic regions using DNA or protein sequence information |
UCSC Genome Browser Gateway | https://genome.ucsc.edu/cgi-bin/hgGateway | Web browser | Direct link to the UCSC Genome Browser Gateway |
UCSC Genome Browser Home | https://genome.ucsc.edu/ | Web browser | Home website for the UCSC Genome Browser |
UCSC Genome Browser Track Data Hubs | https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs | Web browser | Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks |
UCSC Genome Browser User Guide | https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html | Web browser | Comprehensive user guide detailing how to navigate the UCSC Genome Browser |
WoLF PSORT | https://wolfpsort.hgc.jp | Web browser | Protein subcellular localization prediction tool |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneEsplora altri articoli
This article has been published
Video Coming Soon