L'interpretazione dei dati di sequenziamento generati dall'esperimento di profilazione dei ribosomi è fondamentale per misurare quantitativamente le attività traslazionali dei ribosomi sull'mRNA e per studiare i meccanismi di regolazione traslazionale. In questo protocollo, descriveremo la procedura computazionale per l'utilizzo dei dati di profilazione del ribosoma e RiboCode, uno strumento da riga di comando per decodificare la traduzione di mRNA su scala genomica e risoluzione a singolo nucleotide. Questo metodo consente di cercare i nuovi peptidi derivanti dalle regioni genomiche al di fuori dei geni codificanti proteine annotate e offre l'opportunità di quantificare il tasso di traduzione dell'mRNA.
Per iniziare, apri una finestra del terminale Linux e crea un ambiente conda eseguendo il comando. Passare all'ambiente creato e installare RiboCode e le dipendenze eseguendo il comando. Per ottenere i file di riferimento del genoma per la sequenza di riferimento, visitare il sito Web Ensembl, quindi fare clic su Download, quindi su Download FTP.
Fare clic sull'opzione FASTA nella colonna DNA FASTA e selezionare la riga in cui la specie è umana, mostrata nella tabella nella pagina del sito Web. Nella pagina del sito Web Ensembl, copiare il collegamento come indicato nel testo, quindi scaricare e decomprimere i file nel terminale eseguendo il comando. Per l'annotazione di riferimento, fare clic con il pulsante destro del mouse su GTF nella colonna set di geni nell'ultima pagina Web aperta.
Copia il link e scaricalo usando il comando. Per ottenere sequenze di rRNA, aprire il browser del genoma UCSC, quindi fare clic su Strumenti e selezionare il browser delle tabelle nell'elenco a discesa. Nella pagina del browser del genoma UCSC, specificare mammifero per clade, umano per genoma, tutte le tabelle per gruppo, maschera R per tabella e genoma per regione.
Per filtrare, fate clic su Crea per passare a una nuova pagina e impostate la classe di rappresentazione in base alla corrispondenza con rRNA. Fare clic su Invia, quindi impostare il formato di output su sequenza e il nome del file di output come HG38_rRNA. FA. Infine, fare clic su Ottieni output, quindi selezionare Ottieni sequenza per recuperare la sequenza rRNA.
Per ottenere set di dati di profilatura dei ribosomi dall'archivio di lettura della sequenza, scaricare gli esempi di replica del gruppo di trattamento si-eIFe e rinominarli eseguendo il comando. Scaricare quindi gli esempi di replica del gruppo di controllo e rinominarli eseguendo il comando. Per rimuovere la contaminazione da rRNA, iniziare a indicizzare le sequenze di riferimento dell'rRNA eseguendo il comando.
Dopo l'indicizzazione, allineare le letture al riferimento all'rRNA per escludere le letture provenienti dall'rRNA eseguendo il comando. Inizia creando un indice del genoma eseguendo il comando. Quindi allineare le letture pulite senza contaminazione di rRNA al riferimento creato eseguendo il comando, quindi ordinare e indicizzare i file di allineamento eseguendo il comando.
Preparare le annotazioni della trascrizione eseguendo il comando. Selezionare frammenti protetti da ribosomi di lunghezze specifiche e identificare le loro posizioni del sito P eseguendo il comando. Modificare i file di configurazione per ogni esempio e unirli.
Quindi eseguire RiboCode eseguendo il comando. La distribuzione in frequenza delle lunghezze delle letture ha mostrato che la maggior parte dei frammenti protetti dai ribosomi corrispondono a 25-35 nucleotidi. Le posizioni del sito P per diverse lunghezze di frammenti protetti da ribosomi sono state determinate esaminando le distanze dalle loro cinque estremità prime ai codoni di inizio e arresto annotati.
I risultati della mappatura mostrano che 10.394 geni codificano per frame di lettura aperti annotati. Inoltre, 509 e 168 geni codificano per frame di lettura aperti a monte e a valle, mentre 939 geni codificano per frame di lettura aperti a monte o a valle, sovrapposti a frame di lettura aperti annotati noti. Inoltre, 68 geni codificanti proteine e 2.601 geni non codificanti codificano per nuovi frame di lettura aperti.
La distribuzione della lunghezza ha mostrato che i fotogrammi di lettura aperti a monte, a valle, nuovi e sovrapposti erano più brevi dei fotogrammi di lettura aperti annotati. I conteggi relativi dei frammenti protetti da ribosomi sono stati calcolati per ogni frame di lettura aperto, rivelando che le densità di ribosomi dei frame di lettura aperti a monte erano significativamente più alte nelle cellule carenti di eIF3e rispetto alle celle di controllo. L'analisi del metagene ha rivelato che una massa di ribosomi si è bloccata tra i codoni 25 e 75 a valle del codone iniziale, suggerendo che l'allungamento della traduzione potrebbe essere bloccato all'inizio nelle cellule carenti di eIF3e.
Sono stati esaminati i profili di densità dei siti P per i frame di lettura aperti a monte di PSMA6 e i frame di lettura aperti a valle del gene SENP3-EIF4A1, dimostrando i modelli di periodicità e densità dei frammenti protetti dai ribosomi. Il controllo delle posizioni delle letture intorno ai codoni di inizio e arresto delle regioni codificanti proteine note è necessario per valutare le proprietà periodiche delle letture per ogni lunghezza. RiboCode, insieme a un altro strumento da riga di comando, RiboMiner può anche eseguire il controllo di qualità e analisi multiple come quantificare e visualizzare le occupazioni dei ribosomi sui frame di lettura aperti previsti.
Questo strumento computazionale fornisce un modo ad alto throughput per identificare eventi di traduzione non canonici con dati di profilazione dei ribosomi in specifici contesti fisiologici e come la traduzione si modula in risposta allo stimolo.