Tutorial sull'analisi computazionale per piccoli RNA non codificanti chimerici: librerie di sequenziamento dell'RNA target

Sreenivas Eadara; Xinbei Li; Emily A. Eiss; Mollie K. Meffert

doi:10.3791/65779

È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.

Method Article

Tutorial sull'analisi computazionale per piccoli RNA non codificanti chimerici: librerie di sequenziamento dell'RNA target

DOI:

10.3791/65779

⸱

December 1st, 2023

Sreenivas Eadara¹, Xinbei Li¹, Emily A. Eiss¹, Mollie K. Meffert¹^,²

¹Department of Biological Chemistry, Johns Hopkins University School of Medicine, ²Solomon H. Snyder Department of Neuroscience, Johns Hopkins University School of Medicine

Please note that all translations are automatically generated. Click here for the English version.

Riepilogo

Qui, presentiamo un protocollo che dimostra l'installazione e l'uso di una pipeline bioinformatica per analizzare i dati di sequenziamento dell'RNA chimerico utilizzati nello studio delle interazioni RNA:RNA in vivo .

Abstract

La comprensione delle interazioni regolatorie genetiche in vivo di piccoli RNA non codificanti (sncRNA), come i microRNA (miRNA), con i loro RNA bersaglio è stata avanzata negli ultimi anni da approcci biochimici che utilizzano il cross-linking seguito dalla legatura per catturare le interazioni sncRNA:RNA bersaglio attraverso la formazione di RNA chimerici e successive librerie di sequenziamento. Mentre i set di dati provenienti dal sequenziamento dell'RNA chimerico forniscono input a livello di genoma e sostanzialmente meno ambigui rispetto al software di previsione dei miRNA, la distillazione di questi dati in informazioni significative e fruibili richiede ulteriori analisi e può dissuadere i ricercatori che non hanno un background computazionale. Questo report fornisce un'esercitazione per supportare i biologi computazionali entry-level nell'installazione e nell'applicazione di un recente strumento software open source: Small Chimeric RNA Analysis Pipeline (SCRAP). Vengono forniti i requisiti della piattaforma, gli aggiornamenti e una spiegazione dei passaggi della pipeline e della manipolazione delle variabili chiave di input dell'utente. Ridurre una barriera per i biologi nell'ottenere informazioni dagli approcci di sequenziamento dell'RNA chimerico ha il potenziale per lanciare indagini basate sulla scoperta delle interazioni regolatorie sncRNA:RNA bersaglio in più contesti biologici.

Introduzione

I piccoli RNA non codificanti sono altamente studiati per il loro ruolo post-trascrizionale nel coordinare l'espressione di gruppi di geni in diversi processi come la differenziazione e lo sviluppo, l'elaborazione dei segnali e la malattia ^1,2,3. La capacità di determinare con precisione i trascritti bersaglio di piccoli RNA non codificanti (sncRNA) regolatori genici, inclusi i microRNA (miRNA), è importante per gli studi di biologia dell'RNA sia a livello di base che di traduzione. Algoritmi bioinformatici che sfruttano la complementarità anticipata tra la sequenza seme di miRNA e i suoi potenziali bersagli sono stati frequentemente utilizzati per la predizione delle interazioni miRNA:RNA bersaglio. Sebbene questi algoritmi bioinformatici abbiano avuto successo, possono anche ospitare risultati sia falsi positivi che falsi negativi, come è stato esaminato altrove ^4,5,6. Recentemente, sono stati progettati e implementati diversi approcci biochimici che consentono la determinazione univoca e semiquantitativa delle interazioni in vivo sncRNA:RNA bersaglio mediante reticolazione in vivo e conseguente incorporazione di una fase di legatura per legare fisicamente l'sncRNA al suo bersaglio per formare un singolo RNA chimerico 4,5,7,8,9,10 . La successiva preparazione di librerie di sequenziamento a partire dagli RNA chimerici consente di valutare le interazioni sncRNA:RNA bersaglio mediante elaborazione computazionale dei dati di sequenziamento. Questo video fornisce un tutorial per l'installazione e l'utilizzo di una pipeline computazionale denominata small chimeric RNA analysis pipeline (SCRAP), progettata per consentire un'analisi robusta e riproducibile delle interazioni sncRNA:target RNA da librerie di sequenziamento dell'RNA chimerico⁶.

Uno degli obiettivi di questo tutorial è quello di aiutare i ricercatori ad evitare un'eccessiva dipendenza da algoritmi bioinformatici puramente predittivi, abbassando le barriere all'analisi dei dati generati attraverso approcci biochimici, fornendo letture molecolari chimeriche delle interazioni sncRNA:RNA bersaglio. Questo tutorial fornisce passaggi pratici e suggerimenti per guidare gli scienziati computazionali entry-level attraverso l'uso di una pipeline, SCRAP, sviluppata per analizzare i dati di sequenziamento dell'RNA chimerico, che possono essere generati da diversi protocolli biochimici esistenti, tra cui crosslinking, legatura e sequenziamento di ibridi (CLASH) e legatura covalente di RNA endogeni legati ad Argonaute - reticolazione e immunoprecipitazione (CLEAR-CLIP)^7,9.

L'utilizzo di SCRAP offre diversi vantaggi per l'analisi dei dati di sequenziamento dell'RNA chimerico, rispetto ad altre pipeline computazionali⁶. Un vantaggio saliente è la sua ampia annotazione e l'incorporazione di call-out a script bioinformatici ben supportati e regolarmente aggiornati all'interno della pipeline, rispetto a pipeline alternative che spesso si basano su script personalizzati e/o non supportati per i passaggi della pipeline. Questa caratteristica conferisce stabilità a SCRAP, rendendo più utile per i ricercatori familiarizzare con la pipeline e incorporarne l'uso nel loro flusso di lavoro. È stato anche dimostrato che SCRAP supera le pipeline alternative nel chiamare i picchi di interazioni sncRNA:target RNA e che ha funzionalità multipiattaforma, come dettagliato in una precedente pubblicazione⁶.

Al termine di questa esercitazione, gli utenti saranno in grado di (i) conoscere i requisiti della piattaforma per SCRAP e installare le pipeline SCRAP, (ii) installare genomi di riferimento e impostare i parametri della riga di comando per SCRAP e (iii) comprendere i criteri di chiamata di picco ed eseguire le chiamate di picco e l'annotazione di picco.

Questo video descriverà in dettaglio come i ricercatori che studiano la biologia dell'RNA possono installare e utilizzare in modo ottimale la pipeline computazionale, SCRAP, per analizzare le interazioni di sncRNA con gli RNA bersaglio, come gli RNA messaggeri, nei dati di sequenziamento dell'RNA chimerico ottenuti attraverso uno degli approcci biochimici discussi alla preparazione della libreria di sequenziamento.

SCRAP è un'utilità della riga di comando. Generalmente, seguendo la guida riportata di seguito, l'utente dovrà (i) scaricare e installare SCRAP (https://github.com/Meffert-Lab/SCRAP), (ii) installare genomi di riferimento ed eseguire SCRAP e (iii) eseguire le chiamate e le annotazioni dei picchi.

Ulteriori dettagli sulle fasi computazionali di questa procedura sono disponibili all'https://github.com/Meffert-Lab/SCRAP. Questo articolo fornirà la configurazione e le informazioni di base per consentire ai ricercatori con competenze computazionali di livello base di installare, ottimizzare e utilizzare SCRAP su set di dati di librerie di sequenziamento dell'RNA chimerico.

Access restricted. Please log in or start a trial to view this content.

Protocollo

NOTA: Il protocollo inizierà con il download e l'installazione del software necessario per analizzare le librerie di sequenziamento dell'RNA chimerico utilizzando SCRAP.

1. Installazione

Prima di installare SCRAP, installare le dipendenze Git e Miniconda sulla macchina da utilizzare per le analisi. È probabile che Git sia già installato. Sulla piattaforma Mac OSX, ad esempio, verificalo utilizzando quale git per vedere che l'utilità " git " è presente e installata in questa directory. Verificare se Miniconda è installato utilizzando quale conda. Se non viene restituito nulla, installare Miniconda. Miniconda richiede 400 MB di spazio su disco per l'installazione.
1. Esistono alcuni metodi per installare Miniconda e variano in base alla piattaforma. Fare riferimento al file markdown PLATFORM-SETUP nel repository GitHub di Meffert Lab [https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md] dove sono disponibili ulteriori istruzioni per l'installazione su Windows, MacOS e Ubuntu. Per gli utenti Linux, Linux ha il proprio gestore di pacchetti predefinito (apt). Nel caso specifico di questo studio, utilizzare il comando brew install Miniconda per installare Miniconda utilizzando un gestore di pacchetti esistente, brew.
  NOTA: 'Homebrew', definito 'brew' è un sistema di gestione dei pacchetti software open source che semplifica l'installazione del software sul sistema operativo Apple, macOS.
2. Se conda viene installato per la prima volta, eseguire conda init per la shell specifica che è in uso. Nell'esempio qui, la shell in uso è zsh. Quindi, chiudi e riapri il guscio. Se conda è stato installato correttamente, verrà visualizzato l'ambiente di base attivato all'interno della sessione del terminale.
Scaricare il codice sorgente SCRAP e installarne le dipendenze.
1. Il metodo preferito per ottenere i sorgenti SCRAP è l'utilizzo di Git. Per accedervi, esegui git clone https://github.com/Meffert-Lab/SCRAP per ottenere l'ultima copia del codice sorgente.
2. Installare mamba, un risolutore di pacchetti migliorato per conda, e installare tutte le dipendenze per SCRAP da SCRAP_environment.yml al proprio ambiente conda usando i seguenti comandi:
  conda install -n base conda-forge::mamba
  mamba env create -f ROTTAME/SCRAP_environment.yml -n SCARTO
Eseguire quindi l'installazione di riferimento per SCRAP. Gli argomenti utilizzati nell'installazione di riferimento saranno specifici per l'organismo di cui si stanno analizzando le interazioni sncRNA-mRNA.
bash SCRAP/bin/Reference_Installation.sh -r full/path/to/SCRAP/ -m has -g hg38 -s umano
1. Specificare la directory della cartella di origine SCRAP per l'installazione di riferimento. I passaggi di installazione verranno quindi eseguiti utilizzando i file all'interno delle cartelle fasta e annotazione . Elenca il percorso completo senza alcuna scorciatoia. Termina con una barra.
2. Fare riferimento alle tabelle in README.md per le abbreviazioni corrette delle specie miRbase. I genomi di riferimento aggiornati possono essere trovati a https://genome.ucsc.edu/ o https://www.ncbi.nlm.nih.gov/data-hub/genome/. In questo esempio, hg38 verrà utilizzato per il genoma GRCm38 del topo.
3. Le specie attualmente incluse per l'annotazione sono l'uomo, il topo e il verme. Visualizzare i file species.annotation.bed corrispondenti nella directory delle annotazioni nella cartella di origine SCRAP. Se si desidera utilizzare una specie diversa per l'analisi, fornire un file annotation.bed che segua lo stesso schema di denominazione species.annotation.bed.

2. Esecuzione di SCRAP

Ora che le dipendenze e SCRAP sono installate, - eseguire lo script SCRAP.sh
bash SCRAP/bin/SCRAP.sh -d full/percorso/della/CLASH_Human/ -a completo/percorso/della/CLASH_Human/CLASH_Human_Adapters.txt -p no -f sì -r completo/percorso/della/SCRAP/ -m ha -g hg38
1. Elencare l'intero percorso delle directory di esempio senza alcuna scorciatoia. Formattare le directory di esempio con il nome della cartella che corrisponde esattamente al nome del campione, come illustrato nella Figura 1.
2. Si noti che il percorso elencato è il percorso della directory che contiene tutte le cartelle di esempio, non il percorso di una singola cartella di esempio o di un file di esempio (fare riferimento alla riga di comando nel passaggio 2.1).
3. Elencare quindi l'intero percorso del file dell'adattatore. Assicurarsi che i nomi di esempio nel file dell'adattatore corrispondano ai nomi delle cartelle e dei file menzionati in precedenza (fare riferimento alla riga di comando nel passaggio 2.1).
4. Indicare se i campioni sono accoppiati e se verrà eseguito o meno il filtraggio per i pre-miRNA e/o i tRNA. Se lo si desidera, aggiungere un filtro per la pulizia dell'rRNA (fare riferimento alla riga di comando nel passaggio 2.1).
  NOTA: Gli utenti possono decidere o meno di utilizzare questi filtri a seconda dei tipi di campione e degli obiettivi sperimentali. A seconda del disegno sperimentale, i pre-miRNA, i tRNA e gli rRNA possono consumare la profondità di sequenziamento disponibile per le chimere reali sncRNA:target RNA e gli utenti possono utilizzare filtri per escluderli. Tuttavia, gli utenti potrebbero voler evitare tale filtraggio in determinate circostanze (ad esempio, mappando i bersagli sncRNA sul genoma mitocondriale, che contiene rRNA mitocondriali).
5. Quindi, elencare l'intero percorso della directory di riferimento, l'abbreviazione miRbase e l'abbreviazione del genoma di riferimento (fare riferimento alla riga di comando nel passaggio 2.1).
  NOTA: il completamento dello script potrebbe richiedere alcune ore, a seconda delle dimensioni del set di dati e della CPU del computer in uso.

3. Chiamate e annotazioni di picco

Al termine dell'esecuzione di SCRAP, verificare che l'output includa, tra gli altri file, un file SAMPLE.aligned.unique.bam. Si tratta di un file binario contenente allineamenti di RNA bersaglio sul genoma di riferimento fornito dall'utente.
Ora esegui le chiamate di picco eseguendo Peak_Calling.sh.
bash ROTTAMI/contenitore/Peak_Calling.sh -d CLASH_Human/ -a CLASH_Human/CLASH_Human_Adapters.txt -c 3 -l 2 -f no -r ROTTAMI/ -m ha -g hg38
NOTA: La chiamata di picco è una caratteristica di SCRAP, che è progettata per consentire ai ricercatori di valutare prontamente le interazioni RNA non codificante più robuste e riproducibili all'interno delle loro librerie di RNA chimerico. Questa funzione, ad esempio, può aiutare i ricercatori a identificare le interazioni che potrebbero voler selezionare per ulteriori indagini. Il passaggio 3.2.2 seguente descrive come l'utente imposta i criteri che desidera vengano utilizzati per definire il rigore con cui viene chiamato un picco, incluso il numero di interazioni univoche, o letture di sequenziamento, che devono essersi verificate affinché il picco venga chiamato, nonché il numero di librerie in cui deve essersi verificata questa particolare interazione.
1. Anche in questo caso, elencare i percorsi completi della directory contenente le cartelle di esempio e il file dell'adattatore (fare riferimento alla riga di comando nel passaggio 3.2).
2. Successivamente, impostare il numero minimo di letture di sequenziamento necessarie per la chiamata di un picco (fare riferimento alla riga di comando nel passaggio 3.2).
3. Impostare il numero minimo di librerie di sequenziamento distinte che devono contenere un picco per poter essere chiamate (fare riferimento alla riga di comando nel passaggio 3.2).
  NOTA: La scelta dei valori per i punti 3.2.2 e 3.2.3 dipenderà dalla natura dei campioni sequenziati e dal numero di campioni o tipi di campioni. In questo caso, sono necessarie almeno 3 letture di sequenziamento chimerico in un campione per chiamare un picco e il picco deve essere supportato da almeno 2 campioni. Un ricercatore che valuta un set di dati in cui sono presenti molte repliche di librerie di sequenziamento per una determinata condizione, ad esempio, potrebbe decidere di richiedere la presenza delle letture in un numero maggiore di librerie di sequenziazione di esempio.
4. Indicare se gli sncRNA della stessa famiglia devono contribuire allo stesso picco. Ad esempio, poiché i miRNA della stessa famiglia condividono sequenze seme, questi miRNA possono legare insiemi di geni bersagli condivisi e sovrapposti; Un utente potrebbe voler identificare l'impatto completo di una famiglia su questi obiettivi valutando i loro picchi collettivi (fare riferimento alla riga di comando nel passaggio 3.2).
5. Quindi, indicare il percorso completo della directory di riferimento, l'abbreviazione miRBase e l'abbreviazione del genoma di riferimento (fare riferimento alla riga di comando nel passaggio 3.2).
Una volta completata la chiamata di picco, eseguire l'annotazione di picco.
bash SCRAP/bin/Peak_Annotation.sh -p CLASH_Human/peaks.bed -r SCRAP/ -s umano
1. Elenca il percorso completo del file peaks.bed (o peaks.family.bed) risultante dal richiamo del picco, il percorso completo della directory di riferimento e la specie desiderata per l'annotazione.

4. Visualizzazione dei dati

NOTA: tutti i passaggi per l'analisi tramite SCARTO sono stati completati. Per visualizzare i dati, si consigliano diversi approcci:

Unisci tutti i file .bam (file SAM binario) che si desidera visualizzare insieme (samtools merge).
Ordina il file .bam unito risultante (samtools sort). Il contenuto dei file è ordinato riga per riga in modo che samtools possa indicizzarlo.
Indicizzare il file .bam ordinato (samtools index). Viene generato un file BAI (binary samtools format index) per consentire la visualizzazione nel visualizzatore di genomica integrativa (IGV).
Infine, apri il file .bam ordinato e il file .bai indicizzato risultante in IGV.
NOTA: SncRNA: le interazioni dell'RNA bersaglio di interesse possono essere prioritarie per il follow-up in una serie di modi specifici dell'indagine. Un approccio iniziale generico consiste nel valutare le interazioni per le quali i picchi sono supportati dalle letture di sequenziamento più chimeriche. Le interazioni di interesse possono anche essere visualizzate utilizzando il server Web DuplexFold dal pacchetto RNAstructure inserendo la sequenza sia per l'sncRNA che per l'RNA bersaglio dall'interazione rilevata¹¹. Per ogni picco, il cromosoma (prima colonna) e le coordinate genomiche (inizio: 1a colonna fine: 2a colonna) possono essere trovati all'interno del file peaks.bed.species.annotation.txt generato nell'annotazione del picco. Per i miRNA in particolare, mentre le interazioni riproducibili e funzionali possono mancare di un esteso legame con il seme (ad esempio, le interazioni possono utilizzare il legame compensatorio 3'), la presenza di siti abbinati al seme in un motivo di legame affine dell'RNA bersaglio può comunque essere valutata come una caratteristica di convalida delle interazioni rilevate funzionalmente importanti ^4,12. L'elaborazione ausiliaria dei dati potrebbe includere confronti della copertura differenziale di lettura tra picchi in condizioni biologiche distinte e potenzialmente la valutazione del raggruppamento di geni regolati in percorsi utilizzando uno strumento di analisi dei percorsi.

Access restricted. Please log in or start a trial to view this content.

Risultati

I risultati per sncRNA:target RNA rilevato da una versione modificata di SCRAP (SCRAP release 2.0, che implementa modifiche per il filtraggio dell'rRNA) su set di dati di sequenziamento precedentemente pubblicati e preparati utilizzando CLEAR-CLIP⁹ sono mostrati nella Figura 2 e nella Tabella 1. Gli utenti possono apprezzare la diminuzione delle interazioni dei miRNA della frazione relativa con le regioni degli introni che si verifica in seguito all'i...

Access restricted. Please log in or start a trial to view this content.

Discussione

Questo protocollo sull'uso della pipeline SCRAP per l'analisi delle interazioni sncRNA:target RNA è progettato per assistere i ricercatori che stanno entrando nell'analisi computazionale. Ci si aspetta che il completamento dell'esercitazione guidi i ricercatori con esperienza computazionale entry-level o superiore attraverso i passaggi necessari per l'installazione e l'uso di questa pipeline e della sua applicazione per analizzare i dati ottenuti dalle librerie di sequenziamento dell'RNA chimerico. I passaggi critici pe...

Access restricted. Please log in or start a trial to view this content.

Divulgazioni

Gli autori non hanno nulla da rivelare.

Riconoscimenti

Ringraziamo i membri del laboratorio Meffert per le utili discussioni, tra cui BH Powell e WT Mills IV, per il feedback critico sulla descrizione dell'installazione e dell'implementazione del gasdotto. Questo lavoro è stato sostenuto da un premio della Fondazione Braude, dal programma di lancio del Maryland Stem Cell Research Fund, dal premio Blaustein Endowment for Pain Research and Education e dal NINDS RO1NS103974 e NIMH RO1MH129292 a M.K.M.

Access restricted. Please log in or start a trial to view this content.

Materiali

Name	Company	Catalog Number	Comments
Genomes	UCSC Genome browser	N/A	https://genome.ucsc.edu/ or https://www.ncbi.nlm.nih.gov/data-hub/genome/
Linux	Linux	Ubuntu 20.04 or 22.04 LTS recommended
Mac	Apple	Mac OSX (>11)
Platform setup	GitHub	N/A	https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md]
SCRAP pipeline	GitHub	N/A	https://github.com/Meffert-Lab/SCRAP
Unix shell	Unix operating system	bash >=5.0
Unix shell	Unix operating system	zsh (5.9 recommended)
Windows	Windows	WSL Ubuntu 20.04 or 22.04 LTS

Riferimenti

Morris, K. V., Mattick, J. S. The rise of regulatory RNA. Nature Reviews Genetics. 15 (6), 423-437 (2014).
Li, X., Jin, D. S., Eadara, S., Caterina, M. J., Meffert, M. K. Regulation by noncoding RNAs of local translation, injury responses, and pain in the peripheral nervous system. Neurobiology of Pain (Cambridge, Mass.). 13, 100119(2023).
Shi, J., Zhou, T., Chen, Q. Exploring the expanding universe of small RNAs. Nature Cell Biology. 24 (4), 415-423 (2022).
Broughton, J. P., Lovci, M. T., Huang, J. L., Yeo, G. W., Pasquinelli, A. E. Pairing beyond the seed supports microRNA targeting specificity. Molecular Cell. 64 (2), 320-333 (2016).
Grosswendt, S., et al. Unambiguous identification of miRNA:target site interactions by different types of ligation reactions. Molecular Cell. 54 (6), 1042-1054 (2014).
Mills, W. T., Eadara, S., Jaffe, A. E., Meffert, M. K. SCRAP: a bioinformatic pipeline for the analysis of small chimeric RNA-seq data. RNA. 29 (1), 1-17 (2023).
Helwak, A., Kudla, G., Dudnakova, T., Tollervey, D. Mapping the human miRNA interactome by CLASH reveals frequent noncanonical binding. Cell. 153 (3), 654-665 (2013).
Hoefert, J. E., Bjerke, G. A., Wang, D., Yi, R. The microRNA-200 family coordinately regulates cell adhesion and proliferation in hair morphogenesis. Journal of Cell Biology. 217 (6), 2185-2204 (2018).
Moore, M. J., Zhang, C., Gantman, E. C., Mele, A., Darnell, J. C., Darnell, R. B. Mapping Argonaute and conventional RNA-binding protein interactions with RNA at single-nucleotide resolution using HITS-CLIP and CIMS analysis. Nature Protocols. 9 (2), 263-293 (2014).
Bjerke, G. A., Yi, R. Integrated analysis of directly captured microRNA targets reveals the impact of microRNAs on mammalian transcriptome. RNA. 26 (3), 306-323 (2020).
Reuter, J. S., Mathews, D. H. RNAstructure: software for RNA secondary structure prediction and analysis. BMC Bioinformatics. 11 (1), 129(2010).
Moore, M. J., et al. miRNA-target chimeras reveal miRNA 3′-end pairing as a major determinant of Argonaute target specificity. Nature Communications. 6 (1), 8864(2015).
Travis, A. J., Moody, J., Helwak, A., Tollervey, D., Kudla, G. Hyb: a bioinformatics pipeline for the analysis of CLASH (crosslinking, ligation and sequencing of hybrids) data. Methods (San Diego, Calif.). 65 (3), 263-273 (2014).

Access restricted. Please log in or start a trial to view this content.

Ristampe e Autorizzazioni

Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE

Richiedi Autorizzazione

Esplora altri articoli

Questo mese in JoVE numero 202

This article has been published

Video Coming Soon

Keep me updated: