JoVE Logo

Accedi

È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.

In questo articolo

  • Riepilogo
  • Abstract
  • Introduzione
  • Protocollo
  • Risultati
  • Discussione
  • Materiali
  • Riferimenti
  • Ristampe e Autorizzazioni

Riepilogo

Qui, presentiamo una nuova pipeline di miRNA completamente automatizzata, mirMachine che 1) può identificare i miRNA noti e nuovi in modo più accurato e 2) è completamente automatizzata e liberamente disponibile. Gli utenti possono ora eseguire un breve script di invio per eseguire la pipeline mirMachine completamente automatizzata.

Abstract

Di diversi tipi di RNA non codificanti, i microRNA (miRNA) sono stati probabilmente sotto i riflettori nell'ultimo decennio. Come regolatori post-trascrizionali dell'espressione genica, i miRNA svolgono ruoli chiave in vari percorsi cellulari, tra cui sia lo sviluppo che la risposta allo stress biotico, come la siccità e le malattie. Avere sequenze genomiche di riferimento di alta qualità ha permesso l'identificazione e l'annotazione dei miRNA in diverse specie di piante, dove le sequenze di miRNA sono altamente conservate. Poiché i processi di identificazione e annotazione dei miRNA computazionali sono per lo più processi soggetti a errori, le previsioni basate sull'omologia aumentano l'accuratezza della previsione. Abbiamo sviluppato e migliorato la pipeline di annotazione dei miRNA, SUmir, nell'ultimo decennio, che è stata utilizzata per diversi genomi vegetali da allora.

Questo studio presenta una nuova pipeline di miRNA completamente automatizzata, mirMachine (miRNA Machine), (i) aggiungendo un ulteriore passo di filtraggio sulle previsioni della struttura secondaria, (ii) rendendolo completamente automatizzato e (iii) introducendo nuove opzioni per prevedere miRNA noti basati sull'omologia o nuovi miRNA basati su piccole letture di sequenziamento dell'RNA utilizzando la pipeline precedente. La nuova pipeline di miRNA, mirMachine, è stata testata utilizzando The Arabidopsis Information Resource, TAIR10, rilascio del genoma di Arabidopsis e il genoma di riferimento del grano v2 dell'International Wheat Genome Sequencing Consortium (IWGSC).

Introduzione

I progressi nelle tecnologie di sequenziamento di prossima generazione hanno ampliato la comprensione delle strutture dell'RNA e degli elementi regolatori, rivelando RNA non codificanti (ncRNA) funzionalmente importanti. Tra i diversi tipi di ncRNA, i microRNA (miRNA) costituiscono una classe regolatrice fondamentale di piccoli RNA con una lunghezza compresa tra 19 e 24 nucleotidi nelle piante 1,2. Dalla scoperta del primo miRNA nel nematode Caenorhabditis elegans3, la presenza e le funzioni dei miRNA sono state ampiamente studiate anche nei genomi animali e vegetali 4,5,6. I miRNA funzionano prendendo di mira gli mRNA per la scissione o la repressione traslazionale7. Prove crescenti hanno anche dimostrato che i miRNA sono coinvolti in una vasta gamma di processi biologici nelle piante, tra cui crescita e sviluppo8, autobiogenesi9 e diverse risposte allo stress biotico e abiotico10.

Nelle piante, i miRNA vengono inizialmente elaborati da lunghi trascritti primari chiamati pri-miRNA11. Questi pri-miRNA generati dalla RNA polimerasi II all'interno del nucleo sono lunghi trascritti che formano una struttura di ripiegamento imperfetta12. I pri-miRNA subiscono successivamente un processo di scissione per produrre precursori endogeni a forcina a singolo filamento (ss) di miRNA chiamati pre-miRNA11. Il pre-miRNA forma una struttura simile a una forcina in cui un singolo filamento si piega in una struttura a doppio filamento per asportare un duplex di miRNA (miRNA / miRNA *)13. La proteina dicer-like taglia entrambi i filamenti del duplex miRNA/miRNA*, lasciando 2-nucleotide 3'-oversporgenze14,15. Il duplex del miRNA è metilato all'interno del nucleo, che protegge l'estremità 3' del miRNA dalla degradazione e dall'attività di uridilazione16,17. Un'elicasi svolge il duplex di miRNA metilato dopo l'esportazione ed espone il miRNA maturo al complesso di silenziamento indotto da RNA (RISC) nel citosol18. Un filamento del duplex è costituito da miRNA maturi incorporati in RISC, mentre l'altro filamento, miRNA*, è degradato. Il complesso miRNA-RISC si lega alla sequenza bersaglio portando alla degradazione dell'mRNA in caso di piena complementarità o alla repressione traslazionale in caso di complementarità parziale13.

Sulla base delle caratteristiche di espressione e biogenesi, sono state descritte le linee guida per l'annotazione dei miRNA15,19. Con le linee guida definite, Lucas e Budak hanno sviluppato la pipeline SUmir per eseguire un'identificazione basata sull'omologia in silico dei miRNA nelle piante9. La pipeline SUmir era composta da due script: SUmirFind e SUmirFold. SUmirFind esegue ricerche di somiglianza con set di dati miRNA noti attraverso lo screening BLAST (Basic Local Alignment Search) del National Center for Biotechnology Information (NCBI) con parametri modificati per includere hit con solo 2 o meno disallineamenti ed evitare pregiudizi verso hit più brevi (blastn-short -ungapped -penalty -1 -reward 1). SUmirFold valuta la struttura secondaria delle sequenze di miRNA putativi dai risultati di BLAST20 utilizzando UNAfold21. SUmirFold differenzia i miRNA dai piccoli RNA interferenti identificando le caratteristiche della struttura della forcina. Inoltre, differenzia i miRNA da altri ssRNA come tRNA e rRNA in base ai parametri, all'indice minimo di energia di piegatura > 0,67 e al contenuto di GC del 24-71%. Questa pipeline è stata recentemente aggiornata aggiungendo due passaggi aggiuntivi per (i) aumentare la sensibilità, (ii) aumentare l'accuratezza delle annotazioni e (iii) fornire la distribuzione genomica dei geni miRNA previsti22. Data l'elevata conservazione delle sequenze di miRNA vegetali23, questa pipeline è stata originariamente progettata per la previsione dei miRNA basata sull'omologia. I nuovi miRNA, tuttavia, non potevano essere identificati con precisione con questa analisi bioinformatica poiché si basava fortemente sulla conservazione della sequenza dei miRNA tra specie strettamente correlate.

Questo articolo presenta una nuova pipeline di miRNA completamente automatizzata, mirMachine che 1) può identificare i miRNA noti e nuovi in modo più accurato (ad esempio, la pipeline ora utilizza nuove previsioni di miRNA basate su sRNA e identificazione di miRNA basata sull'omologia) e 2) è completamente automatizzata e liberamente disponibile. I risultati hanno incluso anche le distribuzioni genomiche dei miRNA previsti. mirMachine è stato testato sia per le previsioni basate sull'omologia che su quelle basate su sRNA-seq nei genomi del grano e dell'Arabidopsis . Sebbene inizialmente rilasciato come software libero, UNAfold è diventato un software commerciale nell'ultimo decennio. Con questo aggiornamento, lo strumento di previsione della struttura secondaria è stato commutato da UNAfold a RNAfold in modo che mirMachine possa essere liberamente disponibile. Gli utenti possono ora eseguire un breve script di invio per eseguire la pipeline mirMachine completamente automatizzata (esempi sono forniti in https://github.com/hbusra/mirMachine.git).

Access restricted. Please log in or start a trial to view this content.

Protocollo

1. Dipendenze software e installazione

  1. Installare le dipendenze software dal loro sito principale o utilizzando conda.
    1. Scarica e installa Perl, se non è già installato, dal suo sito principale (https://www.perl.org/get.html).
      NOTA: i risultati rappresentati sono stati previsti utilizzando Perl v5.32.0.
    2. Scarica Blast+, un programma di allineamento, dal suo sito principale (https://www.ncbi.nlm.nih.gov/books/NBK279671/) come eseguibile e come codice sorgente.
      NOTA: i risultati rappresentati sono stati previsti utilizzando BLAST 2.6.0+.
    3. Installare il pacchetto precompilato di RNAfold da https://www.tbi.univie.ac.at/RNA/.
    4. In alternativa, installare questi software utilizzando il seguente conda: i) conda install -c bioconda blast; ii) Conda install -c bioconda viennarna.

2. La configurazione e il test di mirMachine

  1. Scaricare la versione più recente degli script mirMachine e dello script di invio mirMachine da GitHub, https://github.com/hbusra/mirMachine.git, quindi impostare il percorso degli script nel PATH.
  2. Utilizzare i dati di test forniti in GitHub per assicurarsi che mirMachine insieme a tutte le relative dipendenze siano stati scaricati correttamente.
  3. Eseguire mirMachine sui dati di test mostrati di seguito.
    bash mirMachine_submit.sh -f iwgsc_v2_chr5A.fasta -i mature_high_conf_v22_1.fa.filtered.fasta -n 10
    NOTA: impostare l'opzione -n su 10 poiché i dati del test contengono un solo cromosoma del genoma del grano. Per impostazione predefinita, l'opzione -n è impostata su 20.
  4. Controlla i file di output hairpins.tbl.out.tbl per i miRNA maturi previsti, i loro precursori previsti e le loro posizioni sui cromosomi.
  5. Controllare i file di registro per gli output e gli avvisi del programma.

3. Identificazione di miRNA basata sull'omologia

  1. Esegui la mirMachine usando lo script bash mostrato di seguito:
    bash mirMachine_submit.sh -f $genome_file -i $input_file -m $mismatches -n $number_of_hits
  2. Controlla i miRNA previsti. Trova il file di output denominato $input_file.results.tbl.hairpins.tbl.out.tbl per i miRNA previsti. Trova il file di output denominato $input_file.results.tbl.hairpins.fsa per le sequenze FASTA pre-miRNA. Individuare il file di output denominato $input_file.results.tbl.hairpins.log per il file di registro della forcina.

4. Nuova identificazione dei miRNA

  1. Pre-elaborare i file sRNA-seq FASTQ nel formato FASTA corretto. Tagliare gli adattatori se necessario. Non tagliare letture di bassa qualità; Invece, rimuovili. Rimuovere le letture contenenti N. Converti il file FASTQ in file FASTA ($input_file).
  2. Esegui mirMachine usando lo script bash mostrato di seguito.
    bash mirMachine_submit.sh -f $genome_file -i $input_file -n $number_of_hits -sRNAseq -lmax $lmax -lmin $lmin -rpm $rpm
    NOTA: $mismatches è stato impostato su 0 per le previsioni basate su sRNA-seq.
  3. Controlla i miRNA previsti. Trova il file di output denominato $input_file.results.tbl.hairpins.tbl.out.tbl per i miRNA previsti. Trova il file di output denominato $input_file.results.tbl.hairpins.fsa per le sequenze FASTA pre-miRNA. Individuare il file di output denominato $input_file.results.tbl.hairpins.log per il file di registro della forcina.

5. Parametri di anticipo

NOTA: le impostazioni predefinite sono definite per tutti i parametri ad eccezione del file del genoma e del file miRNA di input.

  1. Impostare l'opzione -db su un database blast per ignorare il database di riferimento dell'edificio all'interno della pipeline.
  2. Impostare l'opzione -m sul numero di mancate corrispondenze consentite.
    NOTA: per impostazione predefinita, l'opzione - m è stata impostata su 1 per le previsioni basate sull'omologia e 0 per le previsioni basate su sRNA-seq.
  3. Impostare - n sul numero di hit da eliminare dopo l'allineamento (il valore predefinito è 20). Cambia questo in base alla specie.
  4. Utilizzare - long per valutare le strutture secondarie per l'elenco dei sospetti.
  5. Usa - s per attivare la nuova previsione dei miRNA basata sui dati sRNA-seq.
  6. Impostare l'opzione - lmax sulla lunghezza massima delle letture sRNA-seq da includere nello screening.
  7. Impostare l'opzione - lmax sulla lunghezza minima delle letture sRNA-seq da includere nello screening.
  8. Utilizzare l'opzione -rpm per impostare la soglia di letture per milione (RPM).
    NOTA: Per parametri avanzati come la lunghezza dei pri-miRNA/pre-miRNA, gli utenti esperti sono incoraggiati a modificare gli script per la loro ricerca di interesse. Inoltre, se gli utenti intendono saltare alcuni passaggi o preferiscono utilizzare output modificati, lo script di invio può essere modificato semplicemente aggiungendo # all'inizio delle righe per saltare tali righe.

Access restricted. Please log in or start a trial to view this content.

Risultati

La pipeline di miRNA, mirMachine, descritta sopra è stata applicata ai dati di test per la valutazione rapida delle prestazioni della pipeline. Solo i miRNA vegetali ad alta confidenza depositati nella miRBasi v22.1 sono stati sottoposti a screening contro il cromosoma 5A del genoma RefSeq v224 del grano IWGSC. mirMachine_find restituito 312 hit per l'elenco non ridondante di 189 miRNA ad alta confidenza con un massimo di 1 mancata corrispondenza consentita (Tabella 1). mirMachin...

Access restricted. Please log in or start a trial to view this content.

Discussione

La nostra pipeline di miRNA, SUmir, è stata utilizzata per l'identificazione di molti miRNA vegetali nell'ultimo decennio. Qui, abbiamo sviluppato una nuova pipeline di identificazione e annotazione dei miRNA completamente automatizzata e disponibile gratuitamente, mirMachine. Inoltre, un certo numero di pipeline di identificazione dei miRNA, tra cui, ma non solo, la pipeline precedente, dipendevano dal software UNAfold21, che è diventato un software commerciale nel tempo, sebbene una volta foss...

Access restricted. Please log in or start a trial to view this content.

Materiali

NameCompanyCatalog NumberComments
https://www.ncbi.nlm.nih.gov/books/NBK279671/Blast+
https://github.com/hbusra/mirMachine.gitmirMachine submission script
https://www.perl.org/get.htmlPerl
https://www.tbi.univie.ac.at/RNA/RNAfold
Arabidopsis TAIR10
Triticum aestivum (wheat, IWGSC RefSeq v2)

Riferimenti

  1. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  2. Budak, H., Akpinar, B. A. Plant miRNAs: biogenesis, organization and origins. Functional & Integrative Genomics. 15 (5), 523-531 (2015).
  3. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  4. Zhang, L., et al. Exogenous plant MIR168a specifically targets mammalian LDLRAP1: evidence of cross-kingdom regulation by microRNA. Cell Research. 22 (1), 107-126 (2012).
  5. Pang, K. C., Frith, M. C., Mattick, J. S. Rapid evolution of noncoding RNAs: Lack of conservation does not mean lack of function. Trends in Genetics. 22 (1), 1-5 (2006).
  6. Guleria, P., Mahajan, M., Bhardwaj, J., Yadav, S. K. Plant small RNAs: biogenesis, mode of action and their roles in abiotic stresses. Genomics, Proteomics and Bioinformatics. 9 (6), 183-199 (2011).
  7. Jones-Rhoades, M. W., Bartel, D. P., Bartel, B. MicroRNAs and their regulatory roles in plants. Annual Review of Plant Biology. 57, 19-53 (2006).
  8. Singh, A., et al. Plant small RNAs: advancement in the understanding of biogenesis and role in plant development. Planta. 248 (3), 545-558 (2018).
  9. Lucas, S. J., Budak, H. Sorting the wheat from the chaff: identifying miRNAs in genomic survey sequences of Triticum aestivum chromosome 1AL. PloS One. 7 (7), 40859(2012).
  10. Li, S., Castillo-González, C., Yu, B., Zhang, X. The functions of plant small RNAs in development and in stress responses. Plant Journal. 90 (4), 654-670 (2017).
  11. Lee, Y., Jeon, K., Lee, J. T., Kim, S., Kim, V. N. MicroRNA maturation: Stepwise processing and subcellular localization. EMBO Journal. 21 (17), 4663-4670 (2002).
  12. Lee, Y., et al. MicroRNA genes are transcribed by RNA polymerase II. EMBO Journal. 23 (2), 4051-4060 (2004).
  13. Bartel, D. P. MicroRNAs: Genomics, biogenesis, mechanism, and function. Cell. 116 (2), 281-297 (2004).
  14. Lee, Y., et al. The nuclear RNase III Drosha initiates microRNA processing. Nature. 425 (6956), 415-419 (2003).
  15. Meyers, B. C., et al. Criteria for annotation of plant microRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  16. Sanei, M., Chen, X. Mechanisms of microRNA turnover. Current Opinion in Plant Biology. 27, 199-206 (2015).
  17. Li, J., Yang, Z., Yu, B., Liu, J., Chen, X. Methylation protects miRNAs and siRNAs from a 3′-end uridylation activity in Arabidopsis. Current Biology. 15 (16), 1501-1507 (2005).
  18. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  19. Axtell, M. J., Meyers, B. C. Revisiting criteria for plant microRNA annotation in the Era of big data. Plant Cell. 30 (2), 272-284 (2018).
  20. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10 (1), 421(2009).
  21. Markham, N. R. N., Zuker, M. UNAFold: Software for nucleic acid folding and hybridization. Methods in Molecular Biology. 453, 3-31 (2008).
  22. Alptekin, B., Akpinar, B. A., Budak, H. A comprehensive prescription for plant miRNA identification. Frontiers in Plant Science. 7, 2058(2017).
  23. Zhang, B., Pan, X., Cannon, C. H., Cobb, G. P., Anderson, T. A. Conservation and divergence of plant microRNA genes. Plant Journal. 46 (2), 243-259 (2006).
  24. Appels, R., et al. Shifting the limits in wheat research and breeding using a fully annotated reference genome. Science. 361 (6403), 7191(2018).
  25. Wang, Y., Kuang, Z., Li, L., Yang, X. A bioinformatics pipeline to accurately and efficiently analyze the microRNA transcriptomes in plants. Journal of Visualized Experiments: JoVE. (155), e59864(2020).
  26. Kozomara, A., Griffiths-Jones, S. MiRBase: Annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, 68-73 (2014).
  27. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6 (1), 26(2011).
  28. Wicker, T., et al. Impact of transposable elements on genome structure and evolution in bread wheat. Genome Biology. 19 (1), 103(2018).
  29. Flavell, R. B., Bennett, M. D., Smith, J. B., Smith, D. B. Genome size and the proportion of repeated nucleotide sequence DNA in plants. Biochemical Genetics. 12 (4), 257-269 (1974).
  30. Wicker, T., et al. The repetitive landscape of the 5100 Mbp barley genome. Mobile DNA. 8, 22(2017).
  31. Yang, Q., Ye, Q. A., Liu, Y. Mechanism of siRNA production from repetitive DNA. Genes and Development. 29 (5), 526-537 (2015).
  32. Lam, J. K. W., Chow, M. Y. T., Zhang, Y., Leung, S. W. S. siRNA versus miRNA as therapeutics for gene silencing. Molecular Therapy. Nucleic Acids. 4 (9), 252(2015).
  33. Bartel, B. MicroRNAs directing siRNA biogenesis. Nature Structural and Molecular Biology. 12 (7), 569-571 (2005).
  34. Meng, Y., Shao, C., Wang, H., Chen, M. Are all the miRBase-registered microRNAs true? A structure- and expression-based re-examination in plants. RNA Biology. 9 (3), 249-253 (2012).
  35. Berezikov, E., et al. Evolutionary flux of canonical microRNAs and mirtrons in Drosophila. Nature Genetics. 42 (1), author reply 9-10 6-9 (2010).

Access restricted. Please log in or start a trial to view this content.

Ristampe e Autorizzazioni

Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE

Richiedi Autorizzazione

Esplora altri articoli

BiologiaNumero 171

This article has been published

Video Coming Soon

JoVE Logo

Riservatezza

Condizioni di utilizzo

Politiche

Ricerca

Didattica

CHI SIAMO

Copyright © 2025 MyJoVE Corporation. Tutti i diritti riservati