Gli RNA circolari svolgono importanti ruoli regolatori in diversi processi biologici. Questo protocollo è adatto ai principianti per eseguire analisi circolari dell'RNA nell'area delle interazioni tra ospite e patogeno. Qui abbiamo messo insieme alcuni degli strumenti per creare un protocollo semplificato richiesto per la predizione e la quantificazione dell'RNA sicuro, l'arricchimento funzionale dell'RNA sicuro, l'RNA sicuro, la previsione dell'interazione micro-RNA e le costruzioni della rete di RNA CCE.
Questo protocollo semplificato può essere applicato a campioni clinici per identificare determinati candidati, valori diagnostici e prognostici in un contesto di interazione tra ospite e patogeno. Mi aspetto che coloro che non hanno conoscenze di programmazione precedenti facciano fatica a fare la fase iniziale di questa tecnica. Pertanto, consiglierei di imparare le basi dei linguaggi di programmazione utilizzati in questa tecnica.
Credo che di solito guardando a come viene applicato il linguaggio di programmazione sia più informativo e più facile da capire rispetto alla sola lettura. Per iniziare aprire un terminale Linux e nella directory del genoma di riferimento dell'host eseguire i comandi bwa index e hisat2-build per indicizzare il genoma. Preparare un file di configurazione yml contenente il nome del file, il percorso degli strumenti, il percorso dei file di riferimento scaricati e il percorso dei file di indice.
Specificare il tipo di libreria dei dati della sequenza di RNA ed eseguire lo strumento Ciriquant utilizzando i parametri predefiniti o manuali. Preparare un file di testo con un elenco di dati contenenti gli ID dei dati della sequenza di RNA, il percorso dei file GTF emessi da Ciriquant e il raggruppamento dei dati della sequenza di RNA sia che si tratti di un gruppo di controllo o di un gruppo trattato. Sul terminale Linux, esegui prep_Ciriquant con un file di testo preparato come input.
Questa esecuzione genererà un elenco di file. Preparare un secondo file di testo con un elenco di dati contenenti gli ID della sequenza di RNA e il percorso del rispettivo output di stringa tie. Il layout del file deve essere simile al file di testo preparato in precedenza senza l'esecuzione della colonna di raggruppamento.
Eseguire prepde. py con questo file di testo come input per generare i file della matrice del conteggio dei geni. Eseguire Ciri_DE_Replicate con il library_info.
CSV, circRNA_BSJ. CSV e gene_count_matrix. CSV come input per l'output del circRNA_DE finale.
TSV. Per filtrare e determinare il numero di circRNA differenzialmente espressi, o DE, aprire il circRNA_DE. tsv con R o qualsiasi altro software per fogli di calcolo.
Decomprimi ed estrai il contenuto del file CircR dopo averlo scaricato dalla pagina CircR GitHub utilizzando il software pertinente, come WinRar o 7-Zip. In una nuova directory in cui verrà condotta l'analisi. Quindi installare le applicazioni software preliminari come SAMTools, miRanda, RNAhybrid e Pybedtools prima di condurre l'analisi dei miRNA circRNA.
Indicizzare il file del genoma di riferimento dell'organismo di interesse utilizzando il comando SAMtools FAIDX e preparare un file di input costituito dalle coordinate dei circRNA DE di interesse in un file letto delimitato da tabulazioni. Quindi, eseguire Circr. py usando Python3.
E come argomenti specificano il file di input circRNA, il genoma più veloce dell'organismo di interesse, la versione del genoma dell'organismo selezionato, il numero di thread e il nome del file di output nella riga di comando. Una volta completata l'analisi Circr, il programma produce un file di interazione circRNA-miRNA nel formato CSV. Preparare un file delimitato da schede contenente i circRNA di interesse e il loro miRNA target.
La prima colonna è costituita dal nome circRNA. La seconda colonna specifica il tipo di RNA della prima colonna. La terza colonna è il miRNA bersaglio.
E la quarta colonna specifica il tipo di RNA dalla terza colonna. Per costruire la mappa di rete ceRNA, aprire il software Cytoscape, accedere a file, importare, rete da file, selezionare il file preparato e caricarlo. Premere il pulsante di stile per modificare lo stile visivo della rete.
Quindi premere la freccia sul lato destro del colore di riempimento, scegliere il tipo per la colonna, la mappatura discreta per il tipo di mappatura e selezionare il colore desiderato per ciascun tipo di RNA. Dopodiché passare a forma per modificare la forma dei nodi e seguire i passaggi illustrati in precedenza. Per l'ontologia genica e l'analisi KEGG del gene parentale dei circRNA, assicurare il cluster profiler e org. Hs.eg.
I pacchetti DB sono stati installati nel nostro studio. Importare le informazioni DE circRNA nell'area di lavoro di R Studio. Se l'utente desidera convertire i nomi dei geni parentali in altri formati come l'entrezid utilizzare una funzione come offerente.
Utilizzare l'ID del gene come input ed eseguire l'ontologia genica e l'analisi dell'arricchimento utilizzando la funzione enrichGO all'interno del profilo o del pacchetto del cluster utilizzando i parametri predefiniti. Infine, eseguire l'analisi di arricchimento KEGG utilizzando l'ID del gene come input e la funzione enrichKEGG all'interno del pacchetto cluster profiler. Il grafico a bolle dell'analisi dell'arricchimento dell'ontologia genica dei geni parentali del circRNA DE è mostrato in questa figura.
Il rapporto genico sull'asse x è il numero di geni in quella lista di input associati a un dato termine di ontologia genica diviso per il numero totale di geni in quel termine. La dimensione del punto nel grafico è rappresentata dal valore di conteggio che è il numero di geni nella lista di input associati a un determinato termine di ontologia genica. Maggiore è la dimensione dei punti, maggiore è il numero di geni di input associati al termine.
I punti nel grafico sono codificati a colori in base al valore che viene calcolato confrontando la frequenza osservata di un termine di annotazione con la frequenza prevista per caso. L'arricchimento è statisticamente significativo e viene tracciato sul grafico a bolle solo se il valore è minore di 0,01. Qui, i primi tre arricchimenti per i processi biologici includono la biogenesi del complesso ribonucleoproteico, la risposta al virus e la regolazione della risposta a uno stimolo biotico.
Mentre per le funzioni molecolari viene arricchita statisticamente solo l'attività catalitica che agisce sull'RNA e sul legame dell'RNA a singolo filamento. Per i componenti cellulari, solo il complesso del retromero è statisticamente arricchito. Questa immagine rappresentativa mostra l'analisi di arricchimento KEGG dei geni parentali del circRNA DE in un grafico a bolle.
Solo due termini KEGG sono stati arricchiti in questo caso, l'influenza A e le vie del ciclo di vita virale. Una delle cose più importanti quando si tenta questa procedura è garantire il tipo di tratto corretto del set di dati circ RNA che si sta utilizzando quando si esegue la lesione uno. La pipeline bio-formativa fornita qui aiuta a prevedere i potenziali RNA secolari e le annotazioni funzionali.
Tuttavia, sarà ancora necessaria una verifica ben condotta per fornire prove solide. Questo protocollo consentirà ai ricercatori di scoprire l'RNA sicuro e i loro potenziali ruoli funzionali nei diversi codici e interazioni dei patogeni, che potranno studiare ulteriormente.