Benvenuti nel protocollo di analisi del trascrittoma ad alto rendimento per studiare le interazioni ospite-patogeno. Questo protocollo è suddiviso nei seguenti passaggi. Controllo di qualità per filtrare le letture di bassa qualità e anche per rimuovere le sequenze dell'adattatore Sequenziamento e annotazioni, dove sono necessari mappare le letture in un genoma di riferimento e annotare le letture nei geni.
Analisi statistica e di co-espressione, che definisce i geni differenzialmente espressi e trova anche i moduli di co-espressione. Grado molecolare di analisi delle perturbazioni per trovare potenziali campioni anomali. E infine, l'analisi funzionale per determinare le funzioni biologiche dei geni differenzialmente espressi.
Tutti gli strumenti che utilizzano queste pipeline sono stati preinstallati in un sistema Linux e incapsulati in un contenitore Docker. I campioni che utilizzano questi protocolli derivano da un articolo pubblicato dal nostro gruppo in PLOS Pathogen. I campioni comprendono 20 persone sane e 39 pazienti infetti dal virus Chikungunya.
I campioni di sangue sono stati raccolti ed è stato eseguito il sequenziamento dell'RNA. Per installare Docker nel sistema Windows, è necessario seguire questi passaggi. Vai alla pagina Web ufficiale di Docker e fai clic su Inizia.
Trova il programma di installazione per Docker Desktop per Windows. Scarica il file. Installare localmente nel computer.
Assicurati che queste due opzioni siano contrassegnate. Dopo aver installato il programma, scarica l'immagine Docker per questo protocollo. Vai al terminale di Windows.
Eseguire i comandi per scaricare l'immagine. Dopo aver scaricato l'immagine, puoi vedere il file nel desktop Docker e da questa immagine possiamo avviare il contenitore. Dopo aver fatto clic sul pulsante di arrotondamento, è necessario espandere i parametri e le opzioni originali per definire il nome del contenitore e associare una cartella nel computer locale alla cartella all'interno di Docker.
Successivamente, fare clic su Esegui per avviare il contenitore. È quindi possibile accedere al terminale, che si trova nel sistema Linux all'interno del Docker. Digitare i comandi bash e quindi è possibile eseguire tutti i comandi di questo protocollo.
Innanzitutto, dobbiamo eseguire il sorgente per rendere disponibili tutti gli strumenti di questo protocollo. È necessario accedere agli script di directory. Per eseguire un'analisi trascrittomica, è necessario scaricare prima il genoma di riferimento.
Per questo, è necessario eseguire i seguenti comandi. Dopo aver scaricato il genoma, è necessario scaricare l'annotazione dei geni. Per fare ciò, è necessario digitare i seguenti comandi.
Successivamente, è necessario configurare il fastq-dump. Questo consente di scaricare i file di sequenziazione degli esempi. Dopo aver digitato i seguenti comandi, è necessario utilizzare il pulsante Tab per andare all'opzione Strumenti e contrassegnare la directory delle opzioni correnti.
Utilizzare i pulsanti TAB per salvare, quindi OK. E quindi uscire dallo strumento fastq-dump. Ora possiamo avviare i download delle letture digitando i seguenti comandi.
Il controllo qualità consiste e valuta graficamente la probabilità di errori nelle letture di sequenziamento. In questo passaggio, è necessario rimuovere anche le sequenze tecniche come gli adattatori. Per generare i grafici di controllo qualità, è necessario eseguire il programma FastQC.
Per rimuovere le sequenze dell'adattatore e le sequenze di bassa qualità, è necessario digitare i seguenti comandi. Con le letture di buona qualità, ora dobbiamo mappare le letture nel genoma di riferimento. Dopo la mappatura, dovremo annotare i geni in base ai geni umani e quindi contare il numero di letture che corrispondono a ciascun gene umano.
Il primo passo è indicizzare il genoma di riferimento digitando il seguente comando. E poi digitiamo questi comandi per mappare le letture nel genoma umano. Successivamente, è necessario eseguire gli script che annotano le letture.
Dopo la mappatura e l'annotazione, è possibile eseguire l'analisi dell'espressione differenziale che consiste nel trovare i geni la cui espressione è più alta o più bassa in un gruppo rispetto ad un altro. Per identificare i geni differenzialmente espressi, o DEG, è necessario eseguire i seguenti comandi. Successivamente, è possibile trasferire i risultati dei dati dalla Finestra Mobile Mobile al computer locale.
Per questo, vai al terminale e digita i seguenti comandi per salvare tutti i risultati in una cartella locale. Per eseguire l'analisi rimanente, è inoltre necessario copiare tutti i file dei dati della directory in una directory nel computer locale. Nel computer locale, sarai in grado di vedere le directory in cui hai salvato i dati da Docker.
Come puoi vedere, puoi accedere a tutte le librerie. È inoltre possibile aprire il file HTML contenente i report di controllo qualità. È inoltre possibile accedere a una directory contenente i geni differenzialmente espressi.
E all'interno di questa directory, troverai le trame del vulcano in cui puoi vedere i geni che sono su o giù regolati in un gruppo rispetto a un altro, in questo caso, pazienti infetti da virus Chikungunya contro controlli sani. Tutti i passaggi rimanenti di questo protocollo verranno eseguiti in strumenti Web utilizzando il browser. Iniziamo prima con CEMiTool.
Vai al browser e digita il seguente indirizzo. CEMiTool identifica i moduli di co-espressione dai set di dati di espressione forniti dagli utenti. Nella pagina principale, puoi andare al menu e fare clic sul pulsante Esegui.
Si aprirà una nuova pagina in cui è possibile caricare il file di espressione. Questo file si trova nei dati della directory del computer locale. Vedrai che ci sono tre file di espressione e quello che useremo per CEMiTool è una chiamata di normalizzazione tmm.
Quindi devi selezionare il file fenodata, la stessa cosa per il file contenente le interazioni proteina-proteina e, infine, caricare il file contenente i set di geni o i percorsi. Il file dei set genetici consente a CEMiTool di eseguire analisi di arricchimento per ciascuno dei moduli di co-espressione. Successivamente, è necessario espandere la sezione dei parametri e fare clic su Applica VST.
Successivamente, puoi semplicemente fare clic su Esegui CEMiTool. Dopo aver eseguito CEMiTool, si vedrà che sono stati identificati 12 moduli di coespressione. Cliccando qui, è possibile scaricare tutti i risultati di queste analisi.
Un altro strumento che utilizzeremo in questo protocollo è MDP, o Grado molecolare di perturbazione. Basta digitare nel browser mdp.sysbio.tools. MDP calcola la distanza molecolare di ciascun campione rispetto a un gruppo di riferimento di campioni, in questo caso i controlli sani, al fine di trovare non solo potenziali valori anomali ma anche quanto sono perturbati ciascun campione rispetto a questo gruppo.
Nella pagina Esegui, è sufficiente caricare il file di espressione facendo clic sul pulsante e selezionando il file. Quindi devi caricare il file phenodata. Quindi è necessario definire quale colonna contiene le informazioni sul gruppo o sulla classe e quindi quale classe o gruppo corrisponde al gruppo di controllo.
Dopo questo, puoi semplicemente eseguire MDP. Il grafico a barre mostra per ciascuno dei campioni come una barra il punteggio del grado molecolare di perturbazione e i colori rappresentano i diversi gruppi. E il box plot è un altro modo di visualizzare gli stessi risultati in cui si vede su ogni punto il è un campione diverso separato da due gruppi.
Per eseguire l'analisi funzionale, useremo lo strumento Enrichr. Per questo, è necessario selezionare l'elenco dei geni che sono stati espressi in modo differenziale, su o giù, e usarlo come elenco di geni di input nello strumento Enrichr. Vedrai che ci sono diverse schede.
Tutti i risultati possono anche essere scaricati sul computer locale. L'ambiente informatico per l'analisi del trascrittoma è stato inserito sulla piattaforma Docker. Questo approccio consente agli utenti senza precedenti esperienze con il sistema Linux di utilizzare un terminale.
In questo contenitore, c'è una struttura di cartelle predefinita per set di dati e script che sono necessari per tutta l'analisi. In cantiere, gli utenti utilizzeranno i dati del trascrittoma del sangue di 20 individui sani e 39 pazienti acutamente infetti dal virus Chikungunya. La piattaforma di sequenziamento restituisce un set di file FASTQ contenenti la sequenza del DNA, ovvero
le letture e la qualità associata per ciascuna base nucleotidica. La scala di qualità Phred indica la probabilità di una lettura errata per ogni base. Gli strumenti identificano e rimuovono le letture di bassa qualità dai campioni e aumentano la probabilità di mapping delle letture.
In questa fase, il modulo di mappatura, le letture di alta qualità recuperate vengono utilizzate come input per allinearle al genoma umano di riferimento. CEMiTool identifica e analizza i moduli di co-espressione. I geni all'interno dello stesso modulo sono co-espressi, il che significa che mostrano modelli di espressione simili tra i campioni dei set di dati.
L'analisi della rete fornisce informazioni sui geni più connessi, ovvero gli hub. I nomi di questi geni sono mostrati nella rete.
La dimensione dei nodi è proporzionale al suo grado di connettività. I risultati ottenuti dall'analisi DEG sono stati riassunti nei grafici del vulcano. L'analisi del grado molecolare di perturbazione permette l'identificazione di campioni perturbati provenienti da individui sani e infetti.
MDP suggerisce quali campioni sono potenziali valori anomali biologici. La rimozione di tali campioni avrà un impatto sui risultati a valle. Un'analisi di arricchimento funzionale utilizzando AURA può essere eseguita con lo strumento Enrichr.
Questi passaggi aiutano a interpretare i risultati rivelando i ruoli funzionali comuni di diversi geni che sono stati espressi in modo differenziale. Il processo biologico mostrato nei grafici a barre sono i primi 10 set di geni arricchiti in base alla loro classifica del valore p. In conclusione, questi protocolli coprono tutte le fasi dell'analisi RNA-Seq.
La pipeline è stata sviluppata e incapsulata nel sistema non commerciale chiamato Docker. Su un'immagine e resa disponibile per la comunità scientifica. Grazie al sistema contenitore, tutti gli script e gli strumenti sono sotto la stessa versione specifica per garantire la riproducibilità.
Inoltre, parti dell'analisi bioinformatica sono state eseguite tramite strumenti web gratuiti e di facile utilizzo.