Questo protocollo fornisce una comprensione completa delle isoforme geniche generate dallo splicing alternativo e dalla poliadenilazione fornendo un flusso di lavoro passo-passo per identificare i siti di splicing differenziale, gli esoni differenzialmente espressi e i siti poli(A). Il vantaggio principale di questo protocollo è che valuta sia i metodi basati sugli esoni che quelli basati sugli eventi per lo studio dello splicing alternativo. Applica anche il metodo basato sull'esone per studiare la poliadenilazione alternativa.
Sono stati forniti i file R Markdown che includono i codici e le note per l'analisi AS e AP. Sarebbe consigliabile seguire i passaggi nel file R Markdown e raggiungere attentamente la nota per ogni passaggio. Per identificare lo splicing differenziale usando diffSplice da limma, seguire il file R notebook.
Preparare i file di input come descritto nel testo manuscritto. Assicurati che i passaggi da uno a tre del manoscritto siano stati seguiti in sequenza per preparare i file di input prima di procedere ulteriormente. Inizia caricando le librerie necessarie.
Per eseguire il filtraggio non specifico, estrarre innanzitutto la matrice dei conteggi di lettura ottenuti in precedenza e creare un elenco di funzionalità utilizzando la funzione DGEList dal pacchetto edgeR, dove le righe rappresentano i geni e le colonne rappresentano i campioni. Quindi, trasforma i dati da scala grezza a conteggi per milione usando la funzione CPM dal pacchetto edgeR e mantieni gli esoni con conteggi superiori a una soglia impostabile. Questo set di dati contiene sei esempi.
Pertanto, il CPM è fissato a più di uno e almeno tre campioni su sei. Normalizzare i conteggi tra i campioni con la funzione calcNormFactors dal pacchetto edgeR utilizzando i valori Trimmed Mean of M. Questa funzione calcolerà i fattori di ridimensionamento per regolare le dimensioni della libreria.
Utilizzare la tabella di esempio generata in precedenza per creare la matrice di progettazione per definire le condizioni sperimentali per ogni campione. Eseguire la funzione voom del pacchetto limma per elaborare i dati di sequenziamento dell'RNA per stimare la varianza. Questa funzione genererà pesi di precisione per correggere il rumore del conteggio di Poisson e trasformare i conteggi del livello di esone in registrare due conteggi per milione o logCPM.
Eseguire la funzione lmfit per adattare i modelli lineari ai dati di espressione per ogni esone. Quindi eseguire la funzione eBayes per calcolare statistiche empiriche per il modello adattato per rilevare l'espressione differenziale dell'esone. Definire una matrice di contrasto per i confronti sperimentali di interesse.
Usa i contrasti. Funzione fit per ottenere coefficienti ed errori standard per ogni coppia di confronti. Eseguire diffSplice sul modello adattato per testare le differenze nell'uso dell'esone dei geni tra wild type e knockout.
Esplora i risultati migliori usando la funzione topSplice dove un test uguale a t fornisce una classificazione degli esoni AS e il test uguale a simes fornisce una classificazione dei geni. Eseguire la funzione plotSplice per tracciare i risultati. Nel mettere il gene di interesse nell'argomento dell'ID genico, i punti rossi mostrano gli esoni differenzialmente espressi.
Genera un grafico vulcanico utilizzando il pacchetto di bioconduttori EnhancedVolcano per mostrare gli esoni espressi in modo differenziale. Per utilizzare rMATS, assicurarsi che la versione più recente di rMATS versione 4.1.1 sia installata utilizzando conda o GitHub nella directory di lavoro. Passare alla cartella contenente i file bam ottenuti dopo la mappatura.
Preparare i file di testo come richiesto da rMATS per le due condizioni di copia del nome dei file bam e del loro percorso separati da una virgola. Eseguire rmas. py utilizzando i due file di testo di input generati che descrivono il percorso dei file BAM e l'annotazione.
GTF ottenuto in precedenza. In questo modo viene generata una cartella di output contenente rmats_out file di testo che descrivono separatamente le statistiche, inclusi i valori P e i livelli di inclusione per ciascun evento di giunzione. Utilizzare il maser del pacchetto bioconduttore per esplorare i risultati di rMATS.
Caricare i file di testo con estensione JCEC nell'oggetto maser e includere almeno cinque letture medie per evento di giunzione per filtrare il risultato in base alla copertura. Per visualizzare i risultati di rMATS, eseguire innanzitutto la funzione topEvents dal pacchetto maser, selezionando gli eventi di giunzione significativi con una frequenza di falsa individuazione del 10% e una variazione minima del 10% della percentuale di giunzione in o PSI. Controllare gli eventi genetici per i singoli geni di interesse e tracciare i valori PSI per ogni evento di splicing di quel gene.
Generare un grafico a vulcano specificando il tipo di evento. Utilizzare i risultati degli eventi di giunzione ottenuti con rMATS sotto forma di file di testo per generare grafici di sashimi utilizzando il pacchetto rmats2sashimiplot. Il grafico del sashimi mostra un evento di esone saltato nel gene Wnk1.
Ogni riga rappresenta un campione di RNA-seq, tre repliche di wild type e Mbnl1 knockout. L'altezza mostra la copertura di lettura in RPKM e gli archi di collegamento raffigurano le letture di giunzione attraverso gli esoni. La parte inferiore mostra isoforme alternative annotate del modello genetico.
Un sostanziale cambiamento di piega e una forte evidenza statistica di differenze reali possono essere osservati nei geni situati nei quadranti in alto a sinistra o a destra dei grafici vulcanici ottenuti utilizzando diffSplice e DEXSeq. Si è scoperto che un esone a cassetta varia tra le diverse condizioni per il gene Wnk1. Il grafico di utilizzo differenziale dell'esone ha mostrato prove di splicing differenziale in cinque siti di esoni vicino a Wnk1.6.45, con gli esoni evidenziati in rosa che probabilmente saranno giuntati nei campioni knockout Mbnl1 rispetto al wild type.
La trama vulcanica di geni che sono alternativamente giuntati ha aiutato a distinguere tra i geni che sono stati esclusi dal wild type e quelli che sono stati inclusi nel wild type. I tipi di eventi di splicing SE, A5SS, A3SS, MXE e RI sono stati visualizzati utilizzando grafici di sashimi dei principali geni significativi di tali eventi. L'attività differenziale dell'APA in tre regioni primarie non tradotte di geni è stata osservata utilizzando grafici vulcanici.
I risultati di utilizzo del sito PA significativamente differenziati acquisiti da diverse pipeline sono stati visualizzati utilizzando il grafico degli eventi. Un significativo spostamento da distale a prossimale dell'uso del sito PA in doppi knockout può essere osservato in entrambi i geni FOSL1 e Papola. La copertura media nelle regioni fiancheggianti ancorate a siti di scissione PA noti a livello dell'intero genoma è stata determinata utilizzando un grafico diagnostico.
Assicurarsi che i parametri come le informazioni transspecifiche e consentire la sovrapposizione multipla siano utilizzati correttamente durante la generazione delle metriche di conteggio. L'adattamento del modello lineare e la generazione di coppie di contrasto è importante per un corretto confronto. Per rMATS, assicurarsi che tutti i parametri siano impostati correttamente in base ai dati prima di eseguire il comando.
I geni ottenuti dall'attività di splicing differenziale potrebbero essere utilizzati per eseguire analisi di arricchimento del set genico. Un altro strumento chiamato MISO potrebbe essere utilizzato per ulteriori analisi basate sugli eventi.