Tre metodi di analisi dell'espressione differenziale per il sequenziamento dell'RNA: limma, EdgeR e DESeq2. Aprire il programma RStudio e quindi caricare il file R, DEG. Il file può essere acquisito da file supplementari. Uno.
Download e pre-elaborazione dei dati.1.1. Scarica i dati di conteggio del sequenziamento ad alto rendimento del colangiocarcinoma dall'Atlante del genoma del cancro. Questa scheda può essere facilmente ottenuta con il codice seguente.
Fare clic su Esegui per installare il pacchetto R. Fare clic su Esegui per caricare il pacchetto R. Impostare la directory di lavoro.
Scegli il tipo di cancro. Eseguire il codice R dal file GDCquery per scaricare i dati. File GDCquery può essere acquisito da file / script supplementari.
Dopo l'esecuzione, i dati del conteggio del sequenziamento dell'RNA del colangiocarcinoma possono essere scaricati e denominati CNT, dove le righe rappresentano gli ID dei geni dell'insieme e le colonne rappresentano gli ID dei simboli. Si prega di notare i numeri in posizione da 14 a 15 negli ID dei simboli. I numeri vanno da 01 a 09 indicano tumori e da 10 a 19 indicano tessuti normali.1.2.
Conversazione di iD dei geni dell'insieme ai simboli dei geni. Importare il file di annotazione in R, in base al suo percorso di archiviazione. Il file di annotazione può essere acquisito da file supplementari.
Eseguire il codice R dal file gtf v22. Che può essere acquisito da file / script supplementari. Applicare la funzione inn e convertire gli ID del gene dell'insieme in simboli genici.1.3.
Filtrare i geni a bassa esprimemento. Fare clic su Esegui per installare il pacchetto edgeR"Fare clic su Esegui per caricare il pacchetto R edgeR"Eseguire il codice R seguente per mantenere i geni con conteggi per milione valori maggiori di uno in almeno due campioni. Due. Analisi delle espressioni differenziali tramite limma"Fare clic su Esegui per installare il pacchetto R limma"Fare clic su Esegui per caricare il pacchetto R limma"edgeR"Eseguire il codice R seguente per creare la matrice di progettazione.
Estrarre le informazioni sul gruppo. Impostare 01"come tessuto tumorale. Impostare 11 "come tessuto normale.
Creare una matrice di progettazione. Creare l'oggetto DGEList. Normalizzare i dati.
Eseguire il codice R riportato di seguito per eseguire l'analisi dell'espressione differenziale basata sul metodo limma-trend. Calcolare il valore CPM. Fare clic su Esegui per adattare un modello lineare per prevedere i dati o dedurre la relazione tra le variabili.
Calcola il valore T, il valore F e le quote di log in base al bayesiano. Estrarre la tabella dei risultati. I risultati dell'analisi delle espressioni differenziali vengono salvati in res_limma" che include il valore di modifica della piega log2.
Il livello medio di espressione log2 del gene nell'esperimento. La statistica T modificata, il valore P, il tasso di falsa scoperta correggevano il valore p e le log-odds dei geni differenzialmente espressi. Identificare i geni differenzialmente espressi.
Quindi il valore P aggiustato minore di 0,05 e il valore assoluto del falso cambiamento log maggiore o uguale a due sono soglie per lo screening dei geni differenzialmente espressi. I risultati res limma mostrano che confrontando con i tessuti normali, 1.443 geni sono up-regolati e 1.880 geni sono down-regolati nei tessuti del colangiocarcinoma. Eseguire l'output della tabella dei risultati in un file.
Fare clic su Esegui per installare il pacchetto R ggplot2"Fare clic su Esegui per caricare il pacchetto R ggplot2"Esegui il codice R dal file vulcano per creare la trama del vulcano e il file vulcano può essere acquisito da file supplementari. I geni possono essere mappati in posizioni diverse in base al loro cambiamento di piega log2 e ai valori P regolati. Quindi i geni differenzialmente espressi up-regolati sono colorati in rosso.
e i geni differenzialmente espressi down-regolati sono colorati in verde. Fare clic su Esporta"per salvare la trama del vulcano. Tre. Analisi delle espressioni differenziali tramite edgeR"Fare clic su Esegui per caricare il pacchetto R edgeR"Eseguire il codice R seguente per creare la matrice di progettazione.
Fare clic su Esegui per creare l'oggetto DGEList e normalizzare i dati. Fare clic su Esegui per stimare la dispersione del valore di espressione genica. Fare clic su Esegui per adattare il modello al conteggio dei dati.
Condurre test statistici. Estrarre la tabella dei risultati. Il risultato viene salvato in res edgeR" che include il valore di modifica della piega del log, il valore logCPM, F, p e il valore p corretto del tasso di rilevamento falso.
Identificare i geni differenzialmente espressi. Il risultato res edgeR mostra che confrontando con i tessuti normali, 3.121 geni sono up-regolati e 1.578 geni sono down-regolati nei tessuti del colangiocarcinoma. Eseguire l'output della tabella dei risultati in un file.
Crea la trama del vulcano. Fare clic su Esporta per salvare la trama del vulcano. Quattro. Analisi dell'espressione differenziale tramite DESeq2.
Fare clic su Esegui per installare il pacchetto R DESeq2"Fare clic su Esegui per caricare il pacchetto R DESeq2"Eseguire il codice R seguente per determinare il fattore di tentoni. Creare l'oggetto set di dati DESeq2. Eseguire analisi.
Generare la tabella dei risultati. Il risultato viene salvato in res DESeq2, che include la media del conteggio di lettura normalizzato, il valore di modifica della piega del registro, la freccia standard di modifica della piega del registro, la statistica di saldatura, il valore P originale e il valore P corretto. Identificare i DEG.
Il risultato res DESeq2 mostra che confrontando con i tessuti normali, duemilanovecentotrentotto geni sono up-regolati e milleseicentosedici geni sono down-regolati nei tessuti del colangiocarcinoma. Eseguire l'output della tabella dei risultati in un file. Crea la trama del vulcano.
Fare clic su Esporta per salvare la trama del vulcano. Cinque. Diagramma di Venn. Fare clic su Esegui per installare il diagramma venn del pacchetto R.
Fare clic su Esegui per caricare il diagramma venn del pacchetto R. Crea un diagramma di Venn di geni differenzialmente espressi up-regolati. Fare clic su Esporta per salvare il diagramma di van, Crea un diagramma di Venn di geni differenzialmente espressi down-regolati.
Fare clic su Esporta per salvare il diagramma di Venn. Sei. Risultati rappresentativi. La prima figura mostra i grafici vulcanici di tutti i geni acquisiti da limma, edgeR e DESeq2.
Il valore p del log negativo viene tracciato rispetto alla modifica della piega del log. I punti rossi rappresentano i geni espressi differenzialmente up-regolati e i punti verdi rappresentano i geni differenzialmente espressi down-regolati. Limma identifica i milleottocentottanta down-regolati differenzialmente espressi i geni, e i millequattrocentoquarantatre geni differenzialmente espressi up-regolati nei tessuti del colangiocarcinoma.
EdgeR identifica i millecinquecentosettantotto geni differenzialmente espressi down-regolati e tremilacentoventuno geni espressi differenzialmente up-regolati. DESeq2 identifica milleseicentosedici geni differenzialmente espressi down-regolati e duemilanovecentotrentotto geni espressi differenzialmente up-regolati. Figura due, i diagrammi di Venn mostrano la sovrapposizione tra i risultati divisi da limma edgeR e DESeq2.
Confronta i risultati di questi tre metodi, Millequattrocentotrentuno geni espressi differenzialmente up-regolati e millecinquecentotrentuno geni differenzialmente espressi down-regolati si sovrappongono. Sette.Conclusione. In questo protocollo, abbiamo fornito qui un protocollo dettagliato di diversi tipi di analisi di misura per un'elevata sequenza di dati di conteggio utilizzando pacchetti R, limma, edgeR e DESeq2. Tre metodi hanno simili e personale tra il loro processo di analisi.
E poi i loro da quei tre farmaci sono in parte sovrapposti. Tutti e tre i farmaci hanno i loro vantaggi. E la scelta dipende solo dal tempo dei tuoi dati.
Se ci sono i miei dati attuali, limma dovrebbe essere dato con priorità, ma i dati di sequenziamento di generazione, in edgeR e DESeq2 sono preferiti.