Drei Methoden der differentiellen Expressionsanalyse für die RNA-Sequenzierung: limma, EdgeR und DESeq2. Öffnen Sie das Programm RStudio, und laden Sie dann die Datei R, DEGs. Die Datei kann aus ergänzenden Dateien erworben werden. Eins.
Herunterladen und Vorverarbeitung von Daten.1.1. Laden Sie die Hochdurchsatz-Sequenzierungsdaten des Cholangiokarzinoms aus dem Cancer Genome Atlas herunter. Diese Registerkarte kann leicht mit dem folgenden Code erreicht werden.
Klicken Sie auf Ausführen, um das R-Paket zu installieren. Klicken Sie auf Ausführen, um das R-Paket zu laden. Legen Sie das Arbeitsverzeichnis fest.
Wählen Sie die Krebsart. Führen Sie R-Code aus der GDCquery-Datei aus, um die Daten herunterzuladen. Die Datei GDCquery kann aus ergänzenden Dateien/Skripten erworben werden.
Nach der Ausführung können die Cholangiokarzinom-RNA-Sequenzierungszähldaten heruntergeladen und CNT genannt werden, wobei Zeilen Ensemble-Gen-IDs und Spalten Symbol-IDs darstellen. Bitte beachten Sie die Zahlen an den Positionen 14 bis 15 in den Symbol-IDs. Die Zahlen reichen von 01 bis 09 und weisen auf Tumore und 10 bis 19 auf normale Gewebe hin.1.2.
Konversation von Ensemble-Gen-IDs zu Gensymbolen. Importieren Sie die Anmerkungsdatei entsprechend ihrem Speicherpfad in R. Die Anmerkungsdatei kann aus ergänzenden Dateien entnommen werden.
Führen Sie den R-Code aus der Datei gtf v22 aus. Die aus ergänzenden Dateien/Skripten erworben werden können. Apply inn"function und um die Ensemble-Gen-IDs in Gensymbole umzuwandeln.1.3.
Filtern Sie niedrig exprimierte Gene. Klicken Sie auf Ausführen, um Paket edgeR zu installieren"Klicken Sie auf Ausführen, um das R-Paket edgeR zu laden"Führen Sie folgenden R-Code aus, um Gene mit Einer Anzahl pro Million Von mehr als einem in mindestens zwei Stichproben zu halten. Zwei. Analyse differenzieller Ausdrücke durch limma"Klicken Sie auf Ausführen, um das R-Paket limma zu installieren"Klicken Sie auf Ausführen, um das R-Paket limma zu laden"edgeR"Führen Sie den folgenden R-Code aus, um eine Entwurfsmatrix zu erstellen.
Extrahieren Sie Gruppeninformationen. Setzen Sie 01" als Tumorgewebe. Stellen Sie 11 "als normales Gewebe ein.
Erstellen Sie eine Designmatrix. Erstellen Sie das DGEList-Objekt. Normalisieren Sie die Daten.
Führen Sie den folgenden R-Code aus, um die auf der Limma-Trend-Methode basierende Differentielle Ausdrucksanalyse durchzuführen. Berechnen Sie den CPM-Wert. Klicken Sie auf Ausführen, um ein lineares Modell anzupassen, um die Daten vorherzusagen oder die Beziehung zwischen Variablen abzuleiten.
Berechnen Sie den T-Wert, den F-Wert und die Log-Quoten basierend auf Bayesian. Extrahieren Sie die Ergebnistabelle. Die Ergebnisse der Differentialausdrucksanalyse werden in res_limma" gespeichert, die den log2-fachen Änderungswert enthält.
Das durchschnittliche log2-Expressionsniveau des Gens im Experiment. Die modifizierte T-Statistik, der P-Wert, die falsche Entdeckungsrate korrigierten den p-Wert und die Log-Quoten differentiell exprimierter Gene. Identifizieren Sie die differentiell exprimierten Gene.
Der angepasste P-Wert kleiner als 0,05 und der absolute Wert der log-falschen Veränderung größer oder gleich zwei sind also Schwellenwerte, um die differentiell exprimierten Gene zu screenen. Die Ergebnisse zeigen, dass im Vergleich zu den normalen Geweben 1.443 Gene hochreguliert und 1.880 Gene in Cholangiokarzinomgeweben herunterreguliert sind. Geben Sie die Ergebnistabelle in eine Datei aus.
Klicken Sie auf Ausführen, um das R-Paket ggplot2 zu installieren"Klicken Sie auf Ausführen, um das R-Paket ggplot2 zu laden"Führen Sie R-Code aus der Vulkandatei aus, um das Vulkandiagramm zu erstellen, und die Datei Volcano kann aus zusätzlichen Dateien erworben werden. Gene können entsprechend ihrer log2-fachen Änderung und angepassten P-Werten auf verschiedene Positionen abgebildet werden. So sind hochregulierte differentiell exprimierte Gene rot eingefärbt.
und die herunterregulierten differentiell exprimierten Gene sind grün gefärbt. Klicken Sie auf "Exportieren", um das Vulkandiagramm zu speichern. Drei. Analyse differenzieller Ausdrücke durch edgeR"Klicken Sie auf Ausführen, um das R-Paket edgeR zu laden"Führen Sie den folgenden R-Code aus, um eine Entwurfsmatrix zu erstellen.
Klicken Sie auf Ausführen, um das DGEList-Objekt zu erstellen und die Daten zu normalisieren. Klicken Sie auf Ausführen, um die Streuung des Genexpressionswerts zu schätzen. Klicken Sie auf Ausführen, um das Modell zum Zählen von Daten anzupassen.
Führen Sie statistische Tests durch. Extrahieren Sie die Ergebnistabelle. Das Ergebnis wird in res edgeR gespeichert, das den Änderungswert für die Protokollfaltung, logCPM, F, p-Wert und den korrigierten p-Wert für die falsche Erkennungsrate enthält.
Identifizieren Sie die differentiell exprimierten Gene. Das Ergebnis res edgeR" zeigt, dass im Vergleich zu den normalen Geweben 3.121 Gene hochreguliert und 1.578 Gene im Cholangiokarzinomgewebe herunterreguliert sind. Geben Sie die Ergebnistabelle in eine Datei aus.
Erstellen Sie das Vulkandiagramm. Klicken Sie auf Exportieren, um das Vulkandiagramm zu speichern. Vier. Differentialexpressionsanalyse durch DESeq2.
Klicken Sie auf Ausführen, um das R-Paket DESeq2 zu installieren"Klicken Sie auf Ausführen, um das R-Paket DESeq2 zu laden"Führen Sie den folgenden R-Code aus, um den Tastenfaktor zu bestimmen. Erstellen Sie das DESeq2-Datensatzobjekt. Führen Sie Analysen durch.
Generieren Sie die Ergebnistabelle. Das Ergebnis wird in res DESeq2 gespeichert, das den Mittelwert der normalisierten Leseanzahl, den Änderungswert für die Protokollfaltung, den Standardpfeil zur Änderung der Protokollfalte, die Schweißstatistik, den ursprünglichen P-Wert und den korrigierten P-Wert enthält. Identifizieren Sie DEGs.
Das Ergebnis von DESeq2 zeigt, dass im Vergleich zu den normalen Geweben zweitausendneunhundertachtunddreißig Gene hochreguliert sind und eintausendsechshundertsechzehn Gene in Cholangiokarzinomgeweben herunterreguliert sind. Geben Sie die Ergebnistabelle in eine Datei aus. Erstellen Sie das Vulkandiagramm.
Klicken Sie auf Exportieren, um das Vulkandiagramm zu speichern. Fünf. Venn-Diagramm. Klicken Sie auf Ausführen, um das Venn-Diagramm des R-Pakets zu installieren.
Klicken Sie auf Ausführen, um das Venn-Diagramm des R-Pakets zu laden. Erstellen Sie ein Venendiagramm von hochregulierten differentiell exprimierten Genen. Klicken Sie auf Exportieren, um das Van-Diagramm zu speichern, Erstellen Sie ein Venn-Diagramm von herunterregulierten differentiell exprimierten Genen.
Klicken Sie auf Exportieren, um das Venn-Diagramm zu speichern. Sechs. Repräsentative Ergebnisse. Abbildung eins zeigt die Vulkandiagramme aller Gene, die von limma, edgeR und DESeq2 erworben wurden.
Der negative log p-Wert wird mit der Änderung der Logfaltung auftreibt. Rote Punkte repräsentieren die hochregulierten differentiell exprimierten Gene, und die grünen Punkte repräsentieren die herunterregulierten differentiell exprimierten Gene. Limma identifiziert die eintausendachthundertachtzig herunterregulierten differentiell exprimierten Gene und die eintausendvierhundertdvierundvierzig hochregulierten differentiell exprimierten Gene in Cholangiokarzinomgeweben.
EdgeR identifiziert die eintausendfünfhundertachtundsiebzig herunterregulierten differentiell exprimierten Gene und dreitausendeinhunderteinundzwanzig hochregulierte differentiell exprimierte Gene. DESeq2 identifizieren eintausendsechshundertsechzehn herunterregulierte differentiell exprimierte Gene und zweitausendneunhundertachtunddreißig hochregulierte differentiell exprimierte Gene. Abbildung zwei, Venn-Diagramme zeigen Überlappungen zwischen den Ergebnissen, die von limma edgeR und DESeq2 geteilt werden.
Vergleichen Sie die Ergebnisse dieser drei Methoden, Eintausendvierhunderteinunddreißig hochregulierte differentiell exprimierte Gene, und eintausendfünfhunderteinunddreißig herunterregulierte differentiell exprimierte Gene überlappen sich. Sieben.Fazit. In diesem Protokoll haben wir hier ein detailliertes Protokoll verschiedener Arten der Messanalyse für eine hohe Sequenz von Zähldaten unter Verwendung von R-Paketen, Limma, EdgeR und DESeq2 bereitgestellt. Drei Methoden haben ähnliche und Stabs unter ihrem Prozess ihrer Analyse.
Und dann überschneiden sich ihre von diesen drei Medikamenten teilweise. Alle drei Medikamente haben ihre eigenen Vorteile. Und die Wahl hängt nur von der Zeit Ihrer Daten ab.
Wenn es meine aktuellen Daten gibt, sollte Limma mit Priorität angegeben werden, aber Generierungssequenzierungsdaten in edgeR und DESeq2 werden bevorzugt.