RNA 测序的三种差分表达分析方法:利玛、EdgeR 和 DESeq2。打开 RStudio 程序,然后加载 R 文件、DEG。该文件可以从补充文件中获取。一。
数据的下载和预处理。从癌症基因组图集下载胆管癌的高通量测序计数数据。此选项卡可以通过以下代码轻松实现。
单击"运行"以安装 R 包。单击运行以加载 R 包。设置工作目录。
选择癌症类型。从 GDCquery 文件中运行 R 代码以下载数据。文件 GDCquery 可以从补充文件/脚本中获取。
执行后,可下载并命名 CNT,其中行表示合奏基因 ID,列代表符号 ID。请注意符号 ID 中第 14 到 15 个位置的数字。数字范围从01到09表示肿瘤,10到19表示正常组织。
将组合基因 ID 与基因符号的对话。根据其存储路径将注释文件导入 R 中。注释文件可以从补充文件中获取。
从 gtf v22 文件中运行 R 代码。可以从补充文件/脚本中获取。应用"功能"功能,将合奏基因 ID 转换为基因符号。
过滤低表达基因。单击运行以安装包边缘R"点击运行加载 R 包边缘"运行遵循 R 代码,以保持基因与计数每百万值大于一个至少两个样本。二。通过 limma"点击运行以安装 R 包 limma""点击运行以加载 R 包 limma"edgeR"运行以下 R 代码以创建设计矩阵的差分表达分析。
提取组信息。设置 01"作为肿瘤组织。设置 11"作为正常组织。
创建设计矩阵。创建 DGE 列表对象。使数据正常化。
运行以下 R 代码以执行基于利马趋势方法的差分表达分析。计算 CPM 值。单击"运行"以适合线性模型以预测数据或推断变量之间的关系。
根据贝叶斯计算 T 值、F 值和日志赔率。提取结果表。差分表达分析的结果保存在res_limma",其中包括日志2折变值。
实验中基因的平均日志2表达水平。修改后的T统计、P值、误发现率修正了p值和微分表达基因的日志奇数。识别不同表达的基因。
因此,调整后的P值小于0.05,而日志假变化大于或等于两个的绝对值是筛选差异表达基因的阈值。研究结果显示,与正常组织相比,1443个基因被向上调节,1880个基因在胆癌组织中处于下调节状态。将结果表输出到文件。
单击运行以安装 R 包 ggplot2"单击运行以加载 R 包 ggplot2"从火山文件中运行 R 代码以创建火山图,文件火山可以从补充文件中获取。基因可以根据其日志2折叠变化和调整的P值映射到不同的位置。因此,受调节的微分表达基因以红色着色。
和向下调节的微分表达基因是绿色的。点击出口",以挽救火山情节。三。通过 edgeR 进行差分表达分析"点击运行以加载 R 包边缘"运行以下 R 代码以创建设计矩阵。
单击"运行"创建 DGEList 对象并使数据正常化。单击"运行"以估计基因表达值的分散性。单击"运行"以适合模型以计数数据。
进行统计测试。提取结果表。结果保存在 res edgeR 中",其中包括日志折叠更改值、日志CPM、F、p 值和错误发现率更正 p 值。
识别不同表达的基因。结果res edgeR"显示,与正常组织相比,3,121个基因被向上调节,1,578个基因在胆管癌组织中处于下调节状态。将结果表输出到文件。
创建火山图。单击出口以保存火山地块。四。通过 DESeq2 进行差异表达分析。
单击"运行"以安装 R 包 DESeq2""单击运行以加载 R 包 DESeq2"运行以下 R 代码以确定摸索因子。创建 DESeq2 数据集对象。执行分析。
生成结果表。结果保存在 res DESeq2 中,其中包括规范化读数的均值、日志折叠更改值、日志折叠更改标准箭头、焊接统计、原始 P 值和更正 P 值。识别 DEG。
DESeq2的结果表明,与正常组织相比,二千九百三十八个基因被向上调节,一千六百一十六个基因在胆癌组织中被降低调节。将结果表输出到文件。创建火山图。
单击出口以保存火山地块。五。维恩图。单击"运行"以安装 R 包文尼图。
单击"运行"以加载 R 包文尼图。制作一个向上调节的微分表达基因的静脉图。单击导出以保存面包车图,制作下调节的微分表达基因的静脉图。
单击导出以保存静脉图。六。代表结果。图一显示了由伽马、边缘和DESeq2获得的所有基因的火山图谱。
负日志 p 值根据日志折叠更改绘制。红点表示向上调节的微分表达基因,绿点表示向下调节的微分表达基因。Limma 识别了一千八百八十个向下调节的微分表达基因,以及一千四百四十三个向上调节的微分表达基因在胆管癌组织中。
EdgeR 识别一千五百七十八个向下调节的微分表达基因,以及三千一百二十一个向上调节的微分表达基因。DESeq2 识别一千六百一十六个向下调节的微分表达基因,以及二千九百三十八个向上调节的微分表达基因。图二,静脉图显示从利马边缘和DESeq2分隔的结果之间重叠。
比较这三种方法的结果,一千四百三十一个向上调节的微分表达基因和一千五百三十一个向下调节的微分表达基因是重叠的。七.结论。在此协议中,我们使用 R 包、limma、边缘和 DESeq2 为高排序计数数据提供了不同类型的测量分析的详细协议。三种方法具有相似性,工作人员在分析过程中也有类似情况。
然后,他们从这三种药物是部分重叠。这三种药物都有各自的优势。选择只是取决于数据的时间。
如果有我目前的数据,应该优先考虑 limma,但优先选择 edgeR 和 DESeq2 中的生成测序数据。