该协议通过提供分步工作流程来鉴定差异剪接位点、差异表达外显子和聚(A)位点,从而全面了解由替代剪接和聚腺苷酸化产生的基因亚型。该协议的主要优点是它评估了基于外显子和基于事件的方法,用于研究替代剪接。它还应用基于外显子的方法研究替代聚腺苷酸化。
提供了包含AS和AP分析的代码和注释的R Markdown文件。建议按照 R Markdown 文件中的步骤进行操作,并仔细访问每个步骤的注释。若要使用 limma 的 diffSplice 识别差分拼接,请按照 R 笔记本文件进行操作。
按照文本手稿中的说明准备输入文件。确保按顺序遵循稿件中的步骤 1 到 3 以准备输入文件,然后再继续。首先加载必要的库。
要执行非特异性过滤,请首先提取先前获得的读取计数矩阵,并使用 edgeR 包中的 DGEList 函数创建特征列表,其中行表示基因,列表示样本。然后,使用 edgeR 包中的 CPM 函数将数据从原始规模转换为每百万计数,并保持计数大于可设置阈值的外显子。此数据集包含六个样本。
因此,CPM 设置为大于 1 个样本,六个样本中至少设置为 3 个样本。使用 edgeR 包中的 calcNormFactors 函数使用修剪后的 M 平均值值对样本计数进行归一化。此函数将计算比例因子以调整库大小。
使用先前生成的示例表创建设计矩阵,以定义每个样品的实验条件。运行 limma 包的 voom 函数以处理 RNA 测序数据以估计方差。此函数将生成精度权重以校正泊松计数噪声,并将外显子水平计数转换为记录百万分之二计数或logCPM。
运行 lmfit 函数,将线性模型拟合到每个外显子的表达式数据。然后运行 eBayes 函数来计算拟合模型的基于经验的统计量,以检测差异外显子表达。为感兴趣的实验比较定义对比矩阵。
使用对比。拟合函数,用于获取每对比较的系数和标准误差。在拟合模型上运行diffSplice,以测试野生型和敲除之间基因外显子使用的差异。
使用 topSplice 函数探索排名靠前的结果,其中等于 t 的测试给出 AS 外显子的排名,等于 simes 的测试给出基因的排名。运行绘图拼接函数以绘制结果。在将感兴趣的基因放在基因ID参数中时,红点显示了差异表达的外显子。
使用增强火山生物导体包生成火山图,以展示差异表达的外显子。要使用 rMATS,请确保在工作目录中使用 conda 或 GitHub 安装最新版本的 rMATS 版本 4.1.1。转到包含映射后获取的 bam 文件的文件夹。
根据 rMATS 的要求,针对复制 bam 文件名及其路径(用逗号分隔)的两个条件准备文本文件。运行 rmas。py 使用两个生成的输入文本文件描述 BAM 文件的路径和注释。
之前获得的GTF文件。这将生成一个输出文件夹rmats_out其中包含描述统计信息的文本文件,包括每个拼接事件的 P 值和包含水平。使用生物导体封装激射器来探索rMATS结果。
将交汇点和外显子计数文本文件加载到脉泽对象中,并包括每个拼接事件至少五个平均读取,以根据覆盖范围过滤结果。要可视化rMATS结果,请首先从maser包中运行topEvents函数,以10%的错误发现率和至少10%的拼接百分比或PSI变化选择重要的拼接事件。检查感兴趣的单个基因的基因事件,并绘制该基因的每个剪接事件的PSI值。
通过指定事件类型生成火山图。使用 rmats2sashimiplot 包以文本文件的形式使用 rMATS 获得的拼接事件结果生成生鱼片图。生鱼片图显示了Wnk1基因中跳过的外显子事件。
每行代表一个RNA-seq样品,三个野生型重复和Mbnl1敲除。高度以RPKM为单位显示读取覆盖率,连接弧表示跨外显子的结读数。底部显示了带注释的基因模型替代亚型。
在使用diffSplice和DEXSeq获得的火山图左上象限或右象限的基因中,可以观察到实质性的倍数变化和真实差异的有力统计证据。发现盒式外显子在基因Wnk1的不同条件之间有所不同。差异外显子使用图显示了Wnk1.6.45附近五个外显子位点的差异剪接证据,与野生型相比,粉红色突出显示的外显子可能在Mbnl1敲除样本中被剪接掉。
交替剪接的基因的火山图有助于区分排除在野生型中的基因和包含在野生型中的基因。剪接事件SE,A5SS,A3SS,MXE和RI的类型使用这些事件的顶级重要基因的生鱼片图可视化。使用火山图观察基因的三个主要非翻译区域中的差异APA活性。
使用事件图可视化从不同管道获得的显著差异的PA站点使用结果。在双敲除中,PA位点的使用在双敲除中都可以观察到显着的远端到近端转移,可以在基因FOSL1和Papola中观察到。使用诊断图确定全基因组水平上锚定在已知PA切割位点的侧翼区域的平均覆盖率。
确保在生成计数指标时正确使用跨特定信息和允许多重重叠等参数。线性模型拟合和生成对比对对于正确比较非常重要。对于 rMATS,请确保在运行命令之前根据您的数据正确设置所有参数。
从差异剪接活性中获得的基因可用于进行基因集富集分析。另一个称为MISO的工具可用于进一步的基于事件的分析。