解释核糖体分析实验产生的测序数据对于定量测量核糖体在mRNA上的翻译活性以及研究翻译调控机制至关重要。在该协议中,我们将描述利用核糖体分析数据和RiboCode的计算过程,RiboCode是一种命令行工具,用于在全基因组尺度和单核苷酸分辨率下解码mRNA翻译。这种方法允许搜索来自注释蛋白质编码基因之外的基因组区域的新型肽,并提供量化mRNA翻译速率的机会。
首先,打开一个 Linux 终端窗口,然后通过执行命令创建 conda 环境。切换到创建的环境,并通过执行命令安装 RiboCode 和依赖项。要获取参考序列的基因组参考文件,请转到Ensembl网站,然后单击下载,然后单击FTP下载。
单击“DNA FASTA”列中的“FASTA”选项,然后选择物种为人类的行,如网站页面上的表格所示。在Ensembl网站页面上,复制文本中提到的链接,然后通过执行命令下载并解压缩终端中的文件。有关参考注释,请右键单击上次打开的网页中列基因集中的 GTF。
复制链接,然后使用命令下载。要获取 rRNA 序列,请打开 UCSC 基因组浏览器,然后单击工具,然后在下拉列表中选择表格浏览器。在 UCSC 基因组浏览器页面上,为进化枝指定哺乳动物,为基因组指定人类,为组指定所有表,为表指定 R 掩码,为区域指定基因组。
对于过滤器,单击“创建”转到新页面,并将 rep 类设置为匹配 rRNA。单击“提交”,然后将输出格式设置为序列,并将文件名输出为HG38_rRNA。发。最后,单击“获取输出”,然后选择“获取序列”以检索 rRNA 序列。
要从序列读取存档中获取核糖体分析数据集,请下载si-eIFe处理组的复制样本,并通过执行命令重命名它们。然后下载对照组的复制样本,并通过执行命令重命名它们。要去除 rRNA 污染,请通过执行命令开始索引 rRNA 参考序列。
索引后,将读数与 rRNA 引用对齐,以通过执行命令排除源自 rRNA 的读取。首先通过执行命令创建基因组索引。然后,通过执行命令将无 rRNA 污染的干净读取与创建的引用对齐,然后通过执行命令对准文件进行排序和索引。
通过执行命令准备脚本批注。选择特定长度的核糖体保护片段,并通过执行命令来识别它们的P位点位置。编辑每个示例的配置文件并合并它们。
然后通过执行命令运行RiboCode。读数长度的频率分布表明,大多数受核糖体保护的片段对应于25至35个核苷酸。通过检查不同长度的核糖体保护片段的P位点位置,通过检查其从五个主端到注释的起始和停止密码子的距离来确定。
映射结果表明,10, 394个基因编码带注释的开放阅读框。此外,509和168个基因编码上游和下游开放阅读框,而939个基因编码上游或下游开放阅读框架,与已知的注释开放阅读框架重叠。此外,68个蛋白质编码基因和2,601个非编码基因编码新型开放阅读框。
长度分布表明,上游、下游、新颖和重叠的开放阅读框比注释的开放阅读框架短。计算每个开放阅读框的相对核糖体保护片段计数,结果表明,eIF3e缺陷细胞中上游开放阅读框的核糖体密度显着高于对照细胞。元遗传学分析显示,在起始密码子下游的密码子25和75之间停滞了大量核糖体,这表明翻译伸长可能在eIF3e缺陷细胞的早期被阻断。
研究了PSMA6上游开放阅读框和基因SENP3-EIF4A1下游开放阅读框架的P位点密度谱,证明了核糖体保护片段的周期模式和密度。检查已知蛋白质编码区域的开始和停止密码子周围的读取位置对于评估每个长度的读取周期性是必要的。RiboCode与另一个命令行工具一起,RiboMiner还可以执行质量控制和多种分析,例如量化和可视化核糖体在预测的开放阅读框上的占用率。
该计算工具提供了一种高通量方法,用于在特定生理环境中使用核糖体分析数据识别非规范翻译事件,以及翻译如何响应刺激进行调节。