环状RNA在不同的生物过程中起着重要的调节作用。该协议适合初学者在宿主和病原体相互作用领域进行环状RNA分析。在这里,我们将一些工具放在一起,创建了安全RNA预测和定量,安全RNA功能富集,安全RNA,micro-RNA相互作用预测和CCE RNA网络构建所需的简化方案。
这种简化的方案可应用于临床样本,以识别宿主和病原体相互作用环境中的某些候选物、诊断和预后值。我希望那些没有编程知识的人在这项技术的初始阶段会很困难。因此,我建议学习这种技术中使用的编程语言的基础知识。
我相信通常与单独阅读相比,如何应用编程语言会更丰富、更容易理解。要开始打开 Linux 终端并在主机参考基因组的目录中执行命令 bwa index 和 hisat2-build 来索引基因组。准备一个 yml 配置文件,其中包含文件名、工具路径、下载的参考文件的路径和索引文件的路径。
指定RNA序列数据的文库类型,并使用默认或手动参数执行Ciriquant工具。准备一个文本文件,其中包含包含RNA序列数据的ID,Ciriquant输出的GTF文件的路径以及RNA序列数据的分组(无论是对照组还是处理组)。在 Linux 终端上,使用准备好的文本文件作为输入运行prep_Ciriquant。
此运行将生成文件列表。准备第二个文本文件,其中包含包含RNA序列ID及其各自字符串连接输出路径的数据列表。文件布局必须与以前准备的文本文件相似,而无需运行分组列。
运行准备。PY将此文本文件作为输入来生成基因计数矩阵文件。使用library_info执行Ciri_DE_Replicate。
CSV,circRNA_BSJ。CSV 和gene_count_matrix。CSV 文件作为输出最终circRNA_DE的输入。
TSV 文件。要过滤并确定差异表达或DE的circRNA的数量,请打开circRNA_DE。带有 R 或任何其他电子表格软件的 tsv 文件。
使用相关软件(如 WinRar 或 7-Zip)从 CircR GitHub 页面下载 CircR 文件后,解压缩并提取该文件的内容。进入将在其中进行分析的新目录。然后在进行circRNA miRNA分析之前安装必备软件应用程序,如SAMTools,miRanda,RNAhybrid和Pybedtools。
使用 SAMtools FAIDX 命令索引感兴趣的生物体的参考基因组文件,并在选项卡分隔的床文件中准备一个由感兴趣的 DE circRNA 坐标组成的输入文件。接下来,执行 Circr。py 使用 Python3。
并且,由于参数指定了circRNA输入文件,感兴趣的生物体的更快基因组,所选生物体的基因组版本,线程数以及命令行中输出文件的名称。Circr分析完成后,程序会输出CSV格式的circRNA-miRNA相互作用文件。准备一个制表符分隔的文件,其中包含感兴趣的 circRNA 及其靶 miRNA。
第一列由circRNA名称组成。第二列指定第一列中的RNA类型。第三列是靶miRNA。
第四列指定了第三列中的RNA类型。要构建 ceRNA 网络图,请打开 Cytoscape 软件,导航到文件、导入、从文件联网,选择准备好的文件并上传。按样式按钮更改网络的视觉样式。
然后按填充颜色右侧的箭头,为色谱柱选择类型,为图谱类型选择离散图,并为每种RNA类型选择所需的颜色。之后,导航到形状以更改节点的形状,并按照前面显示的步骤操作。对于circRNA亲本基因的基因本体和KEGG分析,请确保集群分析器和组织。Hs.eg。
数据库包已安装在我们的工作室中。将 DE circRNA 信息导入 R 工作室工作区。如果用户希望将亲本基因名称转换为其他格式,例如 entrezid,请使用诸如 bidder 之类的功能。
使用基因 ID 作为输入,并使用默认参数在集群配置文件或包中使用 enrichGO 函数运行基因本体和富集分析。最后,使用基因 ID 作为输入和集群分析器包中的富集 KEGG 函数运行 KEGG 富集分析。DE circRNA亲本基因基因本体富集分析的气泡图如图所示。
x轴上的基因比是输入列表中与给定基因本体项相关的基因数除以该项中的基因总数。图中的点大小由计数值表示,计数值是输入列表中与给定基因本体项相关的基因数。点的大小越大,与该术语相关的输入基因数量就越多。
图中的点根据 p值进行颜色编码,p值是通过将注释项的观测频率与偶然预期的频率进行比较来计算的。富集具有统计显著性,仅当 pvalue 小于 0.01 时才绘制在气泡图上。在这里,生物过程的前三个富集包括核糖核蛋白复合物生物发生,对病毒的反应和对生物刺激的反应的调节。
而对于分子功能,只有作用于RNA和单链RNA结合的催化活性在统计学上富集。对于细胞成分,只有逆转录体复合物在统计上富集。该代表性图像显示了气泡图中DE circRNA亲本基因的KEGG富集分析。
在这种情况下,只有两个KEGG术语被富集,即甲型流感和病毒生命周期途径。尝试此过程时最重要的事情之一是确保在运行损伤一时使用的RNA环数据集的正确性状类型。这里提供的生物信息管道有助于预测潜在的长期RNA和功能注释。
然而,仍然需要有良好引导的核查来提供确凿的证据。该协议将使研究人员能够发现安全的RNA及其在不同代码和病原体相互作用中的潜在功能作用,他们可以进一步研究。