miRDeep2 可用于准确识别植物微RNA,这些微RNA是植物开发中重要的转录调节器,对于应对环境挑战至关重要。miRDeep2 需要明显较短的运行时间,在灵敏度和准确性方面表现出出色的性能,特别是用于预测具有大基因组的植物中的微RNA。假阳性和长处理时间是植物微RNA注释的挑战。
通过添加新的场内策略、彻底改革评分算法和集成严格的标准,miRDeep2 可以克服这些问题。高置信度微RNA注释对于发现微RNA在调节基因组不同功能中的作用至关重要。分步指导对首次使用微RNA注释器很有帮助。
对于经验丰富的研究人员来说,该方法对于了解使用 miRDeep2 的优势和其他工具非常有用。要安装 miRDeep2 包,请导航到 miRDeep2 网页并获取 tarball 文件。然后将下载文件的所有内容提取到一个文件夹中,然后将文件夹路径设置为路径。
要测试 miRDeep2 管道,请下载测试数据和预期输出,其中包含一个格式化的 GSM 测序文件和一个 Arabidopsis thaliana 基因组文件,并移动所有下载的文件到当前工作目录。提取压缩焦油球文件后,建立阿拉伯基因组参考指数和非编码RNA参考指数。在包含所有中间文件和结果user_selected_folder将自动生成一个文件夹。
然后可以使用测试数据运行 miRDeep2 管道。要检查测试输出,请查看选项卡分隔的输出文件。预测的微RNA的最终输出将包含指示染色体ID、链方向、代表性读取ID、前体ID、成熟miRNA位置、前体位置、成熟序列和前体序列的列。
然后检查progress_log,该文件提供有关已完成的步骤和script_log script_err和文件,其中包含程序输出和警告。在运行管道之前,为了确保将输入读取预处理成正确的格式,请从深度排序读取的五个和三个主要端卸下适配器,并确保所有 FAST A 标识符都是唯一的。每个序列标识符必须以下划线 x 和一个整数结束,该整数指示在深度排序数据集中检索的精确序列的副本编号。
为确保唯一的 FAST A 标识符,在 ID.To 中包含一个运行数字,生成参考索引,如果感兴趣的物种的基因组序列已编制索引,请从 iGenomes 网站下载 Bowtie 2 索引文件。接下来,构建一个非微RNA非编码RNA指标,其中包含来自RNA家庭的主要非编码序列,包括核糖体RNA、转移RNA、小核RNA和小核RNA,以过滤其他非编码RNA片段中的噪声序列。若要使用 miRDeep2 从深度测序数据检测新的微RNA,请运行包中的 bash 脚本以启动分析管道。
读取可以映射到的不同位置数,可以修改运行 Bowtie 2 的不匹配编号和每百万次读取的阈值。要检查 miRDeep2 输出,请查看自动生成的output_folder。在这项代表性分析中,miRDeep2微RNA注解管被应用于5个植物物种的10个公共sRNA序列库,如所示,基因组大小逐渐增加。
对于每个物种,来自不同组织的两个代表性小RNA库及其索引基因组序列作为两个输入处理。使用以前的方法,基因组处理可能需要超过100个小时,或者有时会由于基因组的长度而在分析过程中停止。但是,miRDeep2 在几分钟到数小时的显著较短的时间段内完成这些预测过程。
对于本测试中使用的两个序列 Arabidopsis 小型 RNA,miRDeep2 在灵敏度和准确性方面与其他工具相比表现更好。请确保程序的输入索引正确。例如,仅对 Bowtie 索引使用 Bowtie,对大型基因组使用大索引选项。
可以使用测序数据预测生成的微RNA的目标,这些数据可以提供对微RNA功能的洞察。由于miRDeep2可用于准确和灵敏地识别特定植物物种中的大多数微RNA,因此可以研究微RNA功能作为一个整体的作用。