需要订阅 JoVE 才能查看此. 登录或开始免费试用。
Method Article
* 这些作者具有相同的贡献
生物信息学管道,即miRDeep-P2(简称miRDP2),具有更新的植物miRNA标准和经过全面检查的算法,可以准确有效地分析植物中的微RNA转录,特别是对于具有复杂和大型基因组的物种。
微RNA (miRNA) 是 20- 24 核苷酸 (nt) 内源性小RNA (sRNA), 广泛存在于植物和动物中,在转录后水平上调节基因表达起着有效作用。过去十年中,用新一代测序 (NGS) 方法测序 sRNA 库被广泛用于识别和分析 miRNA 转录体,从而迅速增加了 miRNA 发现。然而,由于测序sRNA库的深度增加以及植物基因组的大小和复杂性,植物miRNA注释中出现了两个主要挑战。首先,许多其他类型的sRNA,特别是来自sRNA库的短干扰RNA(siRNA),被许多计算工具错误地批号为miRNA。其次,在具有庞大和复杂基因组的植物物种中分析miRNA转录体,这成为一个极其耗时的过程。为了克服这些挑战,我们最近通过采用新的过滤策略、彻底检查评分算法和合并新更新的植物 miRNA,将 miRDeep-P(miRNA 转录组分析的常用工具)升级到 miRDeep-P2(简称 miRDP2)注释条件。我们在基因组复杂性增加的五种代表性植物(包括阿拉伯拟南芥、水稻、番茄、玉米和小麦)中针对测序sRNA种群测试了miRDP2。结果表明,miRDP2处理这些任务的效率非常高。此外,miRDP2 在灵敏度和准确性方面优于其他预测工具。综合起来,我们的研究结果证明miRDP2是分析植物miRNA转录酶的快速和准确的工具,因此是帮助社区更好地在植物中对miRNA进行分文的有用工具。
过去二十年来生物学中最令人兴奋的发现之一是sRNA物种在调节基因组1的不同功能中的增殖作用。特别是,miRNA在真核生物中构成20-24ntsRNA的重要类别,主要在转录后水平上作为重要的基因调控器,在整个生命周期发育阶段以及刺激和应激反应2、3中发挥作用。在植物中,miRNA产生于称为pri-miRNA的主要转录本,通常由RNA聚合酶II转录为单个转录单元4、5。由进化保存的细胞机械(动物中的Drosha RNase III,植物中的DICER样)处理,pri-miRNA被切除到直接的miRNA前体,前miRNA,其中包含形成分子内茎环结构的序列6,7。然后,将预miRNA加工成双链中间体,即miRNA双工,由功能链、成熟miRNA和功能性较低的伙伴miRNA®2、8组成。在加载到RNA诱导沉默复合物(RISC)后,成熟的miRNA可以基于序列互补性识别其mRNA靶点,导致负调节功能2,8。miRNA要么破坏目标成绩单,要么阻止目标翻译,但前者在植物8,9中占主导地位。
自从偶然发现线虫10、11号线虫中第一个miRNA以来,许多研究都致力于miRNA鉴定及其功能分析,特别是在NGS方法的提供之后。NGS方法的广泛应用极大地促进了计算工具的利用,这些工具旨在捕捉miRNA的独特特性,如前体的干环结构及其在成熟miRNA和miRNA®上序列读取的优先积累。因此,研究人员在识别不同物种的miRNA方面取得了显著成功。基于先前描述的概率模型12,我们开发了miRDeep-P13,这是从NGS数据中发现植物miRNA的第一个计算工具。miRDeep-P是专门旨在征服解码植物miRNA的挑战,具有更多的可变前体长度和大型的副体家族13,14,15。发布后,这个程序已被下载数千次,并用于在40多个植物物种16中对miRNA转录子进行批过。在基于NGS的工具(如miRDeep-P)的推动下,公共miRNA存储库miRBase17中注册的miRNA数量急剧增加,目前托管的miRNA项目超过38,000个(版本22.1),而2008年仅为500个miRNA项目(版本2.0)。
然而,植物miRNA注释带来了两个新的挑战。首先,高误报率严重影响了植物miRNA注释16、19的质量,原因如下:1)由于缺乏严格的miRNA注释标准,NGS sRNA库中的内源性短干扰RNA(siRNA)被错误地注释为miRNA;2) 对于没有先验miRNA信息的物种,根据NGS数据预测的假阳性很难消除。以miRBase为例,Taylor等人20号在公共存储库21(第21版)中发现了三分之一的植物miRNA条目,缺乏令人信服的支持证据,甚至四分之三的植物miRNA家族也值得怀疑。其次,它成为一个极其耗时的过程,预测植物miRNA与大和复杂的基因组16。为了克服这些挑战,我们更新了 miRDeep-P,增加了新的过滤策略,彻底修改了评分算法,集成了植物 miRNA 注释的新标准,并发布了新版本 miRDP2。此外,我们使用 NGS sRNA 数据集测试了 miRDP2,其基因组大小逐渐增大:阿拉伯拉多普西、大米、番茄、玉米和小麦。与其他五种广泛使用的工具及其旧版本相比,miRDP2 分析了这些 sRNA 数据,并更快地分析 miRNA 转录,提高了准确性和灵敏度。
miRDP2 封装的内容
miRDP2 包由六个文档化的 Perl 脚本组成,这些脚本应由准备好的 bash 脚本按顺序运行。在六个脚本中,三个(convert_bowtie_to_blastpl、filter_alignments.pl和excise_candidate.pl)是从miRDeep-P继承的。 其他脚本是从原始版本修改的。六个脚本的函数如下所述:
preprocess_reads.pl筛选输入读取,包括太长或太短的读取(<19 nt 或 >25 nt),读取与 Rfam ncRNA 序列相关,以及读取的 RPM(读取百万)小于 5。然后,该脚本检索与已知 miRNA 成熟序列相关的读取。输入文件是 FASTA/FASTQ 格式的原始读取和 bowtie2 输出的读取映射到 miRNA 和 ncRNA 序列。
计算 RPM 的公式如下:
convert_bowtie_to_blast.pl将蝴蝶结格式更改为 BLAST 解析格式。BLAST 解析格式是从标准 NCBI BLAST 输出格式派生的自定义表格分隔格式。
filter_alignments.pl过滤深度测序读取到基因组的对齐方式。它过滤部分对齐以及多对线读取(用户指定的频率截止)。基本输入是 BLAST 解析格式的文件。
excise_candidate.pl使用对齐的读取作为指南,从参考序列中剪切出潜在的前体序列。基本输入是 BLAST 解析格式的文件和 FASTA 文件。输出是 FASTA 格式的所有潜在前体序列。
mod-miRDP.pl需要两个输入文件,签名文件和结构文件,通过改变评分系统与植物特定参数从核心miRDeep-P算法修改。输入文件是点括号前体结构文件和读取分发签名文件。
mod-rm_redundant_meet_plant.pl需要三个输入文件:mod-miRDP.pl生成的chromosome_length、前体和original_prediction。它生成两个输出文件,非冗余预测文件和预测文件筛选新更新的工厂 miRNA 标准。有关输出文件格式的详细信息,请见第 1.4 节。
1. 安装和测试
2. 识别新颖的 miRNA
3. 使用 miRDP2 进行修改和警告
本文描述的miRNA注释管道miRDP2适用于5个基因组长度逐渐增加的植物物种的10个公共sRNA-seq库,包括阿拉伯拟南芥、Oryza sativa(大米)、索兰姆碱化(番茄)、Zea Mays(玉米)和三联体(小麦)(图1A)。总体而言,对于每个物种,来自不同组织的2个代表性sRNA库(折叠成唯一的读取,协议部分的细节)及其索引基因组序列作为两个?...
随着NGS的出现,从越来越多的sRNA测序数据中发现了大量的miRNA位点,这些物种的数量不断增加,不同的物种29,30。在集中式社区数据库miRBase21中,沉积的miRNA项目在过去十年中增加了近100倍。然而,与动物中的miRNA相比,植物miRNA具有许多独特的特征,使得识别/注释更加复杂13,14。
作者没有什么可透露的。
这项工作得到了北京农林科学院(KJCX201917、KJCX20180425和KJCX20180204)对XY和中国国家自然科学基金(31621001)的LL支持。
Name | Company | Catalog Number | Comments |
Computer/computing node | N/A | N/A | Perl is required; at least 8 GB RAM and 100 GB storage are recommended |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。