需要订阅 JoVE 才能查看此. 登录或开始免费试用。
Method Article
银河和大卫已经成为流行的工具,让没有生物信息学培训调查分析和解释RNA-Seq的数据。我们描述了一种协议,用于秀丽隐杆线虫的研究人员进行RNA测序实验,访问和使用银河处理数据集,并获得从使用DAVID的基因列表有意义的生物信息。
新一代测序(NGS)技术已经彻底改变了生物学研究的性质。在这些中,RNA测序(RNA-SEQ)已经成为用于基因表达分析和转录的映射的有力工具。然而,处理RNA-Seq的数据集需要复杂计算的专业知识和带来的生物学研究人员固有的挑战。这个瓶颈已经缓解由开放接入银河项目,使用户无需生物信息学技术分析RNA-Seq的数据,和注释,可视化和集成发现(DAVID)的数据库,基因本体论(GO)项的分析工具,帮助从大的数据集获得生物学意义。但是,对于初次使用者和生物信息学爱好者,自学习和熟悉这些平台可以是耗时且艰巨。我们描述一个简单的工作流程,这将有助于线虫研究人员分离出病毒RNA,进行了RNA-Seq的实验并分析利用银河DAVID平台的数据。这个协议提供了使用各种银河模块在每个步骤访问原始NGS数据,质量控制检查,对准和差异基因表达分析,指导与参数的用户生成可筛选的富集的基因列表逐步指令基因的类或使用DAVID生物过程。总体而言,我们预计,本文将提供信息,以秀丽隐杆线虫的研究人员正在进行运行的小样本首次RNA-Seq的实验以及频繁的用户。
人类基因组的测序首先,执行使用弗雷德·桑格的双脱氧核苷酸测序方法,用了10年,耗资估计US $ 3十亿1,2。然而,自成立以来一点点过去十年,新一代测序(NGS)技术已经使人们有可能在两周内测序整个人类基因组和US $ 1,000。新NGS仪器的成本是允许日益增长的测序数据采集的速度令人难以置信的效率,与急剧下降一起,以难以想象的方式彻底改变现代生物学的基因组测序项目正在迅速成为家常便饭。此外,这些发展已镀锌在许多其他领域,例如通过RNA测序(RNA-SEQ),的基因组范围的表观遗传修饰的研究中,DNA-蛋白质相互作用的基因表达分析的进步,并筛选在人类宿主微生物多样性。 NGS-基于RNA的硒●在特定使得有可能鉴定和地图转录全面与准确度和灵敏度,并且已取代微阵列技术作为选择的一种绘制表达图谱的方法。虽然微阵列技术已经被广泛使用时,它通过其与已知基因组信息预先存在的阵列,以及其它的缺点的依赖的限制,诸如交叉杂交,并且能够可靠地计量的表达的变化限制范围。 RNA-SEQ,在另一方面,可用于检测已知和未知的转录而产生低的背景噪声,由于其明确的DNA映射性质。 RNA-Seq的,加上通过模式生物如酵母提供了众多的遗传工具,蝇,虫,鱼和小鼠,曾担任许多重要生物医学近期发现的基础。然而,显著挑战依然存在,使以更广泛的科学界NGS无法访问,包括存储的局限性,加工,最重要的是,男大量的测序数据的eaningful生物信息学分析。
在测序技术和指数数据积累的快速发展创造了计算平台,将允许研究人员访问,分析和理解这些信息的巨大需求。早期的系统主要依赖于计算机编程知识,反之,基因组浏览器,比如NCBI,允许非程序员访问和可视化数据不允许复杂的分析。基于Web的,开放的接入平台,银河( https://galaxyproject.org/ ),填补了这一空白,并证明是一个有价值的管道,使研究人员能够处理NGS数据并执行的频谱简单到复杂生物信息学分析。银河初步建立,并保持,由安东Nekrutenko(宾夕法尼亚州立大学)和詹姆斯·泰勒的实验室(约翰霍普金斯大学)F"> 3。银河提供广泛的计算任务使其成为一个‘一站式’为无数生物信息学的需要,包括所有参与的RNA测序研究的步骤。Itallows用户无论是在其服务器或执行数据处理在当地自己的机器上,数据和工作流可以被复制和共享。在线教程,帮助部分和wiki页面 ( https://wiki.galaxyproject.org/Support )专用于银河项目提供持续的支持。但是,对于初次使用的用户,尤其是那些没有生物信息学培训,该管道可以出现艰巨,自主学习和熟悉的过程可能会非常耗时。此外,生物系统研究,实验和方法的具体使用,冲击在几个步骤的分析决策,而这些可能很难没有指令导航。
整体RN A-SEQ银河工作流包括数据上传和质量检查,随后使用Tuxedo的套件4,5,6,7,8,9,这是用于RNA测序数据分析10的不同阶段所需的各种工具的集体分析, 11,12,13,14。典型的RNA测序实验由实验部分(样品制备,分离mRNA和cDNA文库制备)中,并NGS生物信息学分析数据。这些部分,以及涉及在银河管道中的步骤的概述,示于图1。
3fig1.jpg" />
图1:一个RNA测序工作流程的概述。参与的RNA测序实验,以比较两个蠕虫菌株(A和B,橙色和绿色线和箭头,分别地)的基因表达概况的实验和计算步骤图示。银河使用的不同的模块示于盒用在我们的协议以红色表示相应的步骤。各种操作的输出被写在灰色与以蓝色显示的文件格式。 请点击此处查看该图的放大版本。
在炫套房的第一个工具是一个名为" 高顶礼帽 "的比对程序。它分解的NGS输入读取成较小的片段,然后将它们映射到参考基因组。这种两步处理确保读取跨越内含子区,其比对可以以其他方式二srupted或错过入账和映射。这增加了覆盖范围并促进新的剪接点的鉴定。 顶帽输出被报告为两个文件,一个文件BED(具有约剪接点,其包括基因组位置信息)和一个文件BAM(具有每个读映射的详细信息)。接着,BAM文件针对参照基因组对齐来估计使用于所谓的" 袖扣" Tuxedo的套件随后工具每个样品内的单个转录物的丰度。通过扫描对准来报告全长转录物的片段或"transfrags"跨越所有在为每一个基因的输入数据可能的剪接变体袖扣功能。在此基础上,它会产生一个对于每个样品被测序(每个基因产生的每一个基因的所有转录的组件)"转录"。然后,这些袖扣组件崩溃或再一起合并在一起ference基因组以产生用于使用下一个工具,"Cuffmerge"下游差分分析的单个注释文件。最后,由每个样品的顶帽的输出进行比较,以最终Cuffmerge输出文件( 图1) 的样品之间的"Cuffdiff"工具措施的差异基因表达。 袖扣使用FPKM / RPKM(片段/读取每百万映射成绩单的每千碱基读取)值报告成绩单丰度。这些值反映原始NGS数据的深度归一化和基因长度(基因具有不同的长度,所以计数必须被归一化了的基因,以比较电平的长度(平均数目从对齐到参考基因组中的样本读出)基因之间)。 FPKM和RPKM基本上是相同的与RPKM被用于单端RNA测序,每一个读出对应于一个单一片段,而,FPKM用于配对末端RNA测序,因为它占的事实,两次读取可以对应于相同的片段。最终,这些分析的结果是所测试的条件和/或株之间差异表达的基因的列表。
一旦成功银河运行完成并产生"基因名单",下一个合乎逻辑的步骤需要更多的生物信息学分析,从数据集推断出有意义的知识。许多软件包应运而生,以满足这方面的需求,其中包括公开可用的基于网络的计算包,如DAVID 15(用于注释,可视化和集成发现数据库)。 DAVID利于通过比较基因上传列表,其集成的生物知识库和揭示与基因列表相关的生物注释分配生物学意义,从高通量研究大基因列表。其次是富集分析, 即测试IDEntify如果任何生物过程或基因类是在以统计学显著方式基因列表(一个或多个)过表达。因为一个广泛的,集成的知识基础和强大的分析算法,使研究人员能够检测富含内生物主题的组合,已成为一个流行的选择基因组衍生的"基因列表" 10,16。其它优点包括其处理的任何测序平台和高度友好的用户界面创建基因列表的能力。
所述线虫是一种遗传模型系统中,公知为它的许多优点,例如尺寸小,透明体,简单的身体计划,易于培养的和巨大的顺从的遗传和分子清扫。蠕虫有一个小的,简单的和注释良好的基因组,其包括高达40%保守的基因与已知的人类同系物17。事实上, 线虫是第一个后生动物,其基因组被完全测序18,并且其中RNA测序被用于映射生物体的转录19,20中的第一物种之一。早期的蠕虫的研究涉及的实验用不同的方法进行高通量RNA捕获,文库制备和测序及生物信息学管道是该技术21,22的发展作出了贡献。近年来,在蠕虫基于RNA-Seq的,实验已经司空见惯。但是,传统的蠕虫生物学家通过RNA-Seq的数据的计算分析所带来的挑战仍然是技术的更大和更好地利用的一个主要障碍。
在本文中,我们描述了使用Galaxy平台分析来自秀丽隐杆线虫中产生高通量的RNA测序数据的协议。对于许多第一次和小SCA勒用户来说,最具有成本效益的和直接的方式进行的RNA测序实验是在实验室中分离RNA,并利用商用(或内部)NGS设施用于制备测序的cDNA文库和NGS本身。因此,我们已首次详细涉及隔离的步骤,C.量化和质量评估线虫 RNA样品用于RNA测序。接下来,我们为使用Galaxy接口,用于NGS数据的分析中,有用于测序后质量控制检查,随后对准,装配,和基因表达的定量差试验开始提供一步一步的指示。此外,我们已包括方向审议银河使用DAVID生物富集研究产生的基因列表。由于工作流中的最后的步骤中,我们上传到公共服务器,如序列读数存档(SRA)在NCBI(RNA-SEQ数据提供指令的http://瓦特ww.ncbi.nlm.nih.gov/sra),使其自由科学界访问。总体而言,我们预计,本文将蠕虫生物学家开展运行小样本首次RNA-Seq的实验以及频繁的用户提供全面的,充分的信息。
1. RNA分离
2. RNA测序数据分析
图2:银河用户界面面板和密钥RNA测序函数的布局。页面的主要特点是扩大和突出。 (A)突出用于访问在网页标题" 分析数据 "功能分析首页查看。 (B)是" 进度条 ",指示由该操作使用银河服务器上的空间。 (C)是" 工具条",其中列出所有可以银河界面上运行的工具。 (D)示出了"NGS:RNA分析"用于RNA测序分析工具部分。 (E)描绘了" 历史记录"面板列出了使用银河生成的所有文件。 (F)显示,在历史部分中的任何文件时,点击打开的对话框的例子。在(F),蓝框突出,可用于查看图标,editthe属性或删除数据集,紫色方块强调了可用于"编辑"数据集标记或批注图标,并且,红色框指示图标下载数据, 查看任务的细节进行或重新运行操作。 请点击此处查看该图的放大版本。
3.基因本体论(GO)项分析使用DAVID
图3:DAVID 分析向导页面和操作的输出的实例的布局。该" 分析向导 " Web用户界面列出了用于分析基于各种参数富集上传基因列表的工具。在一个新的网页点击这些工具报告分析的数据。的从" 基因功能分类 "," 功能注释图表 "和" 功能注释聚类"所产生的表格报告实例被示出为插图(箭头)。>点击此处查看该图的放大版本。
4.上传原始数据到NCBI序列读数存档(SRA)
在秀丽隐杆线虫 ,消去生殖系干细胞(GSC中)延长寿命,提高的应力复原力,和提升体脂肪24,28。 GSC中的损失,或者通过激光烧蚀或通过突变如GLP-1引起,导致寿命延长通过转录的网络因子29活化。一个这样的因素,TCER-1,编码人转录延伸和剪接因子,TCERG1 30的蜗杆同源物...
在现代生物学银河测序平台的意义
银河项目已成为帮助生物学家没有生物信息学培训,以处理和快速,高效地分析高通量测序数据的工具。曾经被视为一个艰巨的任务,这个公开可用的平台,取得了运行复杂的生物信息学算法来分析NGS数据的简单,可靠,简单的过程。除了托管范围广泛的生物信息学工具,成功的关键银河也是它的用户界面的该鞋带复杂测序分析的各个方面一起...
作者什么都没有透露。
作者想表达自己的感激之情谁开发银河和DAVID,从而取得NGS科学界广泛接受的实验室,团体和个人。在我们的生物信息学的培训,在匹兹堡大学的同事提供的帮助和建议是公认的。这项工作是由一个埃里森医学基金会新学者在老龄化奖(AG-NS-0879-12)和美国国立卫生研究院(R01AG051659),以股份公司的资助。
Name | Company | Catalog Number | Comments |
RNase spray | Fisher Scientific | 21-402-178 | |
Trizol | Ambion | 15596026 | |
Sonicator | Sonics Vibra Cell | VCX130 | |
Centrifuge | Eppendorf | 5415C | |
chloroform | Sigma Aldrich | 288306 | |
2-propanol | Fisher Scientific | A416P-4 | |
Ethanol | Decon Labs | 2705HC | |
RNase-free water | Fisher Scientific | BP561-1 | |
Bioanalyzer | Agilent | G2940CA | |
Mac/PC |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。