欢迎使用用于研究宿主-病原体相互作用的高通量转录组分析方案。此协议分为以下步骤。质量控制以过滤低质量的读数,并删除适配器序列测序和注释,您必须将读数映射到参考基因组中并将读数注释到基因中。
统计和共表达分析,定义差异表达基因并找到共表达模块。分子扰动度分析,以查找潜在的异常值样本。最后,进行功能分析,以确定差异表达基因的生物学功能。
利用这些管道的所有工具都预安装在 Linux 系统中,并封装到 Docker 容器中。利用这些方案的样本来自我们小组在PLOS Pathogen上发表的一篇论文。样本包括20名健康人和39名感染基孔肯雅病毒的患者。
收集血液样本,并进行RNA测序。要在Windows系统中安装Docker,您必须执行以下步骤。转到 Docker 的官方网页,然后单击"开始使用"。
查找 Docker Desktop for Windows 的安装程序。下载文件。在计算机上本地安装。
确保标记了这两个选项。安装程序后, 下载此协议的 Docker 映像。转到 Windows 终端。
执行命令以下载映像。下载映像后,可以在 Docker 桌面中看到该文件,并且从此映像中,我们可以启动容器。单击倒圆角按钮后,必须展开原始参数和选项以定义容器的名称,并将本地计算机中的文件夹与 Docker 中的文件夹相关联。
在此之后,单击"运行"以启动容器。然后,您可以访问终端,该终端位于 Docker 内部的 Linux 系统中。键入 bash 命令,然后可以执行此协议的所有命令。
首先,我们必须执行源代码以使此协议的所有工具都可用。您应该访问目录脚本。要进行转录组学分析,您必须首先下载参考基因组。
为此,您必须执行以下命令。下载基因组后,您必须下载基因的注释。为此,您必须键入以下命令。
接下来,您必须配置 fastq-dump。这允许您下载示例的排序文件。键入以下命令后,必须使用"选项卡"按钮转到"工具"选项并标记选项"当前目录"。
使用 Tab 按钮进行保存,然后确定。然后退出工具 fastq-dump。现在,我们可以通过键入以下命令来启动读取的下载。
质量控制包括并以图形方式评估测序读数中出错的概率。在此步骤中,您还必须删除适配器等技术序列。要生成质量控制图,您必须运行 FastQC 程序。
若要删除适配器序列和低质量序列,必须键入以下命令。有了高质量的读数,我们现在必须将读数映射到参考基因组中。在绘制图谱之后,我们将不得不根据人类基因注释基因,然后计算与每个人类基因匹配的读取次数。
第一步是通过键入以下命令来索引参考基因组。然后我们输入这个命令,将读数映射到人类基因组中。接下来,您应该运行注释读取的脚本。
在绘制和注释之后,您可以执行差异表达分析,其中包括找到与另一组相比,一组中表达更高或更低的基因。要识别差异表达的基因或DEGs,您必须运行以下命令。在此之后,您可以将数据结果从 Docker 传输到本地计算机。
为此,请转到终端并键入以下命令以将所有结果保存到本地文件夹。若要执行其余分析,还必须将目录数据的所有文件复制到本地计算机中的某个目录。在本地计算机中,您将能够看到从 Docker 保存数据的目录。
如您所见,您可以访问所有库。您还可以打开包含质量控制报告的 HTML 文件。您还可以访问包含差异表达基因的目录。
在这个目录中,你会发现火山图,在那里你可以看到一组与另一组的上调或下调的基因,在这种情况下,感染基孔肯雅病毒的患者与健康对照组。此协议的所有剩余步骤都将使用您的浏览器在 Web 工具中执行。让我们首先从CEMiTool开始。
转到浏览器并键入以下地址。CEMiTool从用户提供的表达数据集中识别共表达模块。在主页中,您可以转到菜单,然后单击"运行"按钮。
这将打开一个新页面,您可以在其中上传表达式文件。此文件位于本地计算机的目录数据中。您将看到有三个表达式文件,我们将用于 CEMiTool 的文件是规范化调用 tmm。
然后,您必须选择现象数据文件,与包含蛋白质 - 蛋白质相互作用的文件相同,最后上传包含基因集或途径的文件。基因集文件使CEMiTool能够对每个共表达模块进行富集分析。接下来,您应该展开参数部分,然后单击"应用 VST"。
之后,您只需单击"运行CEMiTool"即可。运行 CEMiTool 后,您将看到已识别出 12 个共表达模块。通过单击此处,您可以下载这些分析的所有结果。
我们将在该协议中使用的另一个工具是MDP,即分子扰动度。只需输入您的浏览器 mdp.sysbio.tools。MDP计算每个样品与参考样品组(在本例中为健康对照组)相比的分子距离,以便不仅找到潜在的异常值,还发现每个样品与该组相比的扰动程度。
在"运行"页面中,只需单击按钮并选择文件即可上传表达式文件。然后,您必须上传现象数据文件。然后,您必须定义哪个列包含有关组或类的信息,然后定义哪个类或组对应于对照组。
在此之后,您可以运行MDP。条形图以条形显示每个样本的分子扰动程度的分数,颜色代表不同的组。箱形图是可视化相同结果的另一种方法,您可以在每个点上看到由两组分隔的不同样本。
为了执行泛函分析,我们将使用 Enrichr 工具。为此,您必须选择差异表达的基因列表,无论是上调还是下调,并将其用作富集器工具中的输入基因列表。您将看到有不同的选项卡。
所有结果也可以下载到本地计算机。用于转录组分析的计算机环境已放置在 Docker 平台上。这种方法允许没有Linux系统经验的用户使用终端。
在此容器中,存在用于数据集和脚本的预定义文件夹结构,这些结构是所有分析所必需的。在管道中,用户将利用来自20名健康个体和39名急性感染基孔肯雅病毒的患者的血液转录组数据。测序平台返回一组包含DNA序列的FASTQ文件,即
读数,以及每个核苷酸碱基的相关质量。Phred 质量等级指示每个碱基读数不正确的概率。工具可识别并删除样本中的低质量读数,并增加映射读取的概率。
在此步骤中,映射模块中,将回收的高质量读数用作输入,以使其与人类参考基因组对齐。CEMiTool识别和分析共表达模块。同一模块中的基因是共表达的,这意味着它们在数据集的样本中表现出相似的表达模式。
网络分析提供了有关连接最紧密的基因(即中心)的信息。这些基因的名称显示在网络中。
节点的大小与其连接程度成正比。从DEG分析中获得的结果总结在火山图中。对分子扰动程度的分析允许从健康和受感染的个体中鉴定出扰动样本。
MDP建议哪些样本是潜在的生物学异常值。删除这些样本将影响下游结果。使用AURA的功能扩充分析可以使用扩充器工具执行。
这些步骤有助于通过揭示差异表达的几个基因的共同功能作用来解释结果。条形图中显示的生物过程是根据其p值排名排名的前10个富集基因集。总之,这些方案涵盖了RNA-Seq分析的所有步骤。
该管道被开发并封装到名为Docker的非商业系统中。在图像上,并提供给科学界。由于容器系统,所有脚本和工具都处于相同的特定版本下,以保证可重现性。
此外,部分生物信息学分析是通过免费的用户友好型网络工具进行的。