该分析方案允许大规模研究细菌的致病性种群。这非常重要,因为它增强了生态和流行病学调查的进行方式。但要做到这一点,我们需要的是一个自动化和可扩展的工具,或者一个计算平台,允许同时分析数千个基因组序列。
ProkEvo适合这个利基市场,它允许大规模地进行实际的细菌种群分析,同时绘制泛基因组内容,审查基因型和这些基因型的独特特征,以进行生态和流行病学调查。该协议的主要优点是使用功能强大,自动化和可扩展的计算平台,例如ProkEvo,对细菌种群中的分层基因型进行启发式挖掘。今天在这里介绍的分析方案有几个实际意义。
其中之一是促进诊断,允许以可扩展的方式实时绘制和跟踪细菌基因型,从而允许识别和定义病原体的致病谱系,以跟踪和绘制不同环境中的病原体。另一个应用是加强对公共卫生实验室和监管机构的常规监测,这样做是为了便于在不同商业环境中跟踪病原体。这里介绍的方案为微生物学家,生态学家,流行病学家和任何对细菌种群基因组学感兴趣的人提供了实用的指导。
ProkEvo是一个开源且公开可用的平台,其GitHub页面提供了详细的使用说明。这里解释的协议也可以在GitHub上找到。通过提供的说明,我们希望使ProkEvo和该协议易于使用,并被新手和高级研究人员使用。
开始使用Gigi树进行分析,以绘制系统发育树以及基因型信息。为此,请通过更改 x-lim 和 G 热图中的数值来优化 Gigi 树图形大小,包括年轮的直径和宽度。使用系统发育树绘制多层数据时,将所有元数据聚合到尽可能少的类别中,以便于选择着色面板。
根据兴趣和领域知识问题进行数据汇总。完成后,使用条形图通过聚合序列类型或ST谱系的数据以及核心基因组多位点序列分型或cgMLST变体来评估相对频率,以促进可视化。选择用于数据聚合的经验或统计阈值。
示例代码可用于检查 ST 谱系的频率分布并确定截止值。示例代码演示如何聚合次要或低频 ST。未编号的 ST 可以与其他 ST 分组。
对 cgMLST 变体使用类似的代码。使用嵌套方法计算每个 BAPS1 子组中每个 ST 谱系的比例,以识别属于同一 BAPS1 子组的 ST。该代码举例说明了如何跨 BAPS1 子组计算基于 ST 的比例。
为了绘制抗菌素耐药性或AMR位点在整个ST谱系中的分布,请使用经验或统计阈值过滤掉最重要的AMR位点以促进可视化。提供原始数据。csv 文件,其中包含所有 ST 谱系中所有 AMR 位点的计算比例。
接下来,使用代码计算每个 ST 的 AMR 比率。对所有 ST 进行计算后,使用代码将数据集合并为一个数据框,然后导出包含计算比例和代码的 csv 文件。在绘制跨 ST 谱系的基于 AMR 的分布之前,请根据阈值筛选数据,以便于可视化。
接下来,使用Gigi树在单个图中绘制核心基因组系统发育以及AMR数据中的分层基因型分类。然后使用前面提到的参数优化 Gigi 树中的图形大小。通过聚合变量或使用二元分类(例如基因存在或不存在)来优化可视化。
在核心基因组系统发育的背景下,研究了肠道沙门氏菌谱系的分层种群结构。然后使用所有分层基因型的相对频率来评估总体分布和最常观察到的分类。较少见的ST谱系被聚合为其他ST,以促进数据可视化。
同样,不太常见的cgMLST变体被聚合为其他cgMLST。通过评估BAPS1亚组或单倍型的ST谱系的相对频率,使用嵌套方法检查ST之间的祖先关系。评估ST谱系分化AMR位点的相对频率,以鉴定与血清型Newport群体结构相关的独特附属基因组特征。
在结果中,MDFA和AAC6IAA位点似乎是由血清型Newport人群祖先获得的,而ST45预计具有多重耐药性。与ST45相比,其他主要的ST谱系,如ST5和ST118,更有可能对多药敏感。此外,使用系统发育锚定的可视化来系统地整合分层种群结构数据。
该分析方案为大规模细菌种群的数据挖掘奠定了基础。它允许使用ProkEvo大规模绘制和跟踪基因型,但它也可以扩展到回答其他问题,例如探索与基因型信息相关的代谢途径和毒力因子的分布。也就是说,我们可以预测与感兴趣的特定基因型相关的表型。
这里描述的协议无疑为研究人员探索群体基因组学领域的新问题铺平了道路,并推断出致病性和非致病性细菌物种的进化和生态模式。