虽然GWAS已经成功地识别了与人类特征和疾病相关的基因组区域,但这些风险变异的生物影响尚不清楚。在这里,我们概述了一个协议,使用染色质相互作用配置文件计算预测GWAS风险变异的预计目标基因。通常,识别风险基因是了解疾病机制的第一步,并允许正常的治疗方法。
我们希望,这项工作的结果最终能够导致诊断和治疗阿尔茨海默氏症的最终策略。这项技术的主要优点是,通过使用3D色度接触频率,我们可以识别受阿尔茨海默病影响的基因风险方差,即使他们是数千甚至数百万的碱基对。尝试此协议时,熟悉 R 或 X 对系统至关重要,因为用户需要对系统执行整个协议。
若要执行此计算协议,请参阅文本手稿或屏幕上的代码。首先,在 R 中设置,为可信的单核苷酸多态性或 SNPS 生成 G 范围对象。对于位置映射,在 R 中设置,然后加载启动子和外向区域并生成 G 范围对象。
将可信的 SNPS 与外向区域和启动区域重叠。要使用 Chromaton 相互作用将 SNPS 链接到其生成的目标基因,请加载 Hi C 数据集并生成 G 范围对象。将可信的 SNPS 与 Hi C G 范围对象重叠。
并编译AD候选基因,由位置映射和色度体相互作用配置文件定义。接下来,探索发展轨迹。在 R 中设置并处理表达式元数据。
指定发展阶段并选择皮质区域。提取AD风险基因的发育表达特征,比较产前与产后表达水平。通过 R 中设置并提取 AD 风险的细胞表达式配置文件来调查细胞类型表达式配置文件。
最后,对AD风险基因进行基因注释富集分析。下载并配置荷马。然后运行荷马,并绘制与R工作室丰富的术语。
使用此过程对一组 800 个可信的 SNPs 进行了调查。位置映射显示,103 个 SNP 与启动子重叠,42 个 SNP 与 Exons 重叠,而 84% 的 SNP 未通知。在成人大脑中使用高C数据集,另外208个SNPs与64个基于物理接近的基因相关。
总共有284个AD可信的SNPs被映射到112个AD风险基因。AD风险基因与淀粉样蛋白、淀粉样蛋白形成和免疫反应有关,这反映了该疾病的已知生物学。AD风险基因的发育表达特征显示,产后富集显著,表明与年龄相关的疾病风险升高。
最后,这些基因在微胶质中高度表达,这是大脑中的主要免疫细胞,支持了AD具有很强的免疫基础的经常性发现。在这里,我们使用来自脑组织的Hi-C数据来分析阿尔茨海默病风险差异的生物学影响。然而,将此方法应用于另一个 GWAS 研究,相关组织中新的 Hi-C 数据水平至关重要。
这些结果可以通过基于脆性的技术、增强剂报告器检测或与其他功能基因组数据集(如殷拓)相交来进一步研究和验证。在这里,我们识别了几十个阿尔茨海默病风险基因,我们期望这些基因的识别可以帮助我们了解它们以前在阿尔茨海默病中未知的角色。