氨基酸级信号-噪声分析,提供基因变异与疾病状态相关的可能性的度量,或是种群内自然遗传变异的一部分。这项技术利用了两种大型遗传资源,即文献中提供的疾病相关突变,或在公共领域进行基于种群的外向体和基因组研究,这些基因资源可以识别罕见的遗传差异。要识别感兴趣的特定基因和拼接异构体,请打开 Ensembl 主页,然后从下拉菜单中选择该物种。
输入感兴趣基因的首字母缩略词,然后单击"转到"。从转录表中选择与感兴趣的基因和转录兴趣对应的链接以及感兴趣的 ID。在转录表的参考序列列中注意RNA转录本和RNA转录物识别编号的蛋白质产品,供将来参考。
选择与RNA转录带ID号蛋白质产品相关的链接,从国家生物技术信息中心或NCBI蛋白质数据库打开一个新的网页,然后向下滚动到"起源"部分,获取感兴趣的基因转录本的主要蛋白质序列。然后向上滚动到"特征"部分以获取蛋白质特征的列表。要计算每个氨基酸位置的次要等位频率与控制变种,打开一个图形功能电子表格,并创建所有实验变体的位置列。
删除变体文本以仅保留变体位置,并在升值中对变体进行排序,以确定哪些位置具有多个关联的变体。通过组合与给定位置关联的每个变体的次要等位基因频率,获取给定位置的所有次要等位基因频率的总和,并计算每个氨基酸位置的次要等位频率与实验变量。接下来,创建一列具有实验变异的氨基酸位置,并计算所有变异位置与该位置关联的所有变异的次要等位频率。
若要为实验和控制变体创建次要等位基因的滚动平均值,请创建一个列,其中包含感兴趣的基因中的所有氨基酸位置,并为每个没有控制和实验数据集变体的位置添加一个零的次要等位频率。要为每个实验和控制流行率列创建滚动平均值,请创建一个列,表示控制和实验数据集的次要等位频率的滚动平均值,并在滚动平均值列中将五个变体位置 N 端和 C 端子各自的次要等位频率的平均值放置到每个位置。要计算队列最小频率,请将识别的最低次要等位基因除以 2,并在控制次要等位频率为零的任何单元格中输入此值。
在计算信噪比时,这样可以避免除以零。要计算氨基酸级信噪比,将各氨基酸位实验滚动平均值除以各自的控制滚动平均值,并绘制此比率与氨基酸位置的图。要确定功能域和功能的一致氨基酸位置,或感兴趣的蛋白质的转化后修饰区域,确定与蛋白质域和功能相关的氨基酸位置,并打开 NCBI 网页。
将感兴趣的蛋白质的RNA转录本的蛋白质产品输入搜索领域,并在特征下识别已知的蛋白质域和特征。识别和记录域名和类型以及氨基酸的位置,并选择与特征对应的链接,以可视化感兴趣的蛋白质主序列上的区域。在信噪柱旁边创建一列,以便引用氨基酸位置列,并识别每个域和功能的 N 或 C 终端方面对应的细胞。
然后,在每个单元格中放置一个,在 y 轴上创建具有这些边界的图形,并在 x 轴上创建氨基酸位置的图形,然后用信噪点图覆盖此图形。要映射单个变体位置以覆盖信噪比和蛋白质域拓扑图,请创建域要素列旁边的列,使列中的行与氨基酸位置相对应,并在添加的行的每个单元格中放置一个,对应于包含相应变体的位置。然后,创建一个图形,此列作为 y 轴和 x 轴上的氨基酸位置,并覆盖此图形与信噪比和蛋白质域拓扑图。
在这里,对钾电压门控通道亚家庭Q成员一个基因的氨基酸电平信号噪声分析有代表性的结果。在控制队列中识别的罕见差异,以及实验意外识别的有益体外体测序,以及被认为可能与疾病相关的长QT综合征病例相关变种显示。还表现了与控制队列变异频率进行比较的噪声信号分析,以及长QT综合征队列变异频率。
在此实验中,长QT综合征相关变异表明,与通道浇注、选择性滤波器和钾电压门控通道亚家庭E成员一个绑定域对应的域中,信噪比很高。相比之下,在健康外向测序组中顺便识别的变异,没有清楚地显示高信号噪声高程的特定区域,这表明这些变异反映了背景遗传变异。这种方法可用于测量临床基因测试期间出现的未知意义变种的诊断重量。