有针对性的下一代测序和生物信息学管道评价宪政疾病的遗传决定因素

Allison A. Dilliott; Sali M.K. Farhan; Mahdi Ghani; Christine Sato; Eric Liang; Ming Zhang; Adam D. McIntyre; Henian Cao; Lemuel Racacho; John F. Robinson; Michael J. Strong; Mario Masellis; Dennis E. Bulman; Ekaterina Rogaeva; Anthony Lang; Carmela Tartaglia; Elizabeth Finger; Lorne Zinman; John Turnbull; Morris Freedman; Rick Swartz; Sandra E. Black; Robert A. Hegele

doi:10.3791/57266

本文内容

摘要
摘要
引言
研究方案
结果
讨论
披露声明
致谢
材料
参考文献
转载和许可

摘要

有针对性的下一代测序是一种时间和成本效益高的方法, 在疾病研究和临床诊断中越来越受欢迎。此处描述的协议介绍了序列化所需的复杂工作流以及用于识别导致疾病的遗传变异的生物信息学过程。

摘要

下一代测序 () 正在迅速变革, 如何对宪政疾病的遗传决定因素进行研究。这项技术效率高, 以百万计的测序读数是在短时间跨度和相对较低的成本生产。具体来说, 靶向性的目的是根据研究的疾病, 将调查重点放在特别感兴趣的基因组区域。这不仅进一步降低了成本, 并提高了过程的速度, 而且减少了通常伴随的计算负担。虽然靶向的表型限制在基因组的某些区域, 防止潜在的新的感兴趣的基因座的识别, 它可以是一个优秀的技术, 当面临着一个与基因异质性疾病, 其中有以前已知的基因关联。由于测序技术的复杂性, 必须密切遵守协议和方法, 以实现高覆盖率和高质量的顺序读取。此外, 一旦获得测序读数, 一个复杂的生物信息学工作流被用来准确地将读数映射到参考基因组, 调用变体, 并确保变体通过质量指标。变种也必须根据其临床意义进行标注和策划, 这可以通过应用美国医学遗传学和基因组致病性指南来标准化。本文提出的方法将显示从目标测序面板中生成和分析 ONDRISeq 数据的步骤, 并利用神经退行性疾病面板作为模型来确定可能具有临床意义的变种。

引言

由于定义各种条件的遗传决定因素在研究和临床上都具有更高的优先地位, 因此下一代测序 () 被证明是实现这些目标的高吞吐量和经济高效的工具¹^,² ^,³。近40年来, 桑格测序一直是识别基因变体⁴的黄金标准;然而, 对于具有遗传异质性或未知遗传病因的疾病, 必须对许多可能的候选基因进行评估, 经常同时进行。在这种情况下, 桑格排序变得昂贵且耗时。然而, 它涉及大量的平行序列数以百万计的 DNA 片段, 允许成本和时间有效的技术, 同时检测在不同地区的基因组的广泛的遗传变异。

有三种类型的基因序列 DNA: 1) 全基因组测序 (WGS), 2) 全 exome 测序 (维斯) 和 3) 目标排序⁵。WGS 评估一个人的整个基因组内容, 而维斯只需要对基因组⁶的蛋白质编码区域进行排序。相反, 靶向测序侧重于基因组的特定区域, 其基础是由常见病理机制或已知临床表型所连接的相对较少的特定基因。可以使用这种方法指定外显子或内含子, 或基因或特定组基因的任何基因间区域。因此, 有针对性的测序可以是一个很好的方法, 当已经有一个基础的候选基因已知与利益相关的疾病。针对基因组的特定区域, 可以消除多余的和不相关的遗传变异, 这可能会对临床解释产生云或分心。虽然 WGS 和 WES 都产生大量高质量的数据, 但数据量却是压倒性的。这大量的数据不仅需要计算密集型的生物信息学分析, 而且数据存储可以经常出现问题⁷。数据存储的这一挑战也增加了 WGS 和 WES 的额外成本, 这在计算排序费用时通常不会被考虑。此外, 尽管它正在减少, WGS 和维斯的成本仍然相对较高。目标排序可以是更具成本效益的选择, 特别是当需要大量个人进行排序时。

安大略省神经退行性疾病研究倡议 (ONDRI) 是一个多平台, 全省级, 观察队列研究五神经退行性疾病, 包括: 1) 阿尔茨海默病和轻度认知障碍, 2)肌萎缩侧索硬化, 3) 额颞部痴呆, 4) 帕金森病, 5) 血管认知^障碍8。ONDRI 基因组小组的目的是阐明这一队列的基线特征的一部分经常被贴现, 但极其重要的遗传景观这些表型和基因异构疾病。因此, 神经退行性疾病是适当的候选者的方法和针对性的排序, 特别是。

我们已经定制设计了一个目标的 ONDRISeq, 以序列528参与者参与 ONDRI 的蛋白质编码区域的80基因, 以前曾与五疾病的兴趣。通过这种方法, 我们能够以集中和高效的方式利用高质量的数据。ONDRISeq 小组的设计和验证, 有多重的一致性研究已经被描述, 这是 ONDRISeq 小组能够确定新的, 罕见的变种可能的临床意义在 72.2% 216 例用于面板验证⁹. 虽然最近几年, 本技术取得了迅速而显著的进展, 但许多研究人员在将原始数据处理成可用的、带注释的变体¹⁰的列表时面临挑战。此外, 变体的解释可能是复杂的, 特别是面对许多稀有或新颖的¹¹。

在这里, 我们以循序渐进的方式描述了重测序、变体调用和变体注释所需的相关生物信息学工作流的方法, 以 ONDRISeq 研究为例。在生成数据后, 原始排序文件必须与人类参考基因组对齐, 以便准确地调用变体。然后, 必须对变体进行批注以执行后续的变体精选。我们也将解释我们的实施美国医学遗传学的标准和指南, 以准确地分类变异致病性。

研究方案

为了 ONDRI 的目的, 根据 Baycrest 老年护理中心 (多伦多、加拿大安大略省) 的研究伦理委员会获得了伦理协议和知情同意;成瘾和精神健康中心 (加拿大安大略省多伦多);伊丽莎白 Bruyère 医院 (渥太华, 安大略省, 加拿大);汉密尔顿总医院 (汉密尔顿, 安大略省, 加拿大);伦敦健康科学中心 (伦敦, 安大略省, 加拿大);麦克马斯特 (汉密尔顿, 安大略省, 加拿大);渥太华医院 (渥太华, 安大略省, 加拿大);Parkwood 医院 (伦敦, 安大略省, 加拿大);St. 迈克尔的医院 (多伦多, 安大略, 加拿大);新宁健康科学中心 (加拿大安大略省多伦多);和大学健康网络-多伦多西部医院 (多伦多, 安大略省, 加拿大)。

1. 人体血液样本中的 DNA 分离

根据适当的伦理协议和知情同意, 收集来自测序参与者的样品。
1. 为了获得高质量的 DNA, 抽取血液样本进行提取。
  注: dna 也可以从唾液或颊细胞中提取, 以确保使用适当的 dna 提取试剂盒。
2. 如果从血液中提取, 获得高产量的 DNA, 收集样品在三4毫升 EDTA K2 管, 提供一个样本的总容积 ~ 12 毫升。
3. 离心血液样本为20分钟, 在 750 x g, 以分数进入血浆, 薄, 中间阶段的白细胞, 和红细胞的底部阶段。
用一次性转移吸管将血浆从血液样本中吹打。适当丢弃血浆或分配到多个500µL 整除数储存在-80 摄氏度, 以供将来的生化分析。确保每个样品都使用新的无菌吸管。
根据制造商的说明, 提取血液样本中的 DNA, 并抽取血液提取套件¹² (材料表)。
注: 如果获得上面描述的体积样本, 将获得3毫升的白细胞用于 DNA 提取。
根据制造商的说明, 使用全频谱分光光度计¹³ (材料表) 测量µL 中的初始 DNA 浓度。
直接执行步骤2。或者, 储存 DNA 在4摄氏度。

2. 排序库准备

在三天的过程中对 DNA 样品进行序列稀释, 以获得最终浓度为 5.0 1.0 ng/µL。
1. 稀释1米三缓冲 pH 值8.5 到10µM 与去离子水。
  注: 稀释后的体积将取决于 DNA 样品的数量, 在随后的步骤中需要稀释。
2. 如果在步骤1.4 之后直接执行 DNA 稀释, 请执行以下步骤。如果不是同一天, 测量的 DNA 浓度是在步骤1.4 中完成。
3. 根据浓度测量, 稀释40µL 的 DNA µL 10 µM 三缓冲 pH 8.5, 并允许样本坐在4摄氏度过夜。
4. 根据制造商的说明, 测量 dna 浓度的荧光计14适合于量化 dna ( 材料表)。
  注: 样品的浓度应 > 10 µL, 因为以前使用的分光光度计灵敏度较低。
5. 根据浓度测量, 稀释20µL 的 DNA 到 10 ng/µL 使用10µM 三缓冲 pH 8.5, 并允许样本坐在4摄氏度过夜。
6. 根据制造商的说明, 使用荧光计14测量 DNA 浓度.
7. 根据浓度测量, 稀释10µL 的 DNA 到 5 ng/µL 使用10µM 三盐酸 pH 8.5, 并允许样本坐在4摄氏度过夜。
根据制造商的指示, 编写测序库, 并与目标产品面板的适当目标浓缩套件¹⁵ (材料表) 配合使用。确保浓缩套件适用于所使用的 "应用" 平台。
1. 按照制造商的说明¹⁶关于库的 plexity 和汇集。
  注: 对于 ONDRISeq, 库由12个 DNA 样本组成, 集合在两组中, 并运行在 "." 桌面仪器 (材料表) 中。可以在单个反应中运行的样本数将取决于所使用的排序工具包和平台。
2. 为了获得更高质量的测序数据, 请执行可选步骤以验证 tagmentation 以下的 DNA 库质量, 在制造商的说明中描述了目标浓缩套件¹⁵。
  1. 对各图书馆进行三个方面的分析, 以保证图书馆的产出质量。
3. 如果汇集库, 则根据制造商的说明, 用荧光计14测量 DNA 浓度.使用此浓度确定每个 DNA 库的体积, 以获得所使用的目标浓缩套件建议的摩尔比率。

3. 下一代测序

根据本机台式机仪表试剂盒制造商的说明¹⁷^,¹⁸ (材料表) 对库进行序列化。
1. 请根据制造商的说明¹⁸使用适当的产品技术软件 (材料表) 准备一个示例表单, 将其导入到 "产品" 桌面设备的工作流中。
  注意: 为了 ONDRISeq 的目的, 选择的应用程序选项为 "其他", 仅有请求的 FASTQ 文件 (图 1)。随后的步骤将处理这些 FASTQ 文件, 以便完全自定义对齐和质量参数。但是, 如果选择了目标排序, 一些 VCF 工具就能够将排序数据处理到自己的文件中。可以咨询制造商的说明¹⁸ , 以获取完全选择的选项。
2. 如果使用基于云的计算环境¹⁹ (材料表), 则在设置顺序运行时登录。点击 "测序" 上的 "测量" 页面上的。
3. 下面的库变性¹⁸根据制造商的说明, 用荧光计14测量 DNA 库的浓度.
4. 根据制造商的说明, 使用适当的自动电泳系统和 dna 质量分析工具包²⁰ (材料表) 验证 dna 库质量。
5. 要将 DNA 浓度从 ng/µL 转换为 nM, 请使用下面的公式¹⁶
  
  注: 平均库大小将特定于所使用的目标浓缩套件, 并可从电泳跟踪观察在步骤3.1.4。
6. 根据制造商的说明²¹, 将排序库稀释到 6–20 pM 的最终浓度, 并按 600 ul 的容量进行。
  注: 所需的准确浓度取决于所使用的测序套件。请咨询浓缩套件制造商以确定适当的装载浓度。
7. 根据制造商的说明, 稀释、变性和包括一个正控制序列库²¹。
8. 记录每一个测序运行, 包括 DNA 库浓度加载 (pM), 增加阳性控制百分比, 试剂盒条码, 在步骤3.1.1 选择的应用, 索引读取数, 使用浓缩套件, 读取长度 (s) 和示例工作表名称。
  注意: 4–56桌面仪器的运行时间将取决于所选的仪器、浓缩套件和读取长度 (本实验中使用的排序器²²)。
完成顺序运行后, 访问 "运行文件夹" (包括所有输出), 通过导航到 "". 桌面仪表主页并单击 "管理文件"。将文件移动到本地驱动器以供以后访问。对于单独的选项, 在计算机上, 通过在导航面板上选择 "运行", 在基于云计算的计算环境中查找文件¹⁹ 。选择适当的排序运行以导航到 "运行摘要" 页。选择 "下载" 从云中获取数据。从出现的对话框中, 选择 FASTQ 文件作为要下载的文件类型, 然后单击 "下载"。
从基于云计算的计算环境¹⁹^、²³的 "运行摘要" 页中, 导航到 "图表", 以分析计算环境所产生的各种数字所运行的排序的质量。有关生成的每个图形的详细信息, 请参阅制造商的说明²³ 。
1. 从 "运行图表" 页中, 查找标记为 "按周期显示数据" 的数字。在 "图表" 下, 选择 "强度", 并在 "通道" 下选择 "所有通道"。确保所产生的信号强度图类似于过去使用相同浓缩套件和。
  注: 这反映了每个基地在所有150个周期中显示的强度百分比。根据所使用的浓缩套件, 这个数字可能会有很大的差异, 这就是为什么必须将其与同一面板的过去顺序运行进行比较的原因。
2. 在 "运行" 导航面板中选择 "索引 QC" 选项卡以查找页面右侧的索引质量控制 (QC) 直方图。确保在所有样本中观察到已识别的% 读数 (PF) 的相对均匀分布。
  注: 如果任何样本的% 读数都比其余样本低得多, 请注意, 测序数据的质量可能受到影响。
从基于云计算的计算环境的 "运行摘要" 页中, 通过单击 "运行" 导航面板中的 "度量" 来导航到质量指标。
注意: 指标削减将取决于所使用的测序平台和浓缩套件。根据制造商的说明²³可以使用许多度量标准, 下面的步骤突出显示了三的质量控制建议。
1. 在 "密度 (K/毫米²)" 下, 确保簇密度位于所使用的浓缩套件建议的范围内 (在本例中为 1,200–1,400²)。
2. 在 "%≥Q30" 下, 确保该值为≥85%, 反映顺序读取的质量。
  注: 如果低于此阈值 85%, 请注意, 排序的质量可能会受到损害。
3. 在 "对齐 (%)" 下, 确保该值类似于序列化运行中包含的正控制的%。
  注意: 这是一种积极控制的措施, 只发现总读数的百分比与阳性对照基因组一致。如果使用1% 正控制, 则预期对齐 (%) 将是 ~ 1–5%。

figure-protocol-5107
图 1: 本技术软件 (材料表) 的截图示例表创建者应用程序选项.为了 ONDRISeq 的目的, 只使用 FASTQ 应用程序。但是, 如果用户希望生成其他文件 (如 VCF 文件), 建议使用目标重测序类别中的应用程序。请单击此处查看此图的较大版本.

4. 重测序和变体调用

对于数据预处理, 选择适当的软件将原始 FASTQ 文件与人类参考基因组对齐, 并调用变体 (材料表)。
导入 FASTQ 序列读入数据预处理软件。
注: 为了 ONDRISeq 的目的, 通过软件导入和处理24个样本的单测序运行产生的 48 FASTQ 文件。一次处理的样品数量可以根据研究人员的需要和 "产品" 面板的大小而有所不同。
1. 在 "导航区域" 中, 右键单击并选择 "新建文件夹"。为文件夹命名, 以便对执行的排序运行有明确的说明。
2. 从顶部的工具栏中, 选择 "导入"。在顺序平台的下拉列表中, 选择了执行排序的平台。
  注: 为 ONDRISeq 的目的, 选择 "Illumina"。但是, 如果使用不同的排序平台, 请参考制造商关于 FASTQ 导入步骤²⁴其余部分的说明。
3. 在 "" 对话框中, 导航到正在处理的排序运行中的 FASTQ 文件并从中选择。如果使用具有多个服务器的计算机, 请确保正在导入的文件存储在本地驱动器中并从中导入。
4. 从对话框的 "常规选项" 中, 单击 "配对读取" 旁边的框, 如果排序使用配对结束化学。
  注: 在这种情况下, 也应该有两个 FASTQ 样本导入每个样本-一个和一个反向。
5. 从对话框的配对读取信息中, 如果前向读取 FASTQ 文件出现在文件列表中的反向读取之前, 请选择 "配对端 (正向反转)"。如果文件以相反的顺序出现, 请选择 "配对 (反向向前)"。将配对的读取最小距离设置为 1, 最大距离为 1000, 以便在样本序列内检测小规模结构重排。
6. 从对话框的 "Illumina 选项" 中, 选择 "删除失败的读取", 删除失败排序的读取。如果在导出 FASTQ 文件之前, "输出" 桌面工具取消复用数据, 则不选择 "MiSeq 反复用" 框。
7. 从 "质量分数" 下拉列表中, 选择用于排序的 "产品" 管线。在对话框底部选择 "下一步"。
  注: 使用的管线将影响 FASTQ 文件质量分数的格式。有关选择哪个管线的详细信息, 请参阅制造商的说明²⁴。
8. 在 "新建" 对话框中, 选择 "保存" 和 "每浴单元创建子文件夹", 将每个示例的 FASTQ 文件放入各自的文件夹中。在对话框底部选择 "下一步"。
9. 在 "新建" 对话框中, 选择在步骤4.2.1 中创建的文件夹。这是将导入 FASTQ 文件的位置。在对话框的底部选择 "完成", 然后等待 FASTQ 文件导入。单击 "进程" 选项卡以查看文件导入的状态。
根据制造商的说明, 在软件中设计工作流以执行重测序和变体调用。
注意: 此工作流可能根据研究员的需要而异, 但以下步骤包括为 ONDRISeq (图 2) 的目的而包括的内容。此工作流中的步骤可以根据需要应用于其他重测序和变体调用软件。为 ONDRI 的目的, 所有生物信息学的处理都是参照人类参考基因组 GRCH37/hg19 进行的, 用于数据处理和分析的一致性。
1. 将测序读数映射到参考基因组。
  1. 配置时, 根据需要选择参考基因组, 确保它与所有生物信息学步骤使用的参考基因组相同。
  2. 从掩蔽模式下拉列表中选择 "无掩蔽", 以便不屏蔽引用序列的区域。
  3. 使用软件分配的默认映射选项。查看制造商的说明²⁴以验证这是否可以根据研究的目的接受。
2. 包括在工作流本地重新调整到人类参考基因组, 以解决任何读取映射错误, 特别是周围的插入删除变体。
  1. 使用软件分配的默认本地调整选项。查看制造商的说明²⁴以验证这是否可以根据研究的目的接受。
3. 删除由聚合酶协议内的 pcr 产生的重复映射读取, 以减少 pcr 放大偏倚的影响, 这可能产生误报²⁵。
  1. 根据研究的需要, 设置 "少数群体序列的最大代表数 (%)"。
    注: 宽大设置, 如用于 ONDRISeq 的用途, 为 5%;但是, 软件的默认设置更严格20%。当两个读取非常相似时, 此设置确定是否应将具有较少读取计数的序列视为 PCR 放大偏差的排序错误。因此, 通过设置 5%, 少数读计数必须是≤5% 的多数读计数被改正与多数人读的相同。
4. 从步骤4.3.3 中生成的读取曲目的覆盖率摘要文本文件的形式导出目标区域的统计信息。忽略设置中的非特定匹配项和断开的对。在本地驱动器上为这些文件选择一个目标。
5. 从步骤4.3.3 中生成的读取曲目中导出每个示例的二进制序列对齐映射 (BAM) 文件。这包含序列对齐数据 (如果需要在将来的分析中)。在本地驱动器上为这些文件选择一个目标。
6. 选择一个变体检测方法来调用序列中的变体。
  注: 当可以对样本的倍性进行假设时, 建议使用固定倍体变体检测算法, 如用于 ONDRISeq 的目的。如果无法进行此假设, 请参阅制造商的说明²⁴确定最佳算法以供研究之用。
  1. 在配置时, 从固定倍性变体参数选项中, 为样本有机体设置倍性。设置 "必需的变体概率", 或将变量正确调用以使其保留的概率为90.0%。
  2. 对常规筛选器使用以下建议设置: "最小覆盖率" 为 10x, "最小计数" 为 2, "最小读取频率" 为 20%, "忽略断开对", 忽略非特定匹配 (基于 "读取") 和 "最小读取长度" 20。
    注: 这些参数是基于 ONDRISeq 的目的。请参阅制造商的说明²⁴以确保它们适合正在进行的研究。
  3. 使用以下建议设置的噪音过滤器: "基地质量过滤器" 与 "邻里半径" 映射质量分数为 5, "最低中央质量" 映射评分为 20, "最小邻里质量" 映射评分为 15;"读的方向过滤器" 5.0%;和 "相对读取方向过滤器" 的1.0% 意义。
    注: 这些参数是基于 ONDRISeq 的目的。请参阅制造商的说明²⁴以确保它们适合正在进行的研究。
7. 筛选根据浏览器可扩展数据 (床位) 文件所指定的与目标面板的目标区域重叠而调用的变体, 仅允许为目标的 "内部" 面板选择的基因组区域内发生的变体被保留.
  注: 该床文件将是唯一的目标的, 是正在使用的, 基于基因组的区域, 该小组可以覆盖。
8. 从步骤4.3.7 中生成的变体轨道导出变体调用格式 (VCF) 文件中的变体报表。在本地驱动器上为这些文件选择一个目标。
9. 根据制造商的说明²⁴保存并安装工作流, 以使其在软件的 "工具箱" 中可用。确保将工作流命名为, 以便在将来明确它适合的 "it" 面板。
  1. 在安装过程中使用 "导出引用数据" 选项的对话框中, 将所有选项设置为 "捆绑"。
  2. 在安装过程中的 "安装位置" 选项的对话框中, 单击 "在本地计算机上安装工作流"。
根据制造商的说明²⁴, 在步骤4.3 中设计的自定义生物信息学工作流中运行导入的 FASTQ 序列化读取文件。
1. 标识软件 "工具箱" 中步骤4.3 中设计的工作流, 然后双击它。
2. 在出现的对话框中, 找到在 "导航区域" 中的步骤4.2 中导入的 FASTQ 文件的文件夹。通过在 "导航区域" 中选择它们来突出显示所有文件夹, 然后单击 "批处理" 旁边的框。使用向右箭头将文件移动到 "选定元素"。单击对话框底部的 "下一步"。
3. 在该对话框中, 查看 "批处理概述" 以确保选中了正确的 FASTQ 文件, 然后单击 "下一步"。
4. 在对话框中查看工作流的以下步骤, 以确保在步骤4.3 中设计工作流时选择了正确的文件和导出位置: "映射读取到引用";删除重复的映射读取 ";"为目标地区创造统计数据";"出口 BAM";"导出制表符分隔的文本";"基于重叠的过滤器";和 "出口 VCF"
5. 在对话框中的最后一步-"结果处理"-选择 "在输入文件夹中保存" 选项。单击对话框底部的 "完成"。
  注意: 这意味着为每个示例生成的文件将被放置到在数据预处理软件中存储 FASTQ 文件的同一文件夹中。

figure-protocol-9600
图 2: 为 ONDRISeq 而自定义的数据预处理软件 (材料表) 内的 FASTQ 文件的重测序和变量调用工作流。工作流中的步骤可以根据研究者的需要应用到其他的重测序和变体调用软件中。请单击此处查看此图的较大版本.

5. 变体注释

下载并自定义注释变体 (ANNOVAR)²⁶脚本, 以便在每个示例的 VCF 文件上执行变体批注。
1. 从 ANNOVAR 下载以下数据库, 作为注解: 1) RefSeq²⁷ (2015年8月更新);2) dbSNP138²⁸ (2014年9月更新);3) Exome 聚合财团²⁹ (才, 版本 0.3 2015年11月更新);4) 国家心脏、肺和血液研究所 Exome 测序项目欧洲队列³⁰ (ESP, 2015年3月更新);5) 1000 基因组项目欧洲队列³¹ (1KGP, 2015年8月更新);6) ClinVar³² (2016年3月更新);和 7) 组合的注释依赖损耗³³ (CADD), 从容错³⁴ (筛选) 和 PolyPhen-2³⁵排序不耐受。
  注意: 基因组坐标和 ANNOVAR 引用的所有数据库都提到人类基因组构建 GRCh37/hg19。此外, 列出的数据库版本是用于 ONDRISeq 的, 当下载数据库时使用的是最新版本。
2. 如果需要, 请自定义 ANNOVAR 输出注释变体的完整列表, 以及使用筛选操作²⁶减少注释变体的编译。
  注: 减少名单可以根据研究员的需要定制。为 ONDRISeq 的目的, 被减少的注解的变形名单不包括比15个基地发生的变形从最近的外显子或任何变异与次要等位基因频率 (农林) > 3% 在三个数据库的任何: 1) 才;2) ESP;和 3) 1KGP。强烈建议使用此步骤。
3. 如果需要, 根据研究员²⁶的需要, 自定义 ANNOVAR 以单出特定的等位基因调用。
  注: 为了 ONDRISeq 的目的, ANNOVAR 评估为风险等位基因 rs429358 (c > t):p 所做的顺序调用. C130R 和 rs7412 (c > T):p. R176C 为了输出整个 APOE 基因型, 其中有六可能组合, 包括: 1) E2/E2;2) E3/E2;3) E4/E2;4) E3/E3;5) E4/E3;6) E4/E4。在这六种可能的APOE基因型中, E4/E4 是发展晚发性阿尔茨海默病的最普遍接受的遗传危险因素³⁶。
查询疾病变异数据库 (资料表), 以确定变种以前是否与疾病相关, 有合理的证据。请考虑以前未报告为新变体的任何变体。
1. 评估来自 ClinVar 的 ANNOVAR 注释, 使与疾病相关的变种包括任何被归类为可能的致病或致病性。
过程拼接变体通过在硅片预测工具基于拼接的分析变体³⁷ (SPANR) 和人剪接 Finder³⁸ (HSF, 版本 3.0)。
如果处理大量示例, 请比较每个示例中的变体调用, 以确定哪些变体由各种示例共享。手动或使用自定义设计的脚本执行此操作, 以便检测可能的排序工件和污染事件。
注意: 为了 ONDRI 的目的, 自定义脚本用于通过比较 ANNOVAR 输出文件来对它们进行注释。该脚本包含一个注释, 每个变体, 与任何其他样本的主题 ID 窝藏相同的变体, 否则称为变体的历史在研究队列。
根据美国医学遗传学学院 (ACMG) 致病性准则对变种进行分类³⁹, 将每个变体分类指定为以下内容之一: 1) 致病性;2) 可能致病性;3) 不确定意义的变体;4) 可能良性;或 5) 良性。
注意: 为了 ONDRI 的目的, 内部设计的 Python 脚本用于在半自动化的基础上执行 ACMG 分类。虽然不用于本研究, 但 InterVar⁴⁰是一种类似设计的工具, 可以用类似的方式使用。
在研究队列 > 10% 中确定了 < 30x 和/或变体的序列覆盖范围内的任何变体, 以验证它们不是序列化工件⁴¹。

结果

本文介绍的方法适用于528名参加 ONDRI 的个人的 DNA 样本。在 ONDRISeq 面板上运行的示例每运行22个24个样本。总的来说, 测序数据被确定为高质量, 平均样本覆盖率为 78 @ 13x, 所有个体运行都表示平均样本覆盖率 > 30x。此外, 平均94% 的目标区域至少覆盖了 20x (表 1)。

平均95.6% 的读取被映射到引用序列, 所有的 ONDRISeq 运行都有 > 90% 的读取映射 (表 1)。在映射的读取, 92.0% 有一个 Phred 评分≥Q30, 只有一个运行有 < 80% 的映射读取满足此质量指标。然而, 这一运行仍然显示了79x 的平均覆盖率, 93% 的目标区域覆盖至少20x。

参数	平均值 (±sd)	最佳性能	最差性能
簇密度 (x10³/mm²)	1424 (±269)	1347	1835
总计读取次数 (10⁶)	43.1 (±6.0)	48。7	47。4
映射的读取 (10⁶)	40.1 (±6.0)	47。1	25。7
映射读取 (%)	95.6 (±1.3)	96。8	92。6
Phred 质量评分≥Q30 (%)	92.0 (±6.0)	92	68。3
样本覆盖率 (x)	78 (±13)	99	51

表 1: 在 ONDRISeq 上运行22的顺序质量指标。

病例研究: 在 PD 患者中鉴别罕见的变种。

为了证明我们的目标工作流程的效用, 我们提出了一个68岁, 男性, 帕金森病患者的例子。该 DNA 样本是使用 ONDRISeq 面板与其他 23 ONDRI 样本一起运行在 "产品" 桌面仪器 (材料表) 上的。运行显示的群集密度为 1555 x 10³/毫米²。病人的特定样本显示76x 的平均覆盖率, 其中93.9% 的目标区域至少覆盖了20x。

在使用自定义生物信息学工作流执行变体调用和注释之后, 发现该病人在 ONDRISeq 面板中的80个基因的外显子和周围的 250 bp 中有1351个变种。然而, 如上文所述, ANNOVAR 管线能够通过考虑变型序列本体和农林化来减少变型的数量。这产生了一个七变种的列表, 这些变体经过手动精选 (图 3)。从这七变种, 两个被确定为有可能的临床意义。这个过程是特定于 ONDRI 的需要, 是通过识别那些在一般人群中比较少见的, 并在本体中非同义, 从而导致蛋白质的变化。无论该变种以前是否与疾病有关, 在这一过程中也使用了在硅中预测 deleteriousness 的蛋白质和变种的 ACMG 致病性分类。

从缩减列表中第一个标识的是一个异型变体, 即LRRK2: c. T3939A, 导致无意义的变体 p. C1313 *。LRRK2对富含亮氨酸的重复激酶2进行编码, 它具有 GTPase 和激酶活动⁴²。此外, 这一基因中的突变已知是家族性帕金森病的主要病因⁴³。这种变体在LRRK2中引入了一个过早停止密码子, 从而失去了氨基酸残留物1,314–2,527。这防止了蛋白质 Ras 的复杂蛋白质 (中华民国), C-端的 (林) 和蛋白激酶领域, 其中涉及功能作为一个非典型的 GTPase, GTP 结合蛋白, 和蛋白激酶, 并预测由 CADD (CADD Phred = 36) 生成的在硅片分析中损坏。这种变体在才和 ESP 中也很少见, 分别为0.004% 和 0.01%, 并且在1000G 数据库中是缺席的。此外, 这是所有528个序列中唯一一个携带这个变体的病人, 因为它以前没有在疾病突变数据库 (材料表) 中描述过, 这是新颖的。这一备选电话的信心是通过其深度覆盖109x 来确认的。最后, 用 AMCG 的致病性标准和准则对该变种进行了评估, 并将其归类为病原体。

患者还携带第二个异型变体, NR4A2: c. C755A, 导致无义改变 p. P252Q。由NR4A2编码的蛋白质, 核受体亚氏4组 A 成员 2, 是一个转录因子, 参与产生多巴胺能神经元⁴⁴和突变内的基因以前曾与帕金森的疾病⁴⁵。非极性脯氨酸对极性谷氨酰胺的替代被预测为由 CADD (CADD Phred = 21.1) 产生的在硅片预测分析中的破坏性, 而不是由筛选或 PolyPhen-2 产生的分析所造成的。变种是罕见的, 以0.004% 的才和缺席从 ESP 和1000G。该变种也被确诊为血管性认知功能障碍的 ONDRI 参与者, 但以前没有在疾病突变数据库中描述过。这种变体的覆盖率仅为 18x, 但是, 将执行桑格排序, 以确保其在序列中的有效性。最后, 在评估 ACMG 标准和致病性准则时, 该变种被确定为不确定的意义。

ONDRISeq 面板和生物信息学管道也能够确定每个样本的APOE基因型。这个病人决心要有APOE基因型 E3/E3。

figure-results-3587
图 3: 从 ANNOVAR 中减少输出的示例, 显示手动策划的、带注释的变体.从68岁、男性、帕金森病患者的病例研究中 ANNOVAR 的减少。有注释的变种被精心策划, 以识别那些最有可能具有临床意义的, 如红色盒子所表示的。请单击此处查看此图的较大版本.

讨论

在从 DNA 样本提取到确定在考虑病人的诊断、疾病进展和可能的治疗方案时可能感兴趣的变种的路径中, 必须认识到所需方法的多种多样性质。用于排序和正确的数据处理。本文所描述的协议是一个例子, 使用目标的生物信息学和后续的分析, 必须找出罕见的变种潜在的临床意义。具体来说, 我们提出了 ONDRI 基因组的方法, 当使用 ONDRISeq 定制设计的 "。

人们认识到, 这些方法是基于一个特定的 "一个" 的应用平台开发的, 并且还有其他的测序平台和目标浓缩套件可以使用。然而, 根据美国食品药品监督管理局 (FDA) 批准的⁴⁶, 该平台和桌面仪器 (材料表) 被选择。此授权反映了高品质的测序, 可以执行的选择和可靠性, 可以放在排序读取。

虽然获得准确的测序读数与深度的覆盖面是非常重要的, 生物信息学处理所需的最后罕见的变异分析是至关重要的, 可以计算密集型。由于在测序过程中可能发生的许多错误的来源, 一个健壮的生物信息学管道必须纠正各种不准确, 可以介绍。它们可能产生于映射过程中的失调, 在库准备中引入 PCR 放大的放大偏倚, 以及生成序列工件⁴⁷的技术。无论用于执行读取映射和变体调用的软件, 都有几种常用的方法来减少这些错误, 包括本地重新排列、删除重复的映射读取以及在调用变体时为质量控制设置适当的参数。此外, 在变量调用过程中选择的参数可能会因在手边¹¹中最适合研究的内容而异。选择了一个变种及其周围核苷酸的最小覆盖率和质量评分, 以在适当的特异性和灵敏度之间建立平衡。这些参数已被验证的 ONDRISeq 面板基于变量调用一致性与三独立的遗传技术, 如前所述, 包括: 1) 基于芯片的基因分型;2) 等位基因判别法;和 3) 桑格排序⁹。

根据准确的变种调用, 为了确定那些潜在的临床意义, 注释和精选是必不可少的。由于其开放的访问平台, ANNOVAR 是一个很好的工具, 为注释和初步的变体筛选或消除。除了易于访问之外, ANNOVAR 还可以应用于任何 VCF 文件, 无论使用何种排序平台, 都可根据研究²⁶的需要进行自定义。

在注释之后, 必须对变体进行解释, 以确定它们是否应被认为具有临床意义。这一过程不仅变得复杂, 而且往往容易出现主观性和人为错误。因此, ACMG 制定了评估任何变种致病性证据的准则。我们应用一个非同义的, 稀有的基于变体的手动精选方法, 它是基于这些准则构建的, 并通过单独评估每个变体来进行维护, 这些变量可以通过一个定制设计的 Python 脚本通过管道,根据准则对变体进行分类。这样, 每个变种被分配一个致病性, 可能致病, 不确定的意义, 可能是良性的, 或良性的排序, 我们可以增加标准化和透明度的变体精选过程。必须认识到, 在生物信息学管道之外的变体精选的具体情况将根据研究的需要进行个性化, 因此超出了所提出的方法的范围。

虽然这里提出的方法是具体的 ONDRI, 所描述的步骤可以翻译时, 考虑大量的宪法疾病的利益。随着基因关联数量的增加, 许多表型的存在, 靶向性的促进了一个假设驱动的方法, 可以利用以前的研究已经在该领域做。然而, 有针对性的研究和提出的方法也有局限性。只关注基因组的特定区域, 发现的领域仅限于感兴趣的新的等位基因。因此, 在测序靶所覆盖的新基因或其他基因组基因座之外, 可以用 WGS 或维斯方法揭示, 将无法确定。基因组中也有一些区域可能难以精确地序列化方法, 包括高度重复序列⁴⁸或富含 GC 内容⁴⁹的那些。幸运的是, 当使用靶向的, 有一个先验的高度熟悉的基因组区域正在排序, 以及这些是否可能构成技术挑战。最后, 目前从当前的数据中检测到的拷贝数变体不是标准化的⁵⁰。然而, 这些关注的生物信息学解决方案可能正在进行中;新的计算工具可能有助于分析这些额外的变异形式的 ONDRI 患者。

尽管有其局限性, 目标公司仍能在假设驱动的方法中获得高质量的数据, 同时其成本比 WGS 和 WES 相对较低。这一方法不仅适用于有效和有针对性的研究, 而且目标性的的临床实施也呈指数级增长。这项技术正被用来回答许多不同疾病分子通路的问题。它也被开发成一个准确的诊断工具, 在相对较低的成本, 而不是维斯和 WGS。即使与黄金标准的桑格测序相比, 目标的击败也能在其时间和成本效率上有所提高。基于这些原因, 对于接受和使用数据的科学家或临床医生来说, 例如, 作为实验室或临床医学报告中的文本传递来了解结果的复杂 "黑匣子" 是很重要的。本文提出的方法应能帮助用户理解生成和解释数据的基本过程。

披露声明

作者没有什么可透露的。

致谢

我们感谢所有 ONDRI 参加者的同意和与我们的研究合作。感谢 ONDRI 调查员 (www。ONDRI.ca/people), 包括我们的首席调查员 (MJS) 和 ONDRI 理事委员会: 执行委员会、指导委员会、出版委员会、征聘委员会、评估平台和项目管理小组。我们还感谢伦敦区域基因组中心的技术专长。《反倾销法》得到伦敦阿尔茨海默病学会和密密硕士研究生研究奖学金的支持。SMKF 被加拿大 Noël 博士后奖学金支持。

材料

Name	Company	Catalog Number	Comments
4 mL EDTA K2 tubes	Fisher Scientific	02-689-4
1 M Tris Buffer	Bio Basic Canada Inc.	SD8141
Gentra Puregene Blood Kit	Qiagen	158389	1,000 mL Kit. This is the blood extraction kit, referred to in step 1.3.
NanoDrop-1000 Spectrophotometer	Thermo Fisher Scientific	ND-2000	Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2.
Qubit 2.0 fluorometer	Invitrogen	Q32866	This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3.
Nextera Rapid Custom Capture Enrichment Kit	Illumina, Inc.	FC-140-1009	Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion.
2100 BioAnalyzer	Agilent Technologies	G2939BA	This is a automated electrophoresis system, referred to in step 3.1.4.
High Sensitivity DNA Reagent Kit	Agilent Technologies	5067-4626	110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4.
MiSeq Reagent Kit v3	Illumina, Inc.	MS-102-3003	600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1.
MiSeq Personal Genome Sequencer	Illumina, Inc.	SY-410-1003	This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion.
Experiment Manager	Illumina, Inc.		This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html
BaseSpace	Illumina, Inc.	SW-410-1000	This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/
CLC Genomics Workbench 10.1.1	Qiagen	832000	Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2.
Annotate Variation			http://annovar.openbioinformatics.org/en/latest/user-guide/download/
RefSeq	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/refseq/
dbSNP138	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138
Exome Aggregation Consortium	Broad Institute		http://exac.broadinstitute.org/
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort	University of Washington and the Broad Institute		http://evs.gs.washington.edu/EVS/
ClinVar	National Center for Biotechnology Information		https://www.ncbi.nlm.nih.gov/clinvar/
Combined Annotation Dependent Depletion	University of Washington and Hudson-Alpha Institute for Biotechnology		http://cadd.gs.washington.edu/
Sorting Intolerant from Tolerant	J. Craig Venter Instutite		http://sift.jcvi.org/
PolyPhen-2	Brigham and Women's Hospital, Harvard Medical School		http://genetics.bwh.harvard.edu/pph2/
Human Gene Mutation Database	Qiagen	834050	This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php
Splicing-based Analysis of Variants	Frey lab, University of Toronto		http://tools.genes.toronto.edu/
Human Splicing Finder	Aix Marseille Université		http://www.umd.be/HSF3/HSF.shtml
Other materials
Centrifuge
Disposable transfer pipets

参考文献

Metzker, M. L. Sequencing technologies - the next generation. Nat Rev Genet. 11 (1), 31-46 (2010).
Mardis, E. R. Next-generation DNA sequencing methods. Annu Rev Genomics Hum Genet. 9, 387-402 (2008).
Shendure, J., Ji, H. Next-generation DNA sequencing. Nat Biotechnol. 26 (10), 1135-1145 (2008).
Sanger, F., Nicklen, S., Coulson, A. R. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74 (12), 5463-5467 (1977).
Farhan, S. M. K., Hegele, R. A. Exome Sequencing: New Insights into Lipoprotein Disorders. Current Cardiology Reports. 16 (7), (2014).
Choi, M., et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A. 106 (45), 19096-19101 (2009).
Mardis, E. R. DNA sequencing technologies: 2006-2016. Nat Protoc. 12 (2), 213-218 (2017).
Farhan, S. M., et al. The Ontario Neurodegenerative Disease Research Initiative (ONDRI). Can J Neurol Sci. 44 (2), 196-202 (2017).
Farhan, S. M. K., et al. The ONDRISeq panel: custom-designed next-generation sequencing of genes related to neurodegeneration. NPJ Genom Med. (16032), 1-11 (2016).
El-Metwally, S., Hamza, T., Zakaria, M., Helmy, M. Next-generation sequence assembly: four stages of data processing and computational challenges. PLoS Comput Biol. 9 (12), e1003345 (2013).
Yohe, S., Thyagarajan, B. Review of Clinical Next-Generation Sequencing. Arch Pathol Lab Med. , (2017).
Qiagen. . Gentra Puregene Handbook. , (2014).
NanoDrop Technologies, Inc. . Spectrophotometer V3.5 User's Manual. , (2007).
Invitrogen by Life Technologies. . Qubit 2.0 Fluorometer User Manual. Vol. Q32866. , (2010).
Illumina, Inc. . Nextera Rapid Capture Enrichment Guide. , (2016).
Illumina, Inc. . Nextera Rapid Capture Enrichment Reference Guide. , (2016).
Rev. B. Illumina, Inc. . MiSeq Reagent Kit v3 Reagent Preparation Guide. , (2013).
Illumina, Inc. . MiSeq System Guide. , (2015).
. BaseSpace Sequence Hub Available from: https://basespace.illumina.com/dashboard (2017)
Rev. B. Agilent Technologies. . Agilent High Sensitivity DNA Kit Guide. , (2013).
Illumina, Inc. . MiSeq System Denature and Dilute Libraries Guide. , (2016).
Illumina, Inc. . System Specification Sheet: MiSeq System. , (2016).
. BaseSpace Sequence Hub Help Center Available from: https://help.basespace.illumina.com/ (2017)
Qiagen. . Genomics Workbench 10.1.1 User Manual. , (2017).
Ebbert, M. T., et al. Evaluating the necessity of PCR duplicate removal from next-generation sequencing data and a comparison of approaches. BMC Bioinformatics. 17, 239 (2016).
Wang, K., Li, M., Hakonarson, H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 38 (16), e164 (2010).
Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Res. 44 (D1), D733-D745 (2016).
Kitts, A., Phan, L., Ward, M., Bradley Holmes, J. . The Database of Short Genetic Variation (dbSNP). , (2013).
Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
Auton, A., et al. A global reference for human genetic variation. Nature. 526 (7571), 68-74 (2015).
Landrum, M. J., et al. ClinVar: public archive of interpretations of clinically relevant variants. Nucleic Acids Res. 44 (D1), D862-D868 (2016).
Kircher, M., et al. A general framework for estimating the relative pathogenicity of human genetic variants. Nat Genet. 46 (3), 310-315 (2014).
Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat Protoc. 4 (7), 1073-1081 (2009).
Adzhubei, I. A., et al. A method and server for predicting damaging missense mutations. Nat Methods. 7 (4), 248-249 (2010).
Bertram, L., McQueen, M. B., Mullin, K., Blacker, D., Tanzi, R. E. Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database. Nat Genet. 39 (1), 17-23 (2007).
Xiong, H. Y., et al. The human splicing code reveals new insights into the genetic determinants of disease. Science. 347 (6218), (2015).
Desmet, F. O., et al. Human Splicing Finder: an online bioinformatics tool to predict splicing signals. Nucleic Acids Res. 37 (9), e67 (2009).
Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 17 (5), 405-424 (2015).
Li, Q., Wang, K. InterVar: Clinical Interpretation of Genetic Variants by the 2015 ACMG-AMP Guidelines. Am J Hum Genet. 100 (2), 267-280 (2017).
Yang, Z. L., Sun, G. L. High-frequency, low-coverage "false positives" mutations may be true in GS Junior sequencing studies. Scientific Reports. 7, (2017).
Gandhi, P. N., Wang, X., Zhu, X., Chen, S. G., Wilson-Delfosse, A. L. The Roc domain of leucine-rich repeat kinase 2 is sufficient for interaction with microtubules. J Neurosci Res. 86 (8), 1711-1720 (2008).
Goldwurm, S., et al. The G6055A (G2019S) mutation in LRRK2 is frequent in both early and late onset Parkinson's disease and originates from a common ancestor. J Med Genet. 42 (11), e65 (2005).
Caiazzo, M., et al. Direct generation of functional dopaminergic neurons from mouse and human fibroblasts. Nature. 476 (7359), 224-227 (2011).
Grimes, D. A., et al. Translated mutation in the Nurr1 gene as a cause for Parkinson's disease. Mov Disord. 21 (7), 906-909 (2006).
Collins, F. S., Hamburg, M. A. First FDA authorization for next-generation sequencer. N Engl J Med. 369 (25), 2369-2371 (2013).
Van der Auwera, G. A., et al. From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics. 43, 11-33 (2013).
Treangen, T. J., Salzberg, S. L. Repetitive DNA and next-generation sequencing: computational challenges and solutions. Nat Rev Genet. 13 (1), 36-46 (2011).
Shin, S., Park, J. Characterization of sequence-specific errors in various next-generation sequencing systems. Mol Biosyst. 12 (3), 914-922 (2016).
Povysil, G., et al. panelcn.MOPS: Copy-number detection in targeted NGS panel data for clinical diagnostics. Hum Mutat. 38 (7), 889-897 (2017).

转载和许可

请求许可使用此 JoVE 文章的文本或图形

请求许可

探索更多文章

134

This article has been published

Video Coming Soon

Keep me updated: