Method Article
有针对性的下一代测序是一种时间和成本效益高的方法, 在疾病研究和临床诊断中越来越受欢迎。此处描述的协议介绍了序列化所需的复杂工作流以及用于识别导致疾病的遗传变异的生物信息学过程。
下一代测序 () 正在迅速变革, 如何对宪政疾病的遗传决定因素进行研究。这项技术效率高, 以百万计的测序读数是在短时间跨度和相对较低的成本生产。具体来说, 靶向性的目的是根据研究的疾病, 将调查重点放在特别感兴趣的基因组区域。这不仅进一步降低了成本, 并提高了过程的速度, 而且减少了通常伴随的计算负担。虽然靶向的表型限制在基因组的某些区域, 防止潜在的新的感兴趣的基因座的识别, 它可以是一个优秀的技术, 当面临着一个与基因异质性疾病, 其中有以前已知的基因关联。由于测序技术的复杂性, 必须密切遵守协议和方法, 以实现高覆盖率和高质量的顺序读取。此外, 一旦获得测序读数, 一个复杂的生物信息学工作流被用来准确地将读数映射到参考基因组, 调用变体, 并确保变体通过质量指标。变种也必须根据其临床意义进行标注和策划, 这可以通过应用美国医学遗传学和基因组致病性指南来标准化。本文提出的方法将显示从目标测序面板中生成和分析 ONDRISeq 数据的步骤, 并利用神经退行性疾病面板作为模型来确定可能具有临床意义的变种。
由于定义各种条件的遗传决定因素在研究和临床上都具有更高的优先地位, 因此下一代测序 () 被证明是实现这些目标的高吞吐量和经济高效的工具1,2 ,3。近40年来, 桑格测序一直是识别基因变体4的黄金标准;然而, 对于具有遗传异质性或未知遗传病因的疾病, 必须对许多可能的候选基因进行评估, 经常同时进行。在这种情况下, 桑格排序变得昂贵且耗时。然而, 它涉及大量的平行序列数以百万计的 DNA 片段, 允许成本和时间有效的技术, 同时检测在不同地区的基因组的广泛的遗传变异。
有三种类型的基因序列 DNA: 1) 全基因组测序 (WGS), 2) 全 exome 测序 (维斯) 和 3) 目标排序5。WGS 评估一个人的整个基因组内容, 而维斯只需要对基因组6的蛋白质编码区域进行排序。相反, 靶向测序侧重于基因组的特定区域, 其基础是由常见病理机制或已知临床表型所连接的相对较少的特定基因。可以使用这种方法指定外显子或内含子, 或基因或特定组基因的任何基因间区域。因此, 有针对性的测序可以是一个很好的方法, 当已经有一个基础的候选基因已知与利益相关的疾病。针对基因组的特定区域, 可以消除多余的和不相关的遗传变异, 这可能会对临床解释产生云或分心。虽然 WGS 和 WES 都产生大量高质量的数据, 但数据量却是压倒性的。这大量的数据不仅需要计算密集型的生物信息学分析, 而且数据存储可以经常出现问题7。数据存储的这一挑战也增加了 WGS 和 WES 的额外成本, 这在计算排序费用时通常不会被考虑。此外, 尽管它正在减少, WGS 和维斯的成本仍然相对较高。目标排序可以是更具成本效益的选择, 特别是当需要大量个人进行排序时。
安大略省神经退行性疾病研究倡议 (ONDRI) 是一个多平台, 全省级, 观察队列研究五神经退行性疾病, 包括: 1) 阿尔茨海默病和轻度认知障碍, 2)肌萎缩侧索硬化, 3) 额颞部痴呆, 4) 帕金森病, 5) 血管认知障碍8。ONDRI 基因组小组的目的是阐明这一队列的基线特征的一部分经常被贴现, 但极其重要的遗传景观这些表型和基因异构疾病。因此, 神经退行性疾病是适当的候选者的方法和针对性的排序, 特别是。
我们已经定制设计了一个目标的 ONDRISeq, 以序列528参与者参与 ONDRI 的蛋白质编码区域的80基因, 以前曾与五疾病的兴趣。通过这种方法, 我们能够以集中和高效的方式利用高质量的数据。ONDRISeq 小组的设计和验证, 有多重的一致性研究已经被描述, 这是 ONDRISeq 小组能够确定新的, 罕见的变种可能的临床意义在 72.2% 216 例用于面板验证9. 虽然最近几年, 本技术取得了迅速而显著的进展, 但许多研究人员在将原始数据处理成可用的、带注释的变体10的列表时面临挑战。此外, 变体的解释可能是复杂的, 特别是面对许多稀有或新颖的11。
在这里, 我们以循序渐进的方式描述了重测序、变体调用和变体注释所需的相关生物信息学工作流的方法, 以 ONDRISeq 研究为例。在生成数据后, 原始排序文件必须与人类参考基因组对齐, 以便准确地调用变体。然后, 必须对变体进行批注以执行后续的变体精选。我们也将解释我们的实施美国医学遗传学的标准和指南, 以准确地分类变异致病性。
为了 ONDRI 的目的, 根据 Baycrest 老年护理中心 (多伦多、加拿大安大略省) 的研究伦理委员会获得了伦理协议和知情同意;成瘾和精神健康中心 (加拿大安大略省多伦多);伊丽莎白 Bruyère 医院 (渥太华, 安大略省, 加拿大);汉密尔顿总医院 (汉密尔顿, 安大略省, 加拿大);伦敦健康科学中心 (伦敦, 安大略省, 加拿大);麦克马斯特 (汉密尔顿, 安大略省, 加拿大);渥太华医院 (渥太华, 安大略省, 加拿大);Parkwood 医院 (伦敦, 安大略省, 加拿大);St. 迈克尔的医院 (多伦多, 安大略, 加拿大);新宁健康科学中心 (加拿大安大略省多伦多);和大学健康网络-多伦多西部医院 (多伦多, 安大略省, 加拿大)。
1. 人体血液样本中的 DNA 分离
2. 排序库准备
3. 下一代测序
图 1: 本技术软件 (材料表) 的截图示例表创建者应用程序选项.为了 ONDRISeq 的目的, 只使用 FASTQ 应用程序。但是, 如果用户希望生成其他文件 (如 VCF 文件), 建议使用目标重测序类别中的应用程序。请单击此处查看此图的较大版本.
4. 重测序和变体调用
图 2: 为 ONDRISeq 而自定义的数据预处理软件 (材料表) 内的 FASTQ 文件的重测序和变量调用工作流。工作流中的步骤可以根据研究者的需要应用到其他的重测序和变体调用软件中。请单击此处查看此图的较大版本.
5. 变体注释
本文介绍的方法适用于528名参加 ONDRI 的个人的 DNA 样本。在 ONDRISeq 面板上运行的示例每运行22个24个样本。总的来说, 测序数据被确定为高质量, 平均样本覆盖率为 78 @ 13x, 所有个体运行都表示平均样本覆盖率 > 30x。此外, 平均94% 的目标区域至少覆盖了 20x (表 1)。
平均95.6% 的读取被映射到引用序列, 所有的 ONDRISeq 运行都有 > 90% 的读取映射 (表 1)。在映射的读取, 92.0% 有一个 Phred 评分≥Q30, 只有一个运行有 < 80% 的映射读取满足此质量指标。然而, 这一运行仍然显示了79x 的平均覆盖率, 93% 的目标区域覆盖至少20x。
参数 | 平均值 (±sd) | 最佳性能 | 最差性能 |
簇密度 (x103/mm2) | 1424 (±269) | 1347 | 1835 |
总计读取次数 (106) | 43.1 (±6.0) | 48。7 | 47。4 |
映射的读取 (106) | 40.1 (±6.0) | 47。1 | 25。7 |
映射读取 (%) | 95.6 (±1.3) | 96。8 | 92。6 |
Phred 质量评分≥Q30 (%) | 92.0 (±6.0) | 92 | 68。3 |
样本覆盖率 (x) | 78 (±13) | 99 | 51 |
表 1: 在 ONDRISeq 上运行22的顺序质量指标。
病例研究: 在 PD 患者中鉴别罕见的变种。
为了证明我们的目标工作流程的效用, 我们提出了一个68岁, 男性, 帕金森病患者的例子。该 DNA 样本是使用 ONDRISeq 面板与其他 23 ONDRI 样本一起运行在 "产品" 桌面仪器 (材料表) 上的。运行显示的群集密度为 1555 x 103/毫米2。病人的特定样本显示76x 的平均覆盖率, 其中93.9% 的目标区域至少覆盖了20x。
在使用自定义生物信息学工作流执行变体调用和注释之后, 发现该病人在 ONDRISeq 面板中的80个基因的外显子和周围的 250 bp 中有1351个变种。然而, 如上文所述, ANNOVAR 管线能够通过考虑变型序列本体和农林化来减少变型的数量。这产生了一个七变种的列表, 这些变体经过手动精选 (图 3)。从这七变种, 两个被确定为有可能的临床意义。这个过程是特定于 ONDRI 的需要, 是通过识别那些在一般人群中比较少见的, 并在本体中非同义, 从而导致蛋白质的变化。无论该变种以前是否与疾病有关, 在这一过程中也使用了在硅中预测 deleteriousness 的蛋白质和变种的 ACMG 致病性分类。
从缩减列表中第一个标识的是一个异型变体, 即LRRK2: c. T3939A, 导致无意义的变体 p. C1313 *。LRRK2对富含亮氨酸的重复激酶2进行编码, 它具有 GTPase 和激酶活动42。此外, 这一基因中的突变已知是家族性帕金森病的主要病因43。这种变体在LRRK2中引入了一个过早停止密码子, 从而失去了氨基酸残留物1,314–2,527。这防止了蛋白质 Ras 的复杂蛋白质 (中华民国), C-端的 (林) 和蛋白激酶领域, 其中涉及功能作为一个非典型的 GTPase, GTP 结合蛋白, 和蛋白激酶, 并预测由 CADD (CADD Phred = 36) 生成的在硅片分析中损坏。这种变体在才和 ESP 中也很少见, 分别为0.004% 和 0.01%, 并且在1000G 数据库中是缺席的。此外, 这是所有528个序列中唯一一个携带这个变体的病人, 因为它以前没有在疾病突变数据库 (材料表) 中描述过, 这是新颖的。这一备选电话的信心是通过其深度覆盖109x 来确认的。最后, 用 AMCG 的致病性标准和准则对该变种进行了评估, 并将其归类为病原体。
患者还携带第二个异型变体, NR4A2: c. C755A, 导致无义改变 p. P252Q。由NR4A2编码的蛋白质, 核受体亚氏4组 A 成员 2, 是一个转录因子, 参与产生多巴胺能神经元44和突变内的基因以前曾与帕金森的疾病45。非极性脯氨酸对极性谷氨酰胺的替代被预测为由 CADD (CADD Phred = 21.1) 产生的在硅片预测分析中的破坏性, 而不是由筛选或 PolyPhen-2 产生的分析所造成的。变种是罕见的, 以0.004% 的才和缺席从 ESP 和1000G。该变种也被确诊为血管性认知功能障碍的 ONDRI 参与者, 但以前没有在疾病突变数据库中描述过。这种变体的覆盖率仅为 18x, 但是, 将执行桑格排序, 以确保其在序列中的有效性。最后, 在评估 ACMG 标准和致病性准则时, 该变种被确定为不确定的意义。
ONDRISeq 面板和生物信息学管道也能够确定每个样本的APOE基因型。这个病人决心要有APOE基因型 E3/E3。
图 3: 从 ANNOVAR 中减少输出的示例, 显示手动策划的、带注释的变体.从68岁、男性、帕金森病患者的病例研究中 ANNOVAR 的减少。有注释的变种被精心策划, 以识别那些最有可能具有临床意义的, 如红色盒子所表示的。请单击此处查看此图的较大版本.
在从 DNA 样本提取到确定在考虑病人的诊断、疾病进展和可能的治疗方案时可能感兴趣的变种的路径中, 必须认识到所需方法的多种多样性质。用于排序和正确的数据处理。本文所描述的协议是一个例子, 使用目标的生物信息学和后续的分析, 必须找出罕见的变种潜在的临床意义。具体来说, 我们提出了 ONDRI 基因组的方法, 当使用 ONDRISeq 定制设计的 "。
人们认识到, 这些方法是基于一个特定的 "一个" 的应用平台开发的, 并且还有其他的测序平台和目标浓缩套件可以使用。然而, 根据美国食品药品监督管理局 (FDA) 批准的46, 该平台和桌面仪器 (材料表) 被选择。此授权反映了高品质的测序, 可以执行的选择和可靠性, 可以放在排序读取。
虽然获得准确的测序读数与深度的覆盖面是非常重要的, 生物信息学处理所需的最后罕见的变异分析是至关重要的, 可以计算密集型。由于在测序过程中可能发生的许多错误的来源, 一个健壮的生物信息学管道必须纠正各种不准确, 可以介绍。它们可能产生于映射过程中的失调, 在库准备中引入 PCR 放大的放大偏倚, 以及生成序列工件47的技术。无论用于执行读取映射和变体调用的软件, 都有几种常用的方法来减少这些错误, 包括本地重新排列、删除重复的映射读取以及在调用变体时为质量控制设置适当的参数。此外, 在变量调用过程中选择的参数可能会因在手边11中最适合研究的内容而异。选择了一个变种及其周围核苷酸的最小覆盖率和质量评分, 以在适当的特异性和灵敏度之间建立平衡。这些参数已被验证的 ONDRISeq 面板基于变量调用一致性与三独立的遗传技术, 如前所述, 包括: 1) 基于芯片的基因分型;2) 等位基因判别法;和 3) 桑格排序9。
根据准确的变种调用, 为了确定那些潜在的临床意义, 注释和精选是必不可少的。由于其开放的访问平台, ANNOVAR 是一个很好的工具, 为注释和初步的变体筛选或消除。除了易于访问之外, ANNOVAR 还可以应用于任何 VCF 文件, 无论使用何种排序平台, 都可根据研究26的需要进行自定义。
在注释之后, 必须对变体进行解释, 以确定它们是否应被认为具有临床意义。这一过程不仅变得复杂, 而且往往容易出现主观性和人为错误。因此, ACMG 制定了评估任何变种致病性证据的准则。我们应用一个非同义的, 稀有的基于变体的手动精选方法, 它是基于这些准则构建的, 并通过单独评估每个变体来进行维护, 这些变量可以通过一个定制设计的 Python 脚本通过管道,根据准则对变体进行分类。这样, 每个变种被分配一个致病性, 可能致病, 不确定的意义, 可能是良性的, 或良性的排序, 我们可以增加标准化和透明度的变体精选过程。必须认识到, 在生物信息学管道之外的变体精选的具体情况将根据研究的需要进行个性化, 因此超出了所提出的方法的范围。
虽然这里提出的方法是具体的 ONDRI, 所描述的步骤可以翻译时, 考虑大量的宪法疾病的利益。随着基因关联数量的增加, 许多表型的存在, 靶向性的促进了一个假设驱动的方法, 可以利用以前的研究已经在该领域做。然而, 有针对性的研究和提出的方法也有局限性。只关注基因组的特定区域, 发现的领域仅限于感兴趣的新的等位基因。因此, 在测序靶所覆盖的新基因或其他基因组基因座之外, 可以用 WGS 或维斯方法揭示, 将无法确定。基因组中也有一些区域可能难以精确地序列化方法, 包括高度重复序列48或富含 GC 内容49的那些。幸运的是, 当使用靶向的, 有一个先验的高度熟悉的基因组区域正在排序, 以及这些是否可能构成技术挑战。最后, 目前从当前的数据中检测到的拷贝数变体不是标准化的50。然而, 这些关注的生物信息学解决方案可能正在进行中;新的计算工具可能有助于分析这些额外的变异形式的 ONDRI 患者。
尽管有其局限性, 目标公司仍能在假设驱动的方法中获得高质量的数据, 同时其成本比 WGS 和 WES 相对较低。这一方法不仅适用于有效和有针对性的研究, 而且目标性的的临床实施也呈指数级增长。这项技术正被用来回答许多不同疾病分子通路的问题。它也被开发成一个准确的诊断工具, 在相对较低的成本, 而不是维斯和 WGS。即使与黄金标准的桑格测序相比, 目标的击败也能在其时间和成本效率上有所提高。基于这些原因, 对于接受和使用数据的科学家或临床医生来说, 例如, 作为实验室或临床医学报告中的文本传递来了解结果的复杂 "黑匣子" 是很重要的。本文提出的方法应能帮助用户理解生成和解释数据的基本过程。
作者没有什么可透露的。
我们感谢所有 ONDRI 参加者的同意和与我们的研究合作。感谢 ONDRI 调查员 (www。ONDRI.ca/people), 包括我们的首席调查员 (MJS) 和 ONDRI 理事委员会: 执行委员会、指导委员会、出版委员会、征聘委员会、评估平台和项目管理小组。我们还感谢伦敦区域基因组中心的技术专长。《反倾销法》得到伦敦阿尔茨海默病学会和密密硕士研究生研究奖学金的支持。SMKF 被加拿大 Noël 博士后奖学金支持。
Name | Company | Catalog Number | Comments |
4 mL EDTA K2 tubes | Fisher Scientific | 02-689-4 | |
1 M Tris Buffer | Bio Basic Canada Inc. | SD8141 | |
Gentra Puregene Blood Kit | Qiagen | 158389 | 1,000 mL Kit. This is the blood extraction kit, referred to in step 1.3. |
NanoDrop-1000 Spectrophotometer | Thermo Fisher Scientific | ND-2000 | Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2. |
Qubit 2.0 fluorometer | Invitrogen | Q32866 | This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3. |
Nextera Rapid Custom Capture Enrichment Kit | Illumina, Inc. | FC-140-1009 | Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion. |
2100 BioAnalyzer | Agilent Technologies | G2939BA | This is a automated electrophoresis system, referred to in step 3.1.4. |
High Sensitivity DNA Reagent Kit | Agilent Technologies | 5067-4626 | 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. |
MiSeq Reagent Kit v3 | Illumina, Inc. | MS-102-3003 | 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1. |
MiSeq Personal Genome Sequencer | Illumina, Inc. | SY-410-1003 | This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion. |
Experiment Manager | Illumina, Inc. | This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html | |
BaseSpace | Illumina, Inc. | SW-410-1000 | This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/ |
CLC Genomics Workbench 10.1.1 | Qiagen | 832000 | Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2. |
Annotate Variation | http://annovar.openbioinformatics.org/en/latest/user-guide/download/ | ||
RefSeq | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/refseq/ | |
dbSNP138 | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138 | |
Exome Aggregation Consortium | Broad Institute | http://exac.broadinstitute.org/ | |
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort | University of Washington and the Broad Institute | http://evs.gs.washington.edu/EVS/ | |
ClinVar | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/clinvar/ | |
Combined Annotation Dependent Depletion | University of Washington and Hudson-Alpha Institute for Biotechnology | http://cadd.gs.washington.edu/ | |
Sorting Intolerant from Tolerant | J. Craig Venter Instutite | http://sift.jcvi.org/ | |
PolyPhen-2 | Brigham and Women's Hospital, Harvard Medical School | http://genetics.bwh.harvard.edu/pph2/ | |
Human Gene Mutation Database | Qiagen | 834050 | This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php |
Splicing-based Analysis of Variants | Frey lab, University of Toronto | http://tools.genes.toronto.edu/ | |
Human Splicing Finder | Aix Marseille Université | http://www.umd.be/HSF3/HSF.shtml | |
Other materials | |||
Centrifuge | |||
Disposable transfer pipets |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。