Method Article
* 这些作者具有相同的贡献
本文描述了基于晶体的片段筛选的完整XChem过程,从申请访问到数据传播的所有后续步骤。
在基于片段的药物发现中,数百种或数千种小于 ~300 Da 的化合物与目标蛋白进行测试,以识别可以开发成有效候选药物的化学实体。由于化合物体积小,相互作用较弱,因此筛选方法必须具有高度的灵敏度;此外,结构信息对于将这些命中物细化为铅状化合物往往至关重要。因此,蛋白质晶体学一直是一种黄金标准技术,但从历史上看,它太具有挑战性,无法作为主要筛选的广泛应用。
2014 年展示了最初的 XChem 实验,然后与学术界和工业合作者进行了试验,以验证该过程。从那时起,大量的研究工作和大量的光束时间简化了样品制备,开发了一个具有快速随访可能性的片段库,自动化并改进了 I04-1 光束线的无人值守数据收集能力,并实施了用于数据管理、分析和命中识别的新工具。
XChem 现在是一个用于大规模晶体碎片筛选的设施,支持整个晶体到沉积过程,可供全球学术界和工业界用户使用。自 2016 年以来,同行评审的学术用户计划一直在积极开发,以适应尽可能广泛的科学范围的项目,包括经过充分验证的项目和探索性项目。学术访问是通过每半年征集同行评审提案来分配的,专有工作由 Diamond 的工业联络小组安排。该工作流程已常规应用于来自不同治疗领域的一百多个靶点,并有效识别弱结合剂(1%-30%命中率),既可作为化合物设计的高质量起点,又可提供有关结合位点的广泛结构信息。在 COVID-19 大流行期间持续筛选 SARS-CoV-2 靶点,包括主要蛋白酶的 3 周周转,证明了该过程的弹性。
基于片段的药物发现 (FBDD) 是一种广泛使用的先导化合物发现策略,自 25 年前出现以来,它已交付了四种用于临床的药物,并且已有 40 多种分子已进入临床试验 1,2,3。碎片是分子量通常为 300 Da 或更低的小化学实体。它们因其化学复杂性低而被选中,这为开发具有优异物理化学性质的高配体高效抑制剂提供了良好的起点。它们的大小意味着它们比较大的药物或铅样化合物库更彻底地采样蛋白质的结合景观,因此也揭示了热点和假定的变构位点。结合结构信息,片段提供了蛋白质和配体之间潜在分子相互作用的详细图谱。然而,可靠地检测和验证这些往往与靶蛋白结合较弱的实体需要一系列强大而灵敏的生物物理筛选方法,例如表面等离子体共振 (SPR)、核磁共振 (NMR) 或等温滴定量热法 (ITC)4,5。
X射线晶体学是FBDD工具包的重要组成部分:它足够灵敏,可以识别弱粘合剂,并直接产生有关分子水平相互作用的结构信息。它是其他生物物理学筛选的补充,通常对于将片段命中进展为先导化合物至关重要;它需要高质量的晶体系统,这意味着结晶具有高度的可重复性,并且晶体的理想衍射分辨率优于 2.8 Å。
从历史上看,无论是在学术界还是在工业界,使用晶体学作为主要的碎片筛选6,7,8都是非常困难的。相比之下,同步加速器在机器人技术、自动化9、10、11 和探测器技术12、13 方面实现了数量级的改进,并且结合同样加速的计算能力和数据处理算法14,15、16,完整的衍射数据集可以在几秒钟内测量,并且大量衍射数据集完全无人值守,正如 LillyCAT7 所开创的那样以及后来的 MASSIF17,18(欧洲同步辐射设施 (ESRF))。这促使同步加速器开发了高度简化的平台,使基于晶体的片段筛选作为主要屏幕可供广泛的用户社区使用(XChem at Diamond;EMBL/ESRF19 的 CrystalDirect;柏林亥姆霍兹中心(Helmholtz-Zentrum)的BESSY20;MaxIV21 的 FragMax)。
本文记录了构成 XChem 平台的协议,用于通过 X 射线晶体学进行片段筛选,从样品制备到 3D 建模命中的最终结构结果。该管道(图1)需要开发新的晶体鉴定方法22、浸泡23和收获24,以及数据管理软件25和鉴定碎片26的算法方法,该方法现已在社区中广泛使用。晶体收集技术现在由供应商出售(见材料表),这些工具的开放可用性使其他同步加速器能够调整它们以建立等效的平台21。正在进行的项目涉及数据分析、模型完成和通过 Fragalysis 平台进行数据传播27.样品制备实验室毗邻光束线 I04-1,简化了将数百个冷冻样品转移到光束线的物流,I04-1 上的专用光束时间允许快速 X 射线反馈来指导活动。
XChem 是 Diamond 用户计划不可或缺的一部分,每年两次(4 月初和 10 月初)。在与学术界和工业界的药物发现专家协商后,对同行评审过程进行了改进。除了强有力的科学案例外,提案过程28 还要求申请人不仅要自我评估晶体系统的准备情况,还要评估他们在生化和正交生物物理方法方面的专业知识以及通过后续化学推进筛选命中的能力。访问模式也不断发展,以适应多学科用户社区:
第1层(单个项目 )适用于处于探索阶段的项目,并不需要制定命中验证工具(生物物理学或生化工具)和后续策略。如果被接受,该项目将获得减少的光束时间偏移次数,足以进行概念验证。
第 2 层(单个项目) 适用于经过充分验证的项目,需要制定下游工具和后续策略。如果被接受,该项目将获得足够的光束时间用于完整的片段筛选活动。单个项目(第 1 级或第 2 级)将在分配期(4 月至 9 月或 10 月至 3 月)的 6 个月内完成。
区块分配组 (BAG) 适用于组和项目联盟,其中 BAG 中有一个强大的目标选择和优先级排序流程,以及明确的后续管道。BAG必须至少有一名经过XChem培训的专家(超级用户),他们与钻石员工协调他们的活动,并培训BAG成员。分配的波束时间偏移数量由 BAG 中科学性强的项目数量定义,并根据 BAG 的报告在每个分配周期内重新评估。访问有效期为 2 年。
XChem 实验分为三个阶段,每个阶段都有一个决策点:溶剂耐受性测试、预筛选和主筛选(图 2)。溶剂耐受性测试有助于确定浸泡参数、晶体系统可以耐受的溶剂(DMSO、乙二醇或其他冷冻保护剂,如果需要)的量以及耐受时间。溶剂浓度通常在至少两个时间点的5%-30%之间。收集衍射数据并与晶体体系的基底衍射进行比较;这将确定下一阶段的浸泡参数。对于预筛选,使用溶剂测试中确定的条件浸泡 100-150 种化合物,其目的是确认晶体在这些条件下可以耐受化合物。如果需要,随后将冷冻保护剂添加到已经含有碎片的液滴中。成功的标准是80%或更多的晶体存活得足够好,以产生良好且质量一致的衍射数据;如果失败,通常通过改变浸泡时间或溶剂浓度来修改浸泡条件。在成功的预筛选之后,可以使用最终参数设置为实验选择的其余化合物。
DSI准备库(见 材料表)经过专门设计,允许使用准备化学29 进行快速后续进展,并一直是该设施的主力库。用户可在DMSO中以500 mM的浓度获得它。学术用户还可以访问合作者提供的其他库(总共超过2,000种化合物),DMSO中浓度为100-500 mM(完整列表可在网站28上找到)。大部分产品也以乙二醇形式提供,用于不耐受DMSO的晶体系统。用户也可以自带文库,前提是它们位于与声学液体处理系统兼容的板中(参见 材料表)。
对于实验的所有三个步骤(溶剂表征、预筛选或全屏),以下样品制备程序是相同的(图 3):通过使用 TeXRank22 对结晶液滴进行成像和靶向来选择化合物分配位置;使用声学液体分配系统将溶剂和化合物分配到液滴中23;使用晶体移位器24高效收集晶体;并将样品信息上传到光束线数据库 (ISPyB)。目前实验设计和执行的接口是基于Excel的应用程序(SoakDB),它为平台的不同设备生成必要的输入文件,并将所有结果跟踪和记录在SQLite数据库中。在整个过程的各个阶段使用条形码扫描仪来帮助跟踪样品,并将这些数据添加到数据库中。
衍射数据在无人值守模式下使用光束线 I04-1 上的专用光束时间收集。有两种定心模式可供选择,即光学和基于 X 射线的17。对于针状和棒状晶体,建议使用 X 射线对中,而较厚的晶体通常支持光学模式,该模式速度更快,因此允许在分配的光束时间内收集更多样品。根据晶体的分辨率(在进入平台之前建立),数据收集可以是 60 秒或 15 秒的总曝光。溶剂测试阶段的数据收集通常会告知哪种组合最适合光束线 I04-1 的性能。
大量的数据分析通过XChemExplorer(XCE)25进行管理,XChemExplorer(XCE)25也可用于使用PanDDA26启动命中识别步骤。XCE是一种数据管理和工作流程工具,支持蛋白质-配体结构的大规模分析(图4);它从钻石光源(DIALS16、Xia214、AutoPROC30 和 STARANISO31)收集的数据中读取任何自动处理结果,并根据数据质量和与参考模型的相似性自动选择其中一个结果。重要的是,该模型必须代表用于XChem筛选的晶体系统,并且必须包括所有水或其他溶剂分子,以及仅用溶剂浸泡的晶体中可见的所有辅因子、配体和替代构象。此参考模型的质量将直接影响模型构建和优化阶段所需的工作量。PanDDA用于分析所有数据并识别结合位点。它将结构与参考结构对齐,计算统计映射,识别事件,并计算事件映射26,32。在PanDDA范式中,建立完整的晶体学模型既没有必要,也不可取;必须建模的只是片段结合的蛋白质视图(结合态模型),因此重点只需要根据事件图32构建配体和周围的残基/溶剂分子。
1. 项目建议书提交
2. 参观准备
3.片段筛选实验
4. 数据收集
注意:数据以无人值守模式收集,并由 XChem/beamline 团队管理。
5. 数据分析
6. 存储数据
注意:来自片段屏幕的所有数据集和用于生成 PanDDA 事件映射的基态模型都可以使用组沉积沉积在 PDB 中。
用于通过 X 射线晶体学进行片段筛选的 XChem 流程已得到广泛简化,使其能够被科学界采用(图 5)。这个过程已经在 150 多个筛选活动上得到了验证,命中率在 1% 到 30% 之间变化47,48,49,50,51,52 和许多回头客。不合适的晶体系统(分辨率低、结晶或衍射质量不一致)或不能耐受DMSO或乙二醇,在工艺早期就被淘汰,从而节省时间、精力和资源。成功的活性细胞提供了靶蛋白上潜在相互作用位点的三维图谱;典型的结果是 SARS-CoV-2 主要蛋白酶的 XChem 筛选(图 6)。通常,片段命中存在于:(a)已知的感兴趣位点,例如酶活性位点和亚口袋48;(b)假定的变构位点,例如蛋白质-蛋白质相互作用53;(c)晶体封装界面,通常被认为是假阳性(图6)。这种结构数据通常为将片段命中合并、连接或生长为铅样小分子提供了基础 1,3。
图 1:XChem 管道。 该平台从项目提案到样品制备、数据收集和命中识别,以示意性方式表示。 请点击这里查看此图的较大版本.
图2:筛选策略。 工作流指示每个里程碑的目的、实验的要求和决策点。 请点击这里查看此图的较大版本.
图 3:样品制备工作流程。 样品制备的关键步骤由每个步骤的信息记录在SQLite数据库中表示。 请点击这里查看此图的较大版本.
图4:使用XCE进行数据分析。 数据分析中的关键步骤由带有相关软件包的工作流程图表示。 请点击这里查看此图的较大版本.
图 5:XChem 用户计划的演变:该图表显示了 2015 年至 2019 年用户计划的采用和整合,以及 2019 年 BAG 的创建以及该平台在 2020 年 COVID-19 大流行期间的弹性。请点击这里查看此图的较大版本.
图 6:XChem 片段筛选的代表性结果。 SARS-CoV2 主要蛋白酶 (Mpro) 二聚体在表面表示,活性位点命中以黄色表示,推定变构命中以洋红色显示,表面/晶体堆积伪影以绿色显示。该图是使用组沉积G_1002156中的 Chimera 和 Mpro PDB 条目制作的。 请点击这里查看此图的较大版本.
本文中概述的过程已经过用户社区的广泛测试,此处描述的协议的适应性是处理平台上通常遇到的各种项目的关键。但是,晶体系统的一些先决条件是必要的。
对于使用 X 射线晶体学进行的任何碎片筛选活动,可重复且稳健的晶体系统至关重要。由于标准XChem方案涉及将片段直接添加到晶体液滴中,因此优化应侧重于含有高质量晶体的液滴数量,而不是晶体总数。如果液滴包含多个晶体,那么它们实际上是多余的,尽管可以缓解收获过程。此外,将结晶方案从家庭研究所转移到现场设施可能具有挑战性。这通常最好使用晶体接种来实现,以促进可重复的成核54,因此,一个好的做法是让用户提供种子储备液以及他们的蛋白质和结晶溶液。
为确保良好的化合物溶解度和支持性,高浸泡浓度旨在驱动弱片段的结合,片段库在有机溶剂中提供,特别是DMSO和乙二醇。提供两种不同的溶剂为用户提供了一种晶体的替代品,这些晶体完全不耐受DMSO,或者它阻塞了目标位点中片段的结合。用户可以在水性缓冲液中提供替代文库:只要化合物完全溶解并在与液体分配机器人兼容的板中格式化,它们就可以很好地分配。
对于无法找到既能溶解库又能被晶体系统耐受的合适有机溶剂的项目,另一种方法是使用 BESSY55 中规定的干燥化合物。
在社区中,有一个长期存在的问题,即能够将化合物浸泡到在含有高盐浓度的结晶条件下生长的晶体中。实际上,在收获阶段观察到更多的化合物沉淀和盐晶体的快速形成,通过在收获区域周围施加潮湿的环境来减少这种情况。通常,在晶体系统中从高盐结晶条件下进行筛选活动,其命中率与低盐条件相当。
XChem 工艺的初始阶段(溶剂耐受性测试和预筛选)是相对小规模和快速的实验,但允许对项目做出明确的通过/不通过决定。最痛苦的是,如果两种溶剂都不能被接受,或者预筛选导致命中率非常低,则需要找到替代晶体系统。相反,如果成功,结果将直接告知用于筛选实验的浸泡条件,以及数据收集的最佳策略。由于数据质量,尤其是分辨率,将影响用于命中识别和分析的电子密度质量,因此目的是以尽可能高的化合物浓度浸泡,而不会对衍射质量产生有害影响(大多数数据集(~80%)衍射到2.8 Å或更高的分辨率)。
XChemExplorer简化了数据分析过程,它依靠PanDDA软件来检测弱粘合剂,并允许用户快速可视化和查看筛查活动的结果。XChemExplorer 从 Diamond 提供的软件包(DIALS16、autoPROC 30、STARANISO31 和 Xia214)导入数据处理结果,分辨率限制由每个软件包的标准方法确定(即CC1/2 = 0.3)。默认情况下,数据集选择基于根据 I/sigI、完整性和一些唯一反射计算得出的分数,但可以选择特定的处理结果用于全局或单个样本25。PanDDA 还根据包括分辨率、游离 R 以及参考数据和目标数据之间的晶胞体积差异(默认值分别为 3.5 Å、0.4 和 12%)等标准将数据排除在分析之外,因此衍射不良、偏心错误或索引错误的晶体不会影响分析。
PanDDA 算法利用片段分析期间收集的大量数据集来检测标准晶体图中不可见的部分占有配体。最初,PanDDA 使用在溶剂耐受性测试和预筛选步骤中收集的数据来准备平均密度图,然后用于创建基态模型。由于该模型将用于所有后续分析步骤,因此在用于片段筛选的条件下准确表示未配体的蛋白质至关重要。然后,PanDDA使用统计分析来识别结合的配体,为晶体的结合状态生成事件图。通过从部分占用数据集中减去晶体的未结合部分来生成事件映射,并显示配体在完全占用时被结合时将观察到的情况。如果不查阅事件图,即使是在传统 2mFo-DF c 图中看起来清晰的片段也可能建模错误32。虽然 PanDDA 是一种强大的方法,用于识别与平均图谱不同的数据集(通常表示片段结合),并且在细化过程中提供了 RSCC、RSZD、B 因子比和 RMSD 等指标以造福用户,但用户最终负责决定观察到的密度是否准确描述了预期的配体和最合适的构象。
经过数据分析和改进后,所有用户都可以使用XChemExplorer同时将多个结构存入蛋白质数据库(PDB)中。对于每个片段筛选,进行两次组沉积。第一个沉积包含所有片段绑定模型,MMCIF 文件中包含用于计算 PanDDA 事件映射的系数。第二次沉积提供了随附的基态模型,以及实验所有数据集的测量结构因子:这些数据可用于重现PanDDA分析,并用于开发未来的算法。至于命中的结构,当片段占用率较低时,如果模型是配体结合和混杂基态结构的复合体,则细化表现更好32;然而,这种做法是只存入束缚态分数,因为完整的复合模型通常很复杂且难以解释。因此,PDB重新计算的一些质量指标(特别是R/Rfree)有时会略有提高。也可以使用 Zenodo56 等平台提供所有原始数据,尽管 XChem 管道目前不支持此功能。
总体而言,自 2016 年运行以来,使用该程序可以在超过 95% 的靶标中鉴定片段配体。XChem 支持的许多项目的经验被提炼成晶体制备的最佳实践33,同时发展了一个片段库,实现了帮助片段进展的成熟概念29,也有助于建立公开库组成的实践。该平台已经证明了维护良好的基础设施和记录在案的流程的重要性,详见此处,并可以评估其他片段库57,58,比较库 48,并为协作 EUOpenscreen-DRIVE 库的设计提供信息59,60。
作者没有要披露的利益冲突。
这项工作代表了金刚石光源和结构基因组联盟之间的巨大共同努力。作者要感谢 Diamond 的各种支持小组和 MX 小组对 i04-1 光束线自动化的贡献,以及提供简化的数据收集和自动处理管道,这些管道通常在所有 MX 光束线上运行。他们还要感谢SGC PX集团作为第一批测试设置的用户所表现出的韧性,并感谢Evotec成为第一个认真的工业用户。这项工作得到了由欧盟委员会地平线2020计划资助的iNEXT-Discovery(Grant 871037)的支持。
Name | Company | Catalog Number | Comments |
DSI-poised library | Enamine | DSI-896 | fragment library |
Echo 550 and 650 series | Beckman-Coulter | acoustic dispensing system | |
Echo microplates | Beckman-Coulter | 001-12380; 001-8768; 001-6025 | 1536-well and 384-well microplates |
Shifter | Oxford Lab Technology | harvesting device | |
Microplate centrifuge with a swing-out rotor | Sigma | model 11121 | microplate centrifuge |
3-drops crystallisation plates | Swissci | 3W96T-UVP | Crystallisation plates |
Formulatrix plate imager and Rockmaker software | Formulatrix | Crystallisation plates imaging device |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。