Method Article
该协议的目的是使用开源软件有效地生成和策划小分子结构库。
分子结构的详尽生成具有许多化学和生化应用,例如药物设计,分子数据库构建,替代生物化学的探索等等。从数学上讲,这些是具有化学约束的图形生成器。在现场,目前最高效的发电机(MOLGEN)是一种商业产品,限制了它的使用。除此之外,另一个分子结构生成器MAYGEN是最近的开源工具,其效率可与MOLGEN相媲美,并且用户能够通过添加新功能来提高其性能。可以从这一发展中受益的研究领域之一是天体生物学;结构生成器允许研究人员用替代生物化学的计算可能性来补充实验数据。该协议详细介绍了天体生物学中结构生成的一个用例,即α-氨基酸库的生成和整理。使用开源结构生成器和化学信息学工具,这里描述的实践可以在天体生物学之外实施,以便为任何研究问题低成本地创建和策划化学结构库。
分子结构生成作为详尽图生成的一般问题的实际应用;给定几个节点(原子)及其对连通性的约束(例如,价态,键多重性,所需/不需要的子结构),有多少个连接的图(分子)是可能的?结构生成器在药物发现和药物开发中已经得到了广泛的应用,在那里它们可以为 计算机 筛选1创建大量的新型结构库。
第一个结构生成器CONGEN是为有机化学中的第一个人工智能项目DENDRAL2 (DENDRITIC ALgorithm的缩写)开发的。文献中报道了DENDRAL的几个软件继承者;然而,并非所有这些都得到维护或有效。目前,MOLGEN3 是最先进的分子结构发生器。不幸的是,对于大多数潜在用户来说,它是闭源的,需要支付许可费。因此,需要一个高效的开源结构生成器,可以很容易地适应特定的应用。高效结构发电机的一个挑战是管理组合爆炸;随着分子式大小的增加,化学搜索空间的大小呈指数级增长。最近的一篇综述进一步探讨了分子结构第4代的历史和挑战。
在2021年之前,平行分子发生器(PMG)5 是最快的开源结构发生器,但它仍然比MOLGEN慢几个数量级。MAYGEN6 比 PMG 快约 47 倍,比 MOLGEN 慢约 3 倍,使 MAYGEN 成为市面上最快、最高效的开源结构生成器。更详细的比较和基准测试可以在介绍MAYGEN6的论文中找到。该程序的一个关键特征是其基于字典排序的规范结构测试,这是一种基于Schreier-Sims7 算法的有序图生成方法。该软件可以轻松集成到其他项目中,并根据用户的需求进行增强。
与摩尔根和PMG一样,MAYGEN采用用户定义的分子式,并生成该式的所有可能结构。例如,如果用户使用式C5H12运行MAYGEN,MAYGEN将生成包含5个碳原子和12个氢原子的所有可能结构。与其开源的PMG不同,MAYGEN还可以容纳"模糊"分子式,这些公式使用间隔而不是离散数字来计算每个元素的计数。例如,如果用户使用式C5-7H12-15运行MAYGEN,MAYGEN将生成包含5至7个碳原子和12至15个氢原子的所有可能结构,从而可以简单生成具有各种原子组成的结构。
天体生物学就是这样一个可以从分子结构发生器中受益的领域。天体生物学中一个流行的话题是地球上所有现存生命共享的氨基酸字母表的进化。最后一个通用共同祖先(LUCA)的定义特征之一是它使用二十个遗传编码氨基酸来构建蛋白质8,9。根据对多个领域工作的荟萃分析10,11,12,大约10种这些氨基酸(Gly,Ala,Val,Asp,Glu,Ser,Thr,Leu,Ile,Pro)在非生物条件下很容易形成,并且可能构成LUCA前生物体的氨基酸字母表。随着时间的推移,这个"早期"字母表得到了扩展,以满足不同的结构和功能需求。例如,Moosmann13 最近的一篇综述声称,添加遗传编码氨基酸(即Met,Tyr和Trp)的最新成员,通过防止活性氧的细胞内增殖,允许在富氧环境中生存。
一套不断增长的分析化学技术可以深入了解在非生物条件下可以形成的氨基酸结构。Simkus和其他人最近的一篇综述14 详细介绍了用于检测陨石中许多有机化合物的方法,以及来自早期地球环境 体外 模拟的有机化合物15,16,17。化学结构的系统生成使研究人员能够探索通过仪器检测到的有机化合物之外,填充通过分析化学识别的结构"岛屿"周围的结构空间。在"早期"氨基酸的情况下,这种系统结构生成显示了早期生命可用的可能的蛋白质化学成分,而不限制对在非生物合成条件下通过实验检测到的结构的探索。借助开源化学信息学工具包和高效的结构生成器(如MAYGEN),创建和探索新型化学结构库现在比以往任何时候都更容易,并且可以指导对生命替代化学的更详细的研究。
注:有关协议的摘要,请参阅 图1 ,有关所用软件的详细信息,请参见 材料表 。
图 1:协议的摘要流程图,请单击此处查看此图的大图。
1. 软件和文件下载
注意:所有程序都免费供个人使用,并且可以在个人计算机上运行。
2. 使用迈源生成结构
3. 过滤具有不良子结构的化合物
4. (可选)附加结构修改
注意:这些在此示例中执行,但可能不需要用于管理其他库。
5. 描述符生成
图书馆 | 公式 | 其他限制 | "早期"编码氨基酸 | 生成时间(毫秒) | 结构 | ||||
初 | 最后 | ||||||||
1 | 格利 | C2H5否2 | 包括 Gly 子结构 | 格利 | 192 | 84 | 1 | ||
2 | 威尔 | 电脑0-3H3-9 | 瓦尔, 阿拉, 伊莱, 勒伊 | 172 | 70 | 22 | |||
3 | 德斯特 | 电脑0-3O1-2H3-5 | Asp, Glu, Ser, Thr | 481 | 1928 | 254 | |||
4 | 专业版 | C2-5NO2H7-11 | 包括 N-甲基或 N-内存子结构 | 专业版 | 4035 | 79777 | 16 | ||
5 | VAIL_S | PSC0-2H3-7 | 122 | 65 | 31 | ||||
6 | DEST_S | PSC0-2O1-2H3 | 349 | 1075 | 79 | ||||
7 | Pro_S | C2-4不锈钢2小时7-9 | 包括 N-甲基或 N-内存子结构 | 3999 | 75734 | 10 |
表 1:此示例中使用的复合库。 由公式1-4(Gly,VAIL,DEST和Pro)构建的库基于先前发表的"早期"编码氨基酸21的模糊公式,而从公式5-7构建的库(VAIL_S,DEST_S和Pro_S)基于公式2-4的变体,这些变体想象二价硫取代其中一个碳原子。结构计数反映了MAYGEN为每个分子式("初始")产生的分子数量,以及过滤掉具有不需要的亚结构的分子后剩余的分子数量("最终")。缩写:VAIL = 缬氨酸,丙氨酸,异亮氨酸,亮氨酸;DEST =天冬氨酸,谷氨酸,丝氨酸,苏氨酸;X_S = 二价硫取代文库X中的一个碳;氮-甲基X = N-甲基X。
上述一般方法应用于基于"早期"编码氨基酸的公式,遵循Meringer等人的过程.21 Badlist结构取自同一来源并转换为SMARTS字符串以轻松表示子结构模式。本例中未使用两个坏名单子结构:结构018(CH 3-CH-N)与本身不不稳定的脯氨酸近异构体匹配;结构106(R-C-C-OH,其中R=丙氨酸亚结构附着在β-碳上)与谷氨酸匹配,谷氨酸是一种编码氨基酸。除了这些化学式之外,还产生了以二价硫代替一个碳原子和两个氢原子的变体。出于性能原因,其中一些公式使用三价磷原子(例如,"假原子")作为丙氨酸亚结构的β-碳的替代品。表1列出了本示例中生成的库,用于生成它们的公式以及其中包含的化合物数量。文库名称基于它们所衍生的编码氨基酸:使用3个字母的缩写(Gly = 甘氨酸,Pro = 脯氨酸)或单字母缩写(VAIL = 缬氨酸,丙氨酸,异亮氨酸,亮氨酸;DEST = 天冬氨酸,谷氨酸,丝氨酸,苏氨酸)。"_S"后缀表示硫在原始库的公式中被碳取代(例如,VAIL_S是用与VAIL相同的模糊公式构建的,但用二价硫代替其中一个碳)。
在使用MAYGEN生成结构后,所得文库被过滤为包含至少一个子结构的化合物包含在坏名单中。在此过滤之后,任何磷原子都被丙氨酸亚结构所取代。接下来,创建了所有结构的"封顶"版本,将乙酰基添加到N-末端,将N-甲基酰胺基添加到C-末端。这样做是为了消除对α-氨基酸主链中游离胺和羧酸基团的疏水性的影响。PaDEL描述符用于计算所有封顶结构的XLogP,并计算所有无上限结构的范德华体积(VABC)。
图 2 显示了由 VABC 和 XLogP 描述符定义的过滤文库的化学空间。在这里,可能的logP值的范围随着分子体积的增加而增加,即使在缺乏明确亲水性侧链的文库(例如,VAIL,Pro)中也是如此。具有烃侧链的编码氨基酸比其各自文库中体积相当的大多数其他氨基酸更具疏水性。Met和Cys似乎也是如此,与VAIL_S图书馆中其他具有类似卷的成员相比。具有羟基侧链(Ser和Thr)的编码氨基酸是DEST库的最小成员之一,Asp仅略大于Thr。
图3 和 图4 显示了当二价硫取代α-氨基酸侧链中的碳时对体积和logP的影响。硫取代导致所有文库中的分子体积略有增加(图3)。硫取代对logP的影响不如体积均匀(图4)。VAIL_S库的平均 logP 略低于 VAIL 库,但在其他任何一个库对(DEST 和 DEST_S、Pro 和 Pro_S)中都看不到这种效应。
图5 量化了代表公共子结构的伪原子对结构生成的影响;在这里,三价P在结构生成过程中取代了丙氨酸部分。在结构生成中使用伪原子大大减少了约3个数量级的结构数量(图5A),并且生成这些结构所需的总时间减少了1-2个数量级(图5B)。
图2:所有过滤氨基酸库的化学空间。 黑色标记代表来自不含硫的文库中的氨基酸;黄色标记代表来自富硫文库的氨基酸。圈子:韦尔和VAIL_S;正方形:德斯特和DEST_S;三角形:赞成和Pro_S;星:编码氨基酸。请注意,两种含硫编码氨基酸(Met和Cys)不被认为是"早期"氨基酸,但存在于VAIL_S库中。缩写:XLogP = 分配系数;VAIL = 缬氨酸,丙氨酸,异亮氨酸,亮氨酸;DEST =天冬氨酸,谷氨酸,丝氨酸,苏氨酸;X_S = 二价硫取代了文库 X 中的 一个碳,请点击此处查看此图的大图。
图 3:含硫和不含硫的文库的平均范德华体积(Å3)。 黑条表示不含硫的文库的平均体积(VAIL、DEST、Pro),而黄色条形表示这些文库的硫取代版本的平均体积(VAIL_S、DEST_S、Pro_S)。误差线显示标准偏差。缩写:VAIL = 缬氨酸,丙氨酸,异亮氨酸,亮氨酸;DEST =天冬氨酸,谷氨酸,丝氨酸,苏氨酸;X_S = 二价硫取代了文库 X 中的 一个碳,请点击此处查看此图的大图。
图 4:含硫和不含硫的文库的平均 XLogP 值。 黑条表示不含硫的库(VAIL、DEST、Pro),而黄色条表示这些库的硫取代版本(VAIL_S、DEST_S、Pro_S)。误差线显示标准偏差。缩写:XLogP = 分配系数;VAIL = 缬氨酸,丙氨酸,异亮氨酸,亮氨酸;DEST =天冬氨酸,谷氨酸,丝氨酸,苏氨酸;X_S = 二价硫取代了文库 X 中的 一个碳,请点击此处查看此图的大图。
图5:三价假原子对MAYGEN结构生成的影响。 所有测试都是在配备英特尔 i7-7700HQ 处理器(2.8 GHz)、16 GB RAM、不保存文件结构以及使用多线程的 -m 选项的 PC 上完成的。使用伪原子的测试使用模糊公式,如 表1所述。对于没有伪原子的测试,使用的模糊公式与 表1 中描述的相同,但有以下变化:P替换为N;碳含量增加了3;氢计数增加了7;氧计数增加2.黑条显示用伪原子生成的库;灰色条显示在没有伪原子的情况下生成的库。(A) 使用模糊公式生成的结构数量,该模糊公式用于构建VAIL和DEST文库,其中有和没有三价磷取代丙氨酸亚结构。(B) 构建 VAIL 和 DEST 文库所需的时间(以毫秒为单位),其中有和没有三价磷取代丙氨酸亚结构。缩写:VAIL = 缬氨酸,丙氨酸,异亮氨酸,亮氨酸;DEST =天冬氨酸,谷氨酸,丝氨酸,苏氨酸。 请点击此处查看此图的大图。
补充文件1:子结构筛选笔记本。请按此下载此档案。
补充文件 2:示例坏名单。请按此下载此档案。
补充文件3:样本好清单。 请按此下载此档案。
补充文件 4:伪原子替换笔记本。请按此下载此档案。
补充文件5:氨基酸封盖笔记本。 请按此下载此档案。
"早期"氨基酸的一个特征是缺乏硫。前面提到的荟萃分析通常认为含硫编码氨基酸(Cys和Met)是遗传密码中相对较晚的添加,结论得到了陨石和火花管实验中缺乏含硫氨基酸的支持。然而,有机硫化合物很容易在彗星和陨石22中检测到,并且使用H2S气体重新分析火花管实验发现了氨基酸和其它含硫的有机化合物16。在考虑替代氨基酸字母表时,富含硫的氨基酸字母表值得探索。
在上述协议中,结构生成和子结构滤波被认为是关键步骤;根据成品结构库的组成,研究人员可能只需要执行这两个步骤。包括用于附加操作(伪原子替换和添加子结构(在这种情况下,氨基酸封端))的说明和软件,用于更相关的描述符计算(封盖确保XLogP计算受侧链而不是主链胺或羧基的影响)以及通过使用伪原子更快地生成结构,这将在下面更详细地讨论。此外,在这里进行描述符计算是可视化所生成结构多样性并比较成品库中硫富集效果的一种简单方法。
虽然PaDEL描述符可以计算数千个分子性质,但分子体积(作为计算的范德华体积)和分配系数(如XLogP)在这里使用,原因有两个。首先,这两个描述符测量大多数化学家和生物学家都熟悉的分子性质(大小和疏水性)。其次,在氨基酸的情况下,这两个性质是显着的。几十年来,已知氨基酸大小和疏水性会影响蛋白质折叠23的热力学。这两个性质有助于解释氨基酸取代频率,这些频率对于理解蛋白质进化24是不可或缺的。
上面的例子表明,在所研究的两个描述符(分子体积和疏水性)中,用二价硫代替碳和两个氢不会产生显着的变化。硫取代(图3)导致的平均分子体积的轻微,不显着的增加可归因于硫的共价半径(〜103 pm)与sp3 (〜75 pm)或sp2 (〜73 pm)碳25相比。同样,硫取代对均值XLogP的影响最小(图4)。最大的影响是在VAIL和VAIL_S库之间,可能是由于VAIL库的组合特别疏水(侧链只是碳氢化合物)和巯基比它们将取代的甲基更具酸性。硫取代的最小影响在 图2中很明显,其中具有硫取代的库与没有硫取代的类似库占据相同的化学空间。
使用伪原子时,结构数量(图5A)和生成这些结构所需的时间(图5B)的减少并不奇怪。使用伪原子可以减少需要掺入化学图中的重原子的数量,减少图节点的数量,并使生成时间和结构数量呈指数级减少。在这里,选择三价磷作为假原子源于基本的生物化学(没有翻译后添加磷酸基团,没有遗传编码氨基酸含有磷)和取代它的原子的价(三价磷可以很容易地被单独键合到另一个原子或原子群的四价碳所取代)。虽然提供的伪原子取代代码专门用于用丙氨酸子结构替换三价磷,但用户可以自定义代码以使用不同的伪原子或替换子结构,可能在初始结构生成期间使用多个伪原子,然后用更大的分子子结构替换每个伪原子。
类似于MAYGEN采用的结构生成方法(以及神经网络等其他方法)已经用于药物发现,以生成用于 计算机筛选的 化合物库;最近的综述4 更详细地讨论了这些方法。由于这些方法主要用于创建类似药物的分子,因此它们产生分子的能力存在一些限制,例如使用生物或药物特性来限制创建的结构(逆QSPR / QSAR)或从预设数量的子结构构建块创建结构。由于天体生物学更关注可以非生物形成的众多有机化合物,而在任何最终产品或其性质上形成的有机化合物较少,因此MAYGEN的详尽结构生成非常适合创建结构库以解决天体生物学问题。这里描述的子结构滤波方法(通过外部程序生成结构后执行)与竞争对手的MOLGEN程序的不同之处在于,MOLGEN的子结构滤波发生在结构生成过程中。由于MAYGEN是开源的,由于MOLGEN的许可成本,它不仅比MOLGEN更容易访问,而且个人可以在结构生成期间实现新功能,例如子结构过滤。
如前所述,这里描述的协议侧重于生成和策划相对较小的α-氨基酸库。为了生成不同的文库,用户可以向MAYGEN提供不同的分子公式,通过更改允许的最大环尺寸和键价来更改子结构过滤,或者编辑好名单和坏名单文件以添加或删除子结构模式。涉及改变原子和亚结构添加或替换方式(伪原子取代和分子封端)的协议修改是可行的,但需要更多地关注价限制,以避免RDKit关于修改结构中不正确的价态的错误。
上面详述的方案是为小α-氨基酸设计的。然而,一般格式(使用伪原子生成综合结构,然后进行子结构过滤和分子修饰)对于小氨基酸以外的化合物具有高度的灵活性。即使在天体生物学中,最近使用MOLGEN的类似程序也用于研究核酸的体质异构体26。除了上述工具外,MAYGEN还可以与其他开源化学信息学工具配对,使创建和分析新的化学结构变得负担得起,并且可以被广泛的研究领域所接受。
作者没有利益冲突要披露。
MAY承认卡尔蔡司基金会的资助。所有数字都是使用微软Excel生成的。
Name | Company | Catalog Number | Comments |
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。