JoVE Logo

登录

需要订阅 JoVE 才能查看此. 登录或开始免费试用。

本文内容

  • 摘要
  • 摘要
  • 引言
  • 研究方案
  • 结果
  • 讨论
  • 披露声明
  • 致谢
  • 材料
  • 参考文献
  • 转载和许可

摘要

在这里,我们提供了一种方法,使用不同的分子表示来显示和分析天然化合物数据集的化学空间,重点是与药物发现相关的应用。

摘要

化学空间是一个多维描述空间,它包含所有可能的分子,并且至少有 1 x 1060 种分子量低于 500 Da 的有机物质被认为可能与药物发现相关。天然产物一直是过去 40 年中上市的新药理学实体的主要来源,并继续成为创造创新药物的最有效来源之一。基于化学信息学的计算工具可加速天然产物的药物开发过程。已经使用了包括估计生物活性、安全性概况、ADME 和天然产物相似性测量在内的方法。在这里,我们回顾了化学信息学工具的最新发展,这些工具旨在使用各种分子表示来可视化、表征和扩展天然化合物数据集的化学空间,创建此类空间的可视化表示,并研究化学空间内的结构-性质关系。我们以药物发现应用为重点,评估了开源数据库 BIOFACQUIM 和 PeruNPDB 作为概念验证。

引言

天然产物 (NP) 是由生物产生的化合物,几个世纪以来一直被用作传统治疗方法。单个 NP 在现代已被创造为药物,并成功作为药物发现中的先导化合物开发1。人类和动物产生的海洋、真菌、细菌、植物和内源性物质都属于生物活性化合物的范畴,各种动物产生的毒液和毒药也属于生物活性化合物的范畴2。因此,四十年来,NP 制造的药物数量代表了新药理学物质的重要来源3,强调 NP 在新药的开发中至关重要,特别是用于治疗癌症和传染病,以及多发性硬化症和心血管疾病等其他治疗病症4.此外,在 1981 年至 2019 年间被授权用于治疗癌症的 185 种小化合物中,有 64.9% 是未修饰的 NP 或具有 NP 药效团的合成药物3

化学信息学是一门建立在化学空间概念之上的成熟跨学科,已被用于分析和可视化与药物样特征相关的 NP 物理化学性质的化学空间5。化学信息学已显示出对基于 NPs6 的药物设计和发现的重大影响。一组化合物的化学空间并不总是唯一的。这将取决于用于定义它的描述符集合,这意味着研究 NP 的化学空间与任何其他化合物组一样,提出了依赖于分子表示7 的特殊挑战。可以使用各种分子描述符和数据可视化技术来实现这项工作。相比之下,最常用的技术是主成分分析 (PCA)、基架树、自组织映射、生成地形映射 (GTM) 和一种称为树状图 (TMAP) 的新型可视化技术8。此外,在化合物数据库中收集、评估和传播 NP 的化学信息是化学信息学在 NP 研究中的用途之一。相比之下,随着大数据的引入,这一点尤其相关9

在这里,开源 NP 数据库 BIOFACQUIM10 和 PeruNPDB11 用于描述使用各种分子表示搜索天然化合物数据集化学空间的可视化和表征的协议,创建此类空间的可视化表示并研究化学空间内的结构-性质关系,重点是药物发现应用。

Access restricted. Please log in or start a trial to view this content.

研究方案

1. 软件下载安装

  1. 使此项目的目录全新。为了方便访问,请将可执行文件和文件放在此目录中。
  2. 下载后安装所需的软件包。
  3. 下载最新版本的 Osiris DataWarrior (OSIRIS) 软件,该软件可在 https://openmolecules.org/datawarrior/ 中找到
  4. 下载最新版本的 Konstanz Information Miner (KNIME) 分析平台,可在 https://www.knime.com/ 中找到
  5. 下载最新版本的 GraphPad Prism 软件,可在 https://www.graphpad.com/ 上找到
    注意:Osiris DataWarrior 软件和 Konstanz Information Miner (KNIME) 分析平台可以在个人计算机上使用,并且可供个人免费使用,而 GraphPad Prism 软件可以在 (https://www.graphpad.com/) 购买。

2. 化合物数据库的构建和管理

注意:查找具有必要数据的物质和来源。建议用户在电子表格中为每个化合物提供以下详细信息。

  1. 为每个化合物命名。在电子表格的第一列中添加在源处描述的所有化合物的名称。
  2. 如果创建内部集合,请分配一个内部标准化代码,或者分配一个编号,在所查阅的数据库中唯一标识该化合物。
  3. 使用规范的 SMILES 符号提供结构输入,该符号可以导入到其他分子编辑工具中。
    1. 在电子表格中收集此数据后,最好以 .csv 格式保存数据库。
    2. 使用 OSIRIS 软件生成数据集的结构数据文件 (SDF)、分子数据文件 (mol) 和 mol2,这些文件也包含化学信息,可与大多数软件包互作。为此,请单击上传 .csv 档案 文件 按钮,然后 可选 按钮。
    3. 将数据集上传到 KNIME 分析平台,以提高数据质量并防止结果不准确。为此,请通过单击上传 .sdf .mol2 文件 文件 按钮,然后 可选 按钮。
  4. 确保化学结构的均匀性。
    1. 检查每个化学结构是否具有有效的原子类型和价检查。使用 KNIME 的 标准化分子结构 工作流程,通过将结构转换为规范互变异构形式、对芳香族结构进行标准化、标准化立体键的定位以及将所有隐含氢转换为显式氢,实现结构标准化。
    2. 使用 KNIME 的标准化分子结构工作流程,在分子正确标准化后查找并消除重复项。利用 InChI 键作为线性符号来定位各种质子化态和互变异构体。
    3. 消除重复。
    4. 列举 tau 异构体和立体异构体。此步骤在虚拟筛选研究中至关重要,尤其是在使用搜索方法(如对接或基于药效团的过滤)时。

3. 分子描述符和多样性分析

注:分子描述符,如物理化学性质、分子指纹图谱和化学支架,是化学信息学应用中表示分子的最常用方法。分析可在此处执行:http://132.248.103.152:3838/PUMA/。下面描述的所有步骤都在 PUMA 网站上进行了详细说明。

  1. 计算具有药理学相关性的六个最普遍的物理化学性质:分子量 (MW)、辛醇/水分配系数 (clogP)、拓扑表面积 (TPSA)、水溶性 (clogS)、H 键供体原子数 (HBD) 和 H 键受体原子数 (HBA)。有关更多信息,请参阅 PUMA 网站。
  2. 计算 166 位 MACCS 密钥、成对 Tanimoto 相似性和直径为 4 (ECFP4) 的扩展连接指纹,以及适用于虚拟筛选、活动景观建模和结构-活动关系 (SAR) 研究的其他圆形指纹。
  3. 计算每个成对比较的集中趋势统计量。确保数据集中的多样性,具有与欧几里得距离或任何一般距离度量相反的较小平均值或中位数。
  4. 检查计算值是否已记录在文献中或已为其他参考数据库计算以进行比较。为此,请咨询 PubChem 或 CHEMBL 等网站。
  5. 生成小提琴图,以便在 GraphPad Prism 软件中进行可视化,显示最大值和最小值。

4. 化学空间的可视化

注意:可以使用 PCA 和其他降维技术将大部分相关数据压缩为少量变量。因此,化学空间的可视化成为可能。

  1. 选择所有 6 个描述符以确定相似度或距离。相应地创建相似度(或距离)矩阵。
  2. 对矩阵执行 PCA 分析。选择两个或三个主要零部件进行绘图。考虑每个主要分量捕获的方差比例。
  3. 使用 Plotly KNIME 节点为 PCA 生成二维或三维散点图表示。

5. 一致性多样性图

注意:已经开发了视觉表示来总结一些可用于量化多样性的特征。共有多样性图 (CDPs)12 分析可以在此处进行 http://132.248.103.152:3838/CDPlots/。

  1. 使用数据库中的化合物数量创建一个图,以确定数据点大小。使用 x 轴的分子指纹多样性,y 轴使用支架的多样性,基于物理化学性质的多样性用于颜色连续尺度,以及数据集中化合物的相对数量作为数据点大小。
  2. 使用 GraphPad Prism 软件生成多变量图。

Access restricted. Please log in or start a trial to view this content.

结果

分子性质和化学空间的可视化
BIOFACQUIM10、PeruNPDB11 和 FDA13 数据集中的所有化合物都计算了 6 种理化性质。然后将这些品质绘制到小提琴图上,这样人们可以看到三个研究数据集的属性是如何分布的(图 1)。药物感兴趣的六个物理化学参数的分布曲线,即分子量 (MW)、辛醇/水分...

Access restricted. Please log in or start a trial to view this content.

讨论

由于其许多潜在用途,例如化合物分类、化合物选择、探索结构-活性联系以及通过结构-性能相互作用进行导航,化学空间的概念如今被广泛用于药物发现和开发过程14。此外,由于 Chemical Information 量的增加,NP 数据库的创建 NP 数据库是执行各种计算研究的基本程序,包括化学库的设计、化学空间的表征和比较、SAR 的研究和虚拟筛选等研究。相比之下?...

Access restricted. Please log in or start a trial to view this content.

披露声明

作者声明他们没有任何利益冲突。

致谢

HLBC 和 MACH 感谢圣玛丽亚天主教大学的资助(赠款 27499-R-2020、27574-R-2020、7309-CU-2020 和 28048-R-2021)。JLMF 感谢 DGAPA、UNAM、Programa de Apoyo a Proyectos de Investigación e Innovación Tecnológica (PAPIIT) 的资助,授予号。IN201321。

Access restricted. Please log in or start a trial to view this content.

材料

NameCompanyCatalog NumberComments
GraphPad PrismGraphPad Prismhttps://www.graphpad.com/
KNIME platformKNIMEhttps://www.knime.com
Osiris DataWarrior (OSIRIS) softwareopenmolecules.orghttps://openmolecules.org/datawarrior/
PUMAPUMA: Platform for Unified Molecular Analysishttp://132.248.103.152:3838/PUMA/

参考文献

  1. Boufridi, A., Quinn, R. J. Harnessing the properties of natural products. Annu Rev Pharmacol Toxicol. 58, 451-470 (2018).
  2. Gómez-García, A., et al. Navigating the chemical space and chemical multiverse of a unified Latin American natural product database: LANaPDB. ChemRxiv. , (2023).
  3. Newman, D. J., Cragg, G. M. Natural products as sources of new drugs over the nearly four decades from 01/1981 to 09/2019. J Nat Prod. 83 (3), 770-803 (2020).
  4. Atanasov, A. G., Zotchev, S. B., Dirsch, V. M., Supuran, C. T. Natural products in drug discovery: advances and opportunities. Nat Rev Drug Discov. 20 (3), 200-216 (2021).
  5. Medina-Franco, J. L., Saldívar-González, F. I. Cheminformatics to characterize pharmacologically active natural products. Biomolecules. 10 (11), 1566(2020).
  6. Chen, Y., Garcia De Lomana, M., Friedrich, N. O., Kirchmair, J. Characterization of the Chemical Space of Known and Readily Obtainable Natural Products. J Chem Inf Model. 58 (8), 1518-1532 (2018).
  7. Gaytán-Hernández, D., Chávez-Hernández, A. L., López-López, E., Miranda-Salas, J., Saldívar-González, F. I., Medina-Franco, J. L. Art driven by visual representations of chemical space. ChemRxiv. , (2023).
  8. Zabolotna, Y., Ertl, P., Horvath, D., Bonachera, F., Marcou, G., Varnek, A. NP Navigator: A new look at the natural product chemical space. Mol Inform. 40 (9), e2100068(2021).
  9. Martinez-Mayorga, K., Madariaga-Mazon, A., Medina-Franco, J. L., Maggiora, G. The impact of chemoinformatics on drug discovery in the pharmaceutical industry. Expert Opin Drug Discov. 15 (3), 293-306 (2020).
  10. Pilón-Jiménez, B., Saldívar-González, F., Díaz-Eufracio, B., Medina-Franco, J. BIOFACQUIM: A Mexican compound database of natural products. Biomolecules. 9 (1), 31(2019).
  11. Barazorda-Ccahuana, H. L., et al. PeruNPDB: the Peruvian natural products database for in silico drug screening. Sci Rep. 13 (1), 7577(2023).
  12. González-Medina, M., Prieto-Martínez, F. D., Owen, J. R., Medina-Franco, J. L. Consensus diversity plots: a global diversity analysis of chemical libraries. J Cheminform. 8, 63(2016).
  13. Irwin, J. J., et al. ZINC20-A free ultralarge-scale chemical database for ligand discovery. J Chem Inf Model. 60 (12), 6065-6073 (2020).
  14. Naveja, J. J., Medina-Franco, J. L. Finding constellations in chemical space through core analysis. Front Chem. 7, 510(2019).
  15. Cavasotto, C. N., Di Filippo, J. I. Artificial intelligence in the early stages of drug discovery. Arch Biochem Biophys. 698, 108730(2021).
  16. Rosén, J., Gottfries, J., Muresan, S., Backlund, A., Oprea, T. I. Novel chemical space exploration via natural products. J Med Chem. 52 (7), 1953-1962 (2009).
  17. Sliwoski, G., Kothiwale, S., Meiler, J., Lowe Jr, E. W. Computational methods in drug discovery. Pharmacol Rev. 66 (1), 334-395 (2014).
  18. Goyzueta-Mamani, L. D., Barazorda-Ccahuana, H. L., Mena-Ulecia, K., Chávez-Fumagalli, M. A. Antiviral activity of metabolites from Peruvian plants against SARS-CoV-2: An in silico approach. Molecules. 26 (13), 3882(2021).
  19. Goyzueta-Mamani, L. D., et al. In silico analysis of metabolites from Peruvian native plants as potential therapeutics against Alzheimer's disease. Molecules. 27 (3), 918(2022).
  20. Barazorda-Ccahuana, H. L., et al. Computer-aided drug design approaches applied to screen natural product's structural analogs targeting arginase in Leishmania spp. F1000Research. 12, 93(2023).
  21. McGrady, M. Y., Colby, S. M., Nuñez, J. R., Renslow, R. S., Metz, T. O. AI for chemical space gap filling and novel compound generation. arXiv. , (2022).
  22. Medina-Franco, J., Martinez-Mayorga, K., Giulianotti, M., Houghten, R., Pinilla, C. Visualization of the chemical space in drug discovery. Curr Comput Aided-Drug Des. 4 (4), 322-333 (2008).
  23. Osolodkin, D. I., Radchenko, E. V., Orlov, A. A., Voronkov, A. E., Palyulin, V. A., Zefirov, N. S. Progress in visual representations of chemical space. Expert Opin Drug Discov. 10 (9), 959-973 (2015).
  24. Sheridan, R. P., Kearsley, S. K. Why do we need so many chemical similarity search methods. Drug Discov Today. 7 (17), 903-911 (2002).
  25. Singh, N., Guha, R., Giulianotti, M. A., Pinilla, C., Houghten, R. A., Medina-Franco, J. L. Chemoinformatic analysis of combinatorial libraries, drugs, natural products, and molecular libraries Small Molecule Repository. J Chem Inf Model. 49 (4), 1010-1024 (2009).
  26. Medina-Franco, J. L., Chávez-Hernández, A. L., López-López, E., Saldívar-González, F. I. Chemical multiverse: An expanded view of chemical space. Mol Inform. 41 (11), e2200116(2022).

Access restricted. Please log in or start a trial to view this content.

转载和许可

请求许可使用此 JoVE 文章的文本或图形

请求许可

探索更多文章

ADME BIOFACQUIM NPDB

This article has been published

Video Coming Soon

JoVE Logo

政策

使用条款

隐私

科研

教育

关于 JoVE

版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。