Visualisierung und Analyse des chemischen Raums von Naturstoffdatenbanken für die Wirkstoffforschung

Haruna Luz Barazorda-Ccahuana; K. Eurídice Juárez-Mercado; José L. Medina-Franco; Miguel Angel Chavez-Fumagalli

doi:10.3791/66349

Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.

In diesem Artikel

Zusammenfassung
Zusammenfassung
Einleitung
Protokoll
Ergebnisse
Diskussion
Offenlegungen
Danksagungen
Materialien
Referenzen
Nachdrucke und Genehmigungen

Zusammenfassung

Hier stellen wir eine Methodik vor, die verschiedene molekulare Darstellungen verwendet, um den chemischen Raum von Datensätzen für Naturstoffe darzustellen und zu analysieren, wobei der Schwerpunkt auf Anwendungen im Zusammenhang mit der Wirkstoffforschung liegt.

Zusammenfassung

Der chemische Raum ist ein mehrdimensionaler Deskriptorraum, der alle möglichen Moleküle umschließt, und es wird angenommen, dass mindestens 1 x 10⁶⁰ organische Substanzen mit einem Molekulargewicht unter 500 Da potenziell relevant für die Wirkstoffforschung sind. Naturprodukte waren in den letzten vierzig Jahren die Hauptquelle für die neuen pharmakologischen Wirkstoffe, die auf den Markt gebracht wurden, und sind nach wie vor eine der produktivsten Quellen für die Entwicklung innovativer Medikamente. Chemoinformatik-basierte Computerwerkzeuge beschleunigen den Prozess der Arzneimittelentwicklung für Naturstoffe. Es wurden Methoden wie die Schätzung von Bioaktivitäten, Sicherheitsprofile, ADME und die Messung der Ähnlichkeit mit Naturprodukten verwendet. Hier gehen wir auf die jüngsten Entwicklungen bei chemoinformatischen Werkzeugen ein, die entwickelt wurden, um den chemischen Raum von Datensätzen natürlicher Verbindungen mit verschiedenen molekularen Darstellungen zu visualisieren, zu charakterisieren und zu erweitern, visuelle Darstellungen solcher Räume zu erstellen und Struktur-Eigenschaftsbeziehungen innerhalb chemischer Räume zu untersuchen. Mit einem Schwerpunkt auf Drug Discovery Anwendungen evaluieren wir die Open-Source-Datenbanken BIOFACQUIM und PeruNPDB als Proof of Concept.

Einleitung

Naturprodukte (NPs), bei denen es sich um chemische Verbindungen handelt, die von Lebewesen gebildet werden, werden seit Jahrhunderten als traditionelle Behandlungen verwendet. Einzelne NPs wurden in der Neuzeit als Medikamente entwickelt und erfolgreich als Leitverbindungen in der Wirkstoffforschung verwertet¹. Meeres-, Pilz-, Bakterien-, Pflanzen- und körpereigene Substanzen, die von Menschen und Tieren gebildet werden, gehören zur Kategorie der bioaktiven Verbindungen, ebenso wie Gifte und Gifte, die von verschiedenen Tieren produziert werden². Infolgedessen stellte die Anzahl der von NPs hergestellten Medikamente vierzig Jahre lang eine bedeutende Quelle für neue pharmakologische Substanzen^{dar 3}, was unterstreicht, dass NPs bei der Entwicklung neuer Medikamente von entscheidender Bedeutung waren, insbesondere für die Behandlung von Krebs und Infektionskrankheiten sowie für andere therapeutische Erkrankungen wie Multiple Sklerose und Herz-Kreislauf-Erkrankungen⁴. Darüber hinaus handelte es sich bei 64,9 % der 185 kleinen Verbindungen, die zwischen 1981 und 2019 zur Behandlung von Krebs zugelassen wurden, um unmodifizierte NP oder synthetische Arzneimittel mit einem NP-Pharmakophor³.

Die Chemoinformatik, eine etablierte interdisziplinäre Disziplin, die auf dem Konzept des chemischen Raums beruht, wurde verwendet, um den chemischen Raum der physikochemischen Qualitäten von NPs in Verbindung mit arzneimittelähnlichen Eigenschaften zu analysieren und zu visualisieren⁵. Die Chemoinformatik hat einen erheblichen Einfluss auf das Design und die Entdeckung von Medikamenten auf der Grundlage von NPs^{gezeigt 6}. Der chemische Raum einer Gruppe von Verbindungen ist nicht immer einzigartig. Es wird von der Sammlung von Deskriptoren abhängen, die zur Definition verwendet werden, was bedeutet, dass die Untersuchung des chemischen Raums von NPs wie jeder andere Satz von Verbindungen besondere Herausforderungen mit sich bringt, die auf der molekularen Repräsentation beruhen⁷. Dieses Unterfangen kann mit einer Vielzahl von molekularen Deskriptoren und Datenvisualisierungstechniken angegangen werden. Im Gegensatz dazu sind die am häufigsten verwendeten Techniken die Hauptkomponentenanalyse (PCA), Gerüstbäume, selbstorganisierende Karten, generative topografische Kartierung (GTM) und eine neuartige Visualisierungstechnik namens Tree Maps (TMAPs)⁸. Auch die Sammlung, Bewertung und Verbreitung der chemischen Informationen von NP in Verbindungsdatenbanken ist eine der Anwendungen der Chemoinformatik in der NP-Forschung. Im Gegensatz dazu ist dies bei der Einführung von Big Data besonders relevant⁹.

Hier werden die Open-Source-NP-Datenbanken BIOFACQUIM¹⁰ und PeruNPDB¹¹ verwendet, um das Protokoll zu beschreiben, das die Visualisierung und Charakterisierung des chemischen Raums von Naturstoffdatensätzen unter Verwendung verschiedener molekularer Darstellungen sucht, visuelle Darstellungen solcher Räume erstellt und Struktur-Eigenschafts-Beziehungen innerhalb chemischer Räume untersucht, wobei der Schwerpunkt auf Anwendungen in der Wirkstoffforschung liegt.

Access restricted. Please log in or start a trial to view this content.

Protokoll

1. Software-Download und -Installation

Machen Sie das Verzeichnis dieses Projekts frisch. Für einen bequemen Zugriff legen Sie die ausführbaren Dateien und Dateien in diesem Verzeichnis ab.
Installieren Sie die erforderlichen Softwarepakete, nachdem Sie sie heruntergeladen haben.
Laden Sie die neueste Version der Software The Osiris DataWarrior (OSIRIS) herunter, die Sie unter https://openmolecules.org/datawarrior/
Laden Sie die neueste Version der Analytics Platform The Konstanz Information Miner (KNIME) herunter, die Sie unter https://www.knime.com/
Laden Sie die neueste Version der GraphPad Prism-Software herunter, die Sie unter https://www.graphpad.com/
HINWEIS: Die Osiris DataWarrior-Software und die Konstanz Information Miner (KNIME) Analytics Platform können auf einem PC verwendet werden und sind für den individuellen Gebrauch kostenlos, während die GraphPad Prism-Software unter (https://www.graphpad.com/) erworben werden kann.

2. Aufbau und Kuratierung einer Verbindungsdatenbank

HINWEIS: Suchen Sie nach Stoffen und Quellen, die über die erforderlichen Daten verfügen. Dem Benutzer wird empfohlen, die folgenden Details für jede Verbindung in einer Tabelle zu haben.

Benennen Sie jede Verbindung. Fügen Sie die Namen aller Verbindungen, die an der Quelle beschrieben werden, in die erste Spalte einer Tabelle ein.
Weisen Sie einen internen, standardisierten Code zu, wenn Sie eine hauseigene Sammlung erstellen, oder vergeben Sie eine Nummer, die diese Verbindung in der konsultierten Datenbank eindeutig identifiziert.
Geben Sie die Struktureingabe in der kanonischen SMILES-Notation an, die in andere molekulare Editierwerkzeuge importiert werden kann.
1. Speichern Sie die Datenbank idealerweise in .csv Format, sobald diese Daten in der Tabelle gesammelt wurden.
2. Verwenden Sie die OSIRIS-Software, um die Strukturdatendateien (SDF), die molekularen Datendateien (mol) und mol2 des Datensatzes zu generieren, die ebenfalls chemische Informationen enthalten und mit den meisten Softwarepaketen interoperabel sind. Laden Sie dazu das .csv Archiv hoch, indem Sie auf die Schaltfläche Datei und dann auf die Schaltfläche Öffnen klicken.
3. Laden Sie den Datensatz auf die KNIME-Analyseplattform hoch, um die Datenqualität zu verbessern und ungenaue Ergebnisse zu vermeiden. Laden Sie dazu die .sdf - oder .mol2-Datei hoch, indem Sie auf die Schaltfläche Datei und dann auf die Schaltfläche Öffnen klicken.
Gewährleisten Sie die Gleichmäßigkeit der chemischen Strukturen.
1. Untersuchen Sie jede chemische Struktur auf gültige Atomtypen und Valenzüberprüfungen. Standardisieren Sie die Strukturen, indem Sie sie in eine kanonische tautomere Form umwandeln, aromatische Strukturen kekulisieren, die Positionierung von Stereobindungen standardisieren und alle impliziten Wasserstoffatome in explizite Wasserstoffatome umwandeln, indem Sie den Workflow "Standardizing Molecular Structures " von KNIME verwenden.
2. Finden und beseitigen Sie Duplikate, nachdem die Moleküle korrekt standardisiert wurden, indem Sie den Arbeitsablauf zur Standardisierung molekularer Strukturen von KNIME verwenden. Verwenden Sie InChI-Schlüssel als lineare Notation, um verschiedene Protonierungszustände und Taumere zu lokalisieren.
3. Eliminieren Sie Duplikate.
4. Zählen Sie Tautomer und Stereoisomere auf. Dieser Schritt ist in virtuellen Screening-Studien von entscheidender Bedeutung, insbesondere bei der Verwendung von Suchmethoden wie Docking oder pharmakophorbasierter Filterung.

3. Molekulare Deskriptoren und Diversitätsanalyse

HINWEIS: Molekulare Deskriptoren, wie z. B. physikalisch-chemische Qualitäten sowie molekulare Fingerabdrücke und chemische Gerüste, sind die gebräuchlichsten Ansätze zur Darstellung von Molekülen in chemoinformatischen Anwendungen. Die Analyse kann hier durchgeführt werden: http://132.248.103.152:3838/PUMA/. Alle unten beschriebenen Schritte sind auf der PUMA-Website ausführlich beschrieben.

Berechnen Sie die sechs vorherrschendsten physikalisch-chemischen Qualitäten von pharmakologischer Relevanz: Molekulargewicht (MW), Octanol/Wasser-Verteilungskoeffizient (clogP), topologische Oberfläche (TPSA), wässrige Löslichkeit (clogS), Anzahl der H-Bindungs-Donoratome (HBD) und Anzahl der H-Bindungs-Akzeptoratome (HBA). Weitere Informationen finden Sie auf der PUMA-Website.
Berechnen Sie die 166-Bit-MACCS-Schlüssel, die paarweise Tanimoto-Ähnlichkeit und die erweiterten Konnektivitäts-Fingerabdrücke mit Durchmesser 4 (ECFP4) sowie andere zirkuläre Fingerabdrücke, die sich für virtuelles Screening, die Modellierung von Aktivitätslandschaften und die Erforschung von Struktur-Aktivitäts-Beziehungen (SAR) eignen.
Berechnen Sie für jeden paarweisen Vergleich eine zentrale Tendenzstatistik. Stellen Sie die Vielfalt im Datensatz mit einem kleineren Mittelwert oder Median sicher, der der euklidischen Distanz oder einer allgemeinen Entfernungsmetrik widerspricht.
Prüfen Sie, ob die berechneten Werte in der Literatur aufgezeichnet oder für andere Referenzdatenbanken zu Vergleichszwecken berechnet wurden. Konsultieren Sie dazu Websites wie PubChem oder CHEMBL.
Generieren Sie Geigendiagramme zur Visualisierung in der GraphPad Prism-Software, die die Maximal- und Minimalwerte anzeigen.

4. Visualisierung des chemischen Raumes

HINWEIS: Es ist möglich, den Großteil der relevanten Daten unter Verwendung von PCA und anderen Techniken zur Dimensionalitätsreduktion in eine kleine Anzahl von Variablen zu verdichten. Visualisierungen des chemischen Raumes werden somit ermöglicht.

Wählen Sie alle sechs Deskriptoren aus, um die Ähnlichkeit oder Entfernung zu bestimmen. Erstellen Sie die Ähnlichkeitsmatrix (oder Entfernungsmatrix) entsprechend.
Führen Sie eine PCA-Analyse auf der Matrix durch. Wählen Sie zwei oder drei Hauptkomponenten für das Plotten aus. Berücksichtigen Sie den Anteil der Varianz, der von den einzelnen Primärkomponenten erfasst wird.
Generieren Sie zwei- oder dreidimensionale Streudiagrammdarstellungen für PCA mithilfe des Plotly KNIME-Knotens.

5. Konsens-Diversitätsdiagramme

HINWEIS: Visuelle Darstellungen wurden entwickelt, um einige Merkmale zusammenzufassen, die zur Quantifizierung der Vielfalt verwendet werden können. Die Analyse der Consensus Diversity Plots (CDPs)¹² kann hier http://132.248.103.152:3838/CDPlots/ durchgeführt werden.

Erstellen Sie ein Diagramm mit der Anzahl der Verbindungen in der Datenbank, um die Größe des Datenpunkts zu bestimmen. Verwenden Sie die Vielfalt der molekularen Fingerabdrücke für die x-Achse, die Vielfalt der Gerüste für die y-Achse, die Vielfalt basierend auf physikalisch-chemischen Eigenschaften für die kontinuierliche Farbskala und die relative Anzahl der Verbindungen im Datensatz für die Datenpunktgröße.
Generieren Sie das Diagramm mit mehreren Variablen mit der GraphPad Prism-Software.

Access restricted. Please log in or start a trial to view this content.

Ergebnisse

Molekulare Eigenschaften und Visualisierung des chemischen Raumes
Für alle Verbindungen in den Datensätzen BIOFACQUIM¹⁰, PeruNPDB¹¹ und FDA¹³ wurden sechs physikalisch-chemische Eigenschaften berechnet. Diese Eigenschaften wurden dann auf Violinplots aufgetragen, die es ermöglichen, zu sehen, wie die Eigenschaften der drei untersuchten Datensätze verteilt sind (Abbildung 1...

Access restricted. Please log in or start a trial to view this content.

Diskussion

Aufgrund seiner vielen Anwendungsmöglichkeiten, wie z. B. der Klassifizierung von Verbindungen, der Auswahl von Verbindungen, der Erforschung von Struktur-Wirkungs-Verknüpfungen und der Navigation durch Struktur-Eigenschafts-Wechselwirkungen, wird das Konzept des chemischen Raums heutzutage häufig im Prozess der Wirkstoffforschung und -entwicklung eingesetzt¹⁴. Auch die Erstellung von NP-Datenbanken ist ein grundlegendes Verfahren zur Durchführung verschiedene...

Access restricted. Please log in or start a trial to view this content.

Offenlegungen

Die Autoren erklären, dass sie keinen Interessenkonflikt haben.

Danksagungen

HLBC und MACH danken der Universidad Católica de Santa Maria für die Finanzierung (Zuschüsse 27499-R-2020, 27574-R-2020, 7309-CU-2020 und 28048-R-2021). JLMF dankt der Finanzierung durch DGAPA, UNAM, Programa de Apoyo a Proyectos de Investigación e Innovación Tecnológica (PAPIIT), Grant No. IN201321.

Access restricted. Please log in or start a trial to view this content.

Materialien

Name	Company	Catalog Number	Comments
GraphPad Prism	GraphPad Prism	https://www.graphpad.com/
KNIME platform	KNIME	https://www.knime.com
Osiris DataWarrior (OSIRIS) software	openmolecules.org	https://openmolecules.org/datawarrior/
PUMA	PUMA: Platform for Unified Molecular Analysis	http://132.248.103.152:3838/PUMA/

Referenzen

Boufridi, A., Quinn, R. J. Harnessing the properties of natural products. Annu Rev Pharmacol Toxicol. 58, 451-470 (2018).
Gómez-García, A., et al. Navigating the chemical space and chemical multiverse of a unified Latin American natural product database: LANaPDB. ChemRxiv. , (2023).
Newman, D. J., Cragg, G. M. Natural products as sources of new drugs over the nearly four decades from 01/1981 to 09/2019. J Nat Prod. 83 (3), 770-803 (2020).
Atanasov, A. G., Zotchev, S. B., Dirsch, V. M., Supuran, C. T. Natural products in drug discovery: advances and opportunities. Nat Rev Drug Discov. 20 (3), 200-216 (2021).
Medina-Franco, J. L., Saldívar-González, F. I. Cheminformatics to characterize pharmacologically active natural products. Biomolecules. 10 (11), 1566(2020).
Chen, Y., Garcia De Lomana, M., Friedrich, N. O., Kirchmair, J. Characterization of the Chemical Space of Known and Readily Obtainable Natural Products. J Chem Inf Model. 58 (8), 1518-1532 (2018).
Gaytán-Hernández, D., Chávez-Hernández, A. L., López-López, E., Miranda-Salas, J., Saldívar-González, F. I., Medina-Franco, J. L. Art driven by visual representations of chemical space. ChemRxiv. , (2023).
Zabolotna, Y., Ertl, P., Horvath, D., Bonachera, F., Marcou, G., Varnek, A. NP Navigator: A new look at the natural product chemical space. Mol Inform. 40 (9), e2100068(2021).
Martinez-Mayorga, K., Madariaga-Mazon, A., Medina-Franco, J. L., Maggiora, G. The impact of chemoinformatics on drug discovery in the pharmaceutical industry. Expert Opin Drug Discov. 15 (3), 293-306 (2020).
Pilón-Jiménez, B., Saldívar-González, F., Díaz-Eufracio, B., Medina-Franco, J. BIOFACQUIM: A Mexican compound database of natural products. Biomolecules. 9 (1), 31(2019).
Barazorda-Ccahuana, H. L., et al. PeruNPDB: the Peruvian natural products database for in silico drug screening. Sci Rep. 13 (1), 7577(2023).
González-Medina, M., Prieto-Martínez, F. D., Owen, J. R., Medina-Franco, J. L. Consensus diversity plots: a global diversity analysis of chemical libraries. J Cheminform. 8, 63(2016).
Irwin, J. J., et al. ZINC20-A free ultralarge-scale chemical database for ligand discovery. J Chem Inf Model. 60 (12), 6065-6073 (2020).
Naveja, J. J., Medina-Franco, J. L. Finding constellations in chemical space through core analysis. Front Chem. 7, 510(2019).
Cavasotto, C. N., Di Filippo, J. I. Artificial intelligence in the early stages of drug discovery. Arch Biochem Biophys. 698, 108730(2021).
Rosén, J., Gottfries, J., Muresan, S., Backlund, A., Oprea, T. I. Novel chemical space exploration via natural products. J Med Chem. 52 (7), 1953-1962 (2009).
Sliwoski, G., Kothiwale, S., Meiler, J., Lowe Jr, E. W. Computational methods in drug discovery. Pharmacol Rev. 66 (1), 334-395 (2014).
Goyzueta-Mamani, L. D., Barazorda-Ccahuana, H. L., Mena-Ulecia, K., Chávez-Fumagalli, M. A. Antiviral activity of metabolites from Peruvian plants against SARS-CoV-2: An in silico approach. Molecules. 26 (13), 3882(2021).
Goyzueta-Mamani, L. D., et al. In silico analysis of metabolites from Peruvian native plants as potential therapeutics against Alzheimer's disease. Molecules. 27 (3), 918(2022).
Barazorda-Ccahuana, H. L., et al. Computer-aided drug design approaches applied to screen natural product's structural analogs targeting arginase in Leishmania spp. F1000Research. 12, 93(2023).
McGrady, M. Y., Colby, S. M., Nuñez, J. R., Renslow, R. S., Metz, T. O. AI for chemical space gap filling and novel compound generation. arXiv. , (2022).
Medina-Franco, J., Martinez-Mayorga, K., Giulianotti, M., Houghten, R., Pinilla, C. Visualization of the chemical space in drug discovery. Curr Comput Aided-Drug Des. 4 (4), 322-333 (2008).
Osolodkin, D. I., Radchenko, E. V., Orlov, A. A., Voronkov, A. E., Palyulin, V. A., Zefirov, N. S. Progress in visual representations of chemical space. Expert Opin Drug Discov. 10 (9), 959-973 (2015).
Sheridan, R. P., Kearsley, S. K. Why do we need so many chemical similarity search methods. Drug Discov Today. 7 (17), 903-911 (2002).
Singh, N., Guha, R., Giulianotti, M. A., Pinilla, C., Houghten, R. A., Medina-Franco, J. L. Chemoinformatic analysis of combinatorial libraries, drugs, natural products, and molecular libraries Small Molecule Repository. J Chem Inf Model. 49 (4), 1010-1024 (2009).
Medina-Franco, J. L., Chávez-Hernández, A. L., López-López, E., Saldívar-González, F. I. Chemical multiverse: An expanded view of chemical space. Mol Inform. 41 (11), e2200116(2022).

Access restricted. Please log in or start a trial to view this content.

Nachdrucke und Genehmigungen

Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden

Genehmigung beantragen

Visualisierung und Analyse des chemischen Raums von Naturstoffdatenbanken für die Wirkstoffforschung

In diesem Artikel

Zusammenfassung

Zusammenfassung

Einleitung

Protokoll

Ergebnisse

Diskussion

Offenlegungen

Danksagungen

Materialien

Referenzen

Nachdrucke und Genehmigungen

Weitere Artikel entdecken