Notre protocole démontre comment un logiciel open source peut permettre à n’importe quel chercheur de créer et d’organiser une bibliothèque de structure de calcul. Cet attrait des protocoles vient de son ouverture et de sa flexibilité. N’importe qui peut l’utiliser et le modifier en fonction de sa question de recherche spécifique.
Les versions de ce protocole peuvent être appliquées aux applications de découverte de médicaments, créant rapidement des bibliothèques de structures spécifiques pour le dépistage in silico. Bien que le protocole soit expliqué étape par étape, si les utilisateurs ne sont pas familiers avec Java ou le codage de base, ils peuvent d’abord les examiner avant d’implémenter le protocole. Commencez par créer un nouveau répertoire pour le projet.
Placez tous les fichiers et exécutables dans ce répertoire pour un accès facile. Téléchargez la dernière version de Maygen sous forme de fichier jar et le logiciel de gestion de paquets Anaconda. Sur les systèmes Windows, recherchez l’invite Anaconda et cliquez sur le raccourci résultant pour l’exécuter.
Pour créer un environnement RDKit dans Anaconda et télécharger le RDKit dans l’environnement, tapez la commande affichée à l’écran, appuyez sur Entrée pour exécuter et répondre oui à toutes les questions qui se posent pendant l’installation. Ensuite, téléchargez les blocs-notes Jupyter et les fichiers texte des motifs de substrat à partir des fichiers supplémentaires, un à cinq. Dans l’invite de commandes, accédez au répertoire contenant le maygen.
fichier exécutable jar. Pour chaque formule chimique d’intérêt, utilisez la commande affichée à l’écran pour exécuter Maygen. Si la formule est une formule floue au lieu d’une formule discrète, remplacez l’indicateur F du trait d’union par un indicateur flou du trait d’union et placez les intervalles d’éléments entre parenthèses.
Dans une invite Anaconda, accédez au dossier contenant les blocs-notes Jupyter et activez l’environnement RDKit. Les blocs-notes téléchargés nécessitent RDKit. Ainsi, toute utilisation future de ce protocole nécessitera qu’ils soient ouverts dans l’environnement RDKit.
Ensuite, ouvrez le bloc-notes Jupyter pour le filtrage de sous-structure et fermez le nom de fichier entre guillemets s’il contient des espaces. Dans la cellule désignée au début du bloc-notes, entrez le chemin d’accès complet du fichier sdf d’entrée. Le chemin d’accès complet du fichier de sortie sdf souhaité et le chemin d’accès au fichier de liste incorrecte sous forme de chaînes.
Si certaines sous-structures de la bibliothèque filtrée ou une bonne liste doivent être conservées, créez un fichier txt de modèles SMARTS pour ces sous-structures et placez le chemin du fichier de bonne liste dans la ligne désignée au début du bloc-notes. Dans le menu en haut, sélectionnez noyau, redémarrez et exécutez tout pour redémarrer le noyau du bloc-notes et exécuter toutes les cellules. Un fichier sdf avec le nom souhaité sera créé dans le dossier de sortie spécifié.
Répétez ces étapes pour chaque fichier de structure généré par Maygen. Pour le remplacement de pseudo-atomes, ouvrez une invite Anaconda, accédez au dossier contenant les blocs-notes Jupyter et activez l’environnement RDKit. Ouvrez ensuite le bloc-notes Jupyter pour le remplacement du pseudo-atome.
Dans la cellule désignée au début du bloc-notes, entrez le chemin d’accès complet du fichier sdf d’entrée et le chemin d’accès complet du fichier de sortie sdf souhaité sous forme de chaînes. Redémarrez le noyau du bloc-notes et exécutez toutes les cellules pour obtenir un fichier sdf avec le nom souhaité dans le dossier de sortie spécifié. De même, ouvrez une invite Anaconda pour le plafonnement des acides aminés N et C termini.
Accédez au dossier contenant les blocs-notes Jupyter et activez l’environnement RDKit. Ouvrez le Jupyter Notebook pour le recouvrement des acides aminés. Dans la cellule désignée au début du bloc-notes, entrez le chemin d’accès complet du fichier sdf d’entrée et le chemin d’accès complet du fichier de sortie sdf souhaité sous forme de chaînes.
Redémarrez le noyau du bloc-notes et exécutez toutes les cellules pour obtenir un fichier sdf avec le nom souhaité dans le dossier de sortie spécifié. Pour la génération de descripteurs, placez tous les fichiers sdf pour lesquels les descripteurs doivent être calculés dans un seul dossier. Ensuite, téléchargez le descripteur PaDEL, décompressez-le et extrayez-le dans ce dossier.
Ouvrez une invite de commandes, accédez au dossier contenant le fichier jar du descripteur PaDEL et exécutez le descripteur PaDEL pour les fichiers sdf collectés. L’espace chimique de toutes les bibliothèques d’acides aminés filtrés est montré ici. Les marqueurs noirs représentent les acides aminés des bibliothèques sans soufre et les marqueurs jaunes représentent les acides aminés des bibliothèques enrichies en soufre.
Ici, les bibliothèques VAIL et VAIL_S sont représentées par des cercles. Les bibliothèques DEST et DEST_S sont représentées par des carrés. Les bibliothèques Proline et Pro S sont représentées par des triangles et les étoiles représentent des acides aminés codés.
La plage de valeurs log P possibles augmente avec le volume moléculaire, même dans les bibliothèques qui manquent explicitement de chaînes latérales hydrophiles. Les acides aminés codés avec des chaînes latérales d’hydrocarbures sont plus hydrophobes que la plupart des autres acides aminés d’un volume comparable de leur bibliothèque respective. C’est également le cas pour la méthionine insistante par rapport à d’autres membres de la bibliothèque VAILS avec des volumes similaires.
Les acides aminés codés avec des chaînes latérales hydroxyles étaient parmi les plus petits membres de la bibliothèque DEST avec de l’acide aspartique à peine plus grand que trois anines. L’image représentée montre les volumes moyens de Van der Waal de bibliothèques avec et sans soufre. La substitution du soufre a entraîné une légère augmentation du volume moléculaire dans toutes les bibliothèques.
Les valeurs moyennes du coefficient de partage des bibliothèques avec et sans soufre sont indiquées ici. L’effet de la substitution du soufre sur le log P n’est pas aussi homogène que pour le volume. L’image représentative montre les effets d’un pseudoatome trivalent sur la génération de la structure de Maygen.
L’utilisation d’un pseudoatome dans la génération de structures a réduit le nombre de structures générées d’environ trois ordres de grandeur dans le temps total nécessaire pour générer ces structures d’un à deux ordres de grandeur. En suivant ce protocole, des fonctionnalités supplémentaires pourront être intégrées à l’avenir en fonction des besoins des chercheurs. Par exemple, on pourrait intégrer des filtres de sous-structure dans Maygen pour éviter l’étape de post-traitement.
Génération, curation et modification de bibliothèques. Ce processus général peut s’adapter à d’autres structures moléculaires et modifications avec quelques connaissances en codage, ce qui permettra aux chercheurs d’explorer des bibliothèques informatiques au-delà de celles des acides aminés alpha. Ce protocole aidera les chercheurs à améliorer leur travail informatique dans le domaine des origines de la vie.
Les boîtes à outils open source contribueront grandement à ces efforts.