我们的协议展示了开源软件如何允许任何研究人员创建和策划计算结构库。该协议的吸引力来自其开放性和灵活性。任何人都可以使用它并对其进行修改,以适应他们特定的研究问题。
该协议的版本可以应用于药物发现应用,快速创建用于计算机筛选的特定结构库。虽然协议是逐步解释的,但如果用户不熟悉Java或基本编码,他们可以在实现协议之前先查看这些。首先为项目创建一个新目录。
将所有文件和可执行文件放在此目录中,以便于访问。下载最新版本的迈根作为 jar 文件和软件包管理软件 Anaconda。在Windows系统上,搜索“Anaconda”提示符,然后单击生成的快捷方式以运行。
要在 Anaconda 中创建 RDKit 环境并将 RDKit 下载到该环境中,请键入屏幕上显示的命令,按 Enter 键运行,并对安装过程中出现的任何问题回答“是”。然后从补充文件(一到五个)下载基板图案的 Jupyter 笔记本和文本文件。在命令提示符下,导航到包含 maygen 的目录。
jar 可执行文件。对于感兴趣的每个化学公式,请使用屏幕上显示的命令来运行Maygen。如果公式是模糊公式而不是离散公式,请将连字符 F 标志替换为连字符模糊标志,并将所有元素间隔括在方括号中。
在“Anaconda”提示符下,导航到包含 Jupyter 笔记本的文件夹并激活 RDKit 环境。下载的笔记本需要 RDKIT。因此,将来在该协议中使用它们都需要在RDKit环境中打开它们。
接下来,打开 Jupyter 笔记本进行子结构筛选,如果文件名包含空格,则将其括在引号中。在笔记本开头的指定单元格中,输入输入 sdf 文件的完整文件路径。所需 sdf 输出文件的完整文件路径和字符串形式的坏列表文件的文件路径。
如果需要保留过滤库中的某些子结构或良好的列表,请为这些子结构创建 SMARTS 模式的 txt 文件,并将良好的列表文件路径放在笔记本开头的指定行中。从顶部的菜单中选择内核,重新启动并运行所有内核以重新启动笔记本内核并运行所有单元。将在指定的输出文件夹中创建具有所需名称的 sdf 文件。
对 Maygen 生成的每个结构文件重复这些步骤。要进行伪原子替换,请打开“Anaconda”提示符,导航到包含 Jupyter 笔记本的文件夹,然后激活 RDKit 环境。然后打开 Jupyter 笔记本进行伪原子替换。
在笔记本开头的指定单元格中,输入输入 sdf 文件的完整文件路径和所需 sdf 输出文件的完整文件路径作为字符串。重新启动笔记本内核并运行所有单元,以在指定的输出文件夹中获取具有所需名称的 sdf 文件。同样,打开蟒蛇提示,获取氨基酸 N 和 C 末端封端。
导航到包含 Jupyter 笔记本的文件夹并激活 RDKit 环境。打开 Jupyter 笔记本进行氨基酸封盖。在笔记本开头的指定单元格中,输入输入 sdf 文件的完整文件路径和所需 sdf 输出文件的完整文件路径作为字符串。
重新启动笔记本内核并运行所有单元,以在指定的输出文件夹中获取具有所需名称的 sdf 文件。对于描述符生成,将要计算其描述符的所有 sdf 文件放在一个文件夹中。然后下载 PaDEL 描述符,将其解压缩并将其解压缩到该文件夹。
打开命令提示符,导航到包含 PaDEL 描述符 jar 文件的文件夹,然后对收集的 sdf 文件运行 PaDEL 描述符。此处显示了所有过滤氨基酸库的化学空间。黑色标记表示来自不含硫的文库中的氨基酸,黄色标记表示来自富硫文库的氨基酸。
在这里,VAIL 和VAIL_S库由圆圈表示。DEST 和DEST_S库由正方形表示。脯氨酸和Pro S文库由三角形表示,星号表示编码氨基酸。
可能的对数 P 值的范围随着分子体积的增加而增加,即使在明显缺乏亲水性侧链的文库中也是如此。具有烃侧链的编码氨基酸比其各自文库中体积相当的大多数其他氨基酸更具疏水性。与VAILS图书馆中具有类似卷的其他成员相比,蛋氨酸坚持也是如此。
具有羟基侧链的编码氨基酸是DEST库中最小的成员之一,天冬氨酸仅略大于三个堀呤。所表示的图像显示了含硫和无硫的文库的平均范德华体积。硫取代导致所有文库中的分子体积略有增加。
此处显示了含硫和不含硫的文库的平均分配系数值。硫取代对对数 P 的影响不如体积均匀。代表性图像显示了三价伪原子对Maygen结构生成的影响。
在结构生成中使用伪原子将生成这些结构所需的总时间内生成的结构数量减少了大约三个数量级,减少了一到两个数量级。遵循该协议,将来可以根据研究人员的需求集成其他功能。例如,可以将子结构过滤器集成到Maygen中,以避免后处理步骤。
库生成、策展和修改。这种一般过程可以通过一些编码知识来适应其他分子结构和修饰,这将使研究人员能够探索α氨基酸以外的计算库。该协议将帮助研究人员增强他们在生命起源领域的计算工作。
开源工具包将极大地帮助这些努力。