Наш протокол демонстрирует, как программное обеспечение с открытым исходным кодом может позволить любому исследователю создать и курировать библиотеку вычислительной структуры. Эта апелляция к протоколам исходит из его открытости и гибкости. Любой может использовать его и модифицировать в соответствии со своим конкретным исследовательским вопросом.
Версии этого протокола могут быть применены к приложениям для обнаружения лекарств, быстро создавая специальные структурные библиотеки для скрининга in silico. Хотя протокол объясняется шаг за шагом, если пользователи не знакомы с Java или базовым кодированием, они могут сначала взглянуть на них перед реализацией протокола. Начните с создания нового каталога для проекта.
Поместите все файлы и исполняемые файлы в этот каталог для легкого доступа. Загрузите последнюю версию Maygen в виде jar-файла и программного обеспечения для управления пакетами Anaconda. В системах Windows найдите подсказку Anaconda и нажмите на полученный ярлык для запуска.
Чтобы создать среду RDKit в Anaconda и загрузить RDKit в среду, введите команду, показанную на экране, нажмите клавишу ВВОД, чтобы запустить и ответить «да» на любые вопросы, возникающие во время установки. Затем загрузите записные книжки Jupyter и текстовые файлы шаблонов подложки из дополнительных файлов, от одного до пяти. В командной строке перейдите в каталог, содержащий maygen.
исполняемый файл jar. Для каждой интересующей химической формулы используйте команду, показанную на экране, чтобы запустить Maygen. Если формула является нечеткой формулой, а не дискретной формулой, замените флаг дефиса F флагом нечеткого дефиса и заключите любые интервалы элементов в скобки.
В командной строке Anaconda перейдите в папку, содержащую записные книжки Jupyter, и активируйте среду RDKit. Для загруженных ноутбуков требуется RDKit. Таким образом, любое будущее использование их в этом протоколе потребует их открытия в среде RDKit.
Затем откройте записную книжку Jupyter для фильтрации подструктуры и закройте имя файла в кавычках, если оно содержит пробелы. В назначенной ячейке в начале записной книжки введите полный путь к входному sdf-файлу. Полный путь к нужному выходному файлу SDF и путь к файлу плохого списка в виде строк.
Если необходимо сохранить некоторые подструктуры в отфильтрованной библиотеке или хороший список, создайте txt-файл шаблонов SMARTS для этих подструктур и поместите путь к файлу хорошего списка в назначенную строку в начале записной книжки. В меню вверху выберите ядро, перезапустите и запустите все, чтобы перезапустить ядро ноутбука и запустить все ячейки. SDF-файл с нужным именем будет создан в указанной выходной папке.
Повторите эти шаги для каждого файла структуры, созданного Maygen. Для замены псевдоатома откройте приглашение Anaconda, перейдите в папку, содержащую записные книжки Jupyter, и активируйте среду RDKit. Затем откройте записную книжку Jupyter для замены псевдоатома.
В назначенной ячейке в начале записной книжки введите полный путь к входному sdf-файлу и полный путь к нужному выходному файлу sdf в виде строк. Перезапустите ядро записной книжки и запустите все ячейки, чтобы получить SDF-файл с нужным именем в указанной выходной папке. Аналогичным образом, откройте подсказку Анаконды для аминокислот N и C терминов.
Перейдите в папку, содержащую записные книжки Jupyter, и активируйте среду RDKit. Откройте блокнот Jupyter для укупорки аминокислот. В назначенной ячейке в начале записной книжки введите полный путь к входному sdf-файлу и полный путь к нужному выходному файлу sdf в виде строк.
Перезапустите ядро записной книжки и запустите все ячейки, чтобы получить SDF-файл с нужным именем в указанной выходной папке. Для генерации дескриптора поместите все SDF-файлы, для которых дескрипторы должны быть вычислены, в одну папку. Затем загрузите дескриптор PaDEL, распакуйте его и извлеките в эту папку.
Откройте командную строку, перейдите в папку, содержащую JAR-файл дескриптора PaDEL, и запустите дескриптор PaDEL для собранных SDF-файлов. Здесь показано химическое пространство всех фильтрованных библиотек аминокислот. Черные маркеры представляют аминокислоты из библиотек без серы, а желтые маркеры представляют аминокислоты из библиотек, обогащенных серой.
Здесь библиотеки VAIL и VAIL_S представлены кругами. Библиотеки DEST и DEST_S представлены квадратами. Библиотеки Proline и Pro S представлены треугольниками, а звезды представляют закодированные аминокислоты.
Диапазон возможных значений log P увеличивается с молекулярным объемом даже в библиотеках, в которых явно отсутствуют гидрофильные боковые цепи. Кодированные аминокислоты с углеводородными боковыми цепями более гидрофобны, чем большинство других аминокислот сопоставимого объема из их соответствующей библиотеки. Это также относится к метионину, настаивающему на сравнении с другими членами библиотеки VAILS с аналогичными томами.
Кодированные аминокислоты с гидроксильными боковыми цепями были одними из самых маленьких членов библиотеки DEST с аспарагиновой кислотой, лишь немного превышающей три анина. На представленном изображении показаны средние тома библиотек Ван-дер-Ваала с серой и без серы. Замещение серы привело к небольшому увеличению молекулярного объема во всех библиотеках.
Здесь показаны средние значения коэффициента разбиения библиотек с серой и без нее. Влияние замещения серы на log P не так однородно, как для объема. Репрезентативное изображение показывает влияние трехвалентного псевдоатома на генерацию структуры Майгена.
Использование псевдоатома в генерации структур уменьшило количество структур, генерируемых примерно на три порядка за общее время, необходимое для создания этих структур, на один-два порядка. Следуя этому протоколу, дополнительные функциональные возможности могут быть интегрированы в будущем на основе потребностей исследователей. Например, можно интегрировать фильтры подструктуры в Maygen, чтобы избежать этапа постобработки.
Генерация, курирование и модификация библиотек. Этот общий процесс может вместить другие молекулярные структуры и модификации с некоторыми знаниями кодирования, что позволит исследователям исследовать вычислительные библиотеки, выходящие за рамки библиотек альфа-аминокислот. Этот протокол поможет исследователям улучшить свою вычислительную работу в области происхождения жизни.
Инструментарий с открытым исходным кодом будет в значительной степени способствовать этим усилиям.