Method Article
Целью этого протокола является эффективное создание и курирование библиотек структуры малых молекул с использованием программного обеспечения с открытым исходным кодом.
Исчерпывающая генерация молекулярных структур имеет многочисленные химические и биохимические применения, такие как разработка лекарств, построение молекулярных баз данных, исследование альтернативных биохимий и многое другое. Математически говоря, это графовые генераторы с химическими ограничениями. В полевых условиях наиболее эффективным генератором в настоящее время (MOLGEN) является коммерческий продукт, ограничивающий его использование. Альтернативой этому является другой генератор молекулярной структуры, MAYGEN, является недавним инструментом с открытым исходным кодом с эффективностью, сопоставимой с MOLGEN, и способностью пользователей повышать его производительность за счет добавления новых функций. Одной из областей исследований, которые могут извлечь выгоду из этого развития, является астробиология; Структурные генераторы позволяют исследователям дополнять экспериментальные данные вычислительными возможностями для альтернативной биохимии. Этот протокол подробно описывает один из вариантов использования генерации структуры в астробиологии, а именно генерацию и курирование библиотек альфа-аминокислот. Используя генераторы структур с открытым исходным кодом и инструменты хеминформатики, описанные здесь практики могут быть реализованы за пределами астробиологии для недорогого создания и курирования библиотек химических структур для любого исследовательского вопроса.
Генерация молекулярной структуры служит практическим применением общей проблемы генерации исчерпывающих графов; Учитывая несколько узлов (атомов) и ограничения на их связность (например, валентности, кратности связей, желаемые/нежелательные подструктуры), сколько связанных графов (молекул) возможно? Структурные генераторы нашли широкое применение в открытии лекарств и фармацевтических разработках, где они могут создавать обширные библиотеки новых структур для скрининга in silico 1.
Первый генератор структуры, CONGEN, был разработан для первого проекта искусственного интеллекта в органической химии, DENDRAL2 (сокращение от DENDRitic ALgorithm). В литературе сообщалось о нескольких программных преемниках DENDRAL; однако не все из них были сохранены или эффективны. В настоящее время MOLGEN3 является современным генератором молекулярной структуры. К сожалению для большинства потенциальных пользователей, он является закрытым исходным кодом и требует лицензионного сбора. Таким образом, возникла потребность в эффективном генераторе структуры с открытым исходным кодом, который может легко адаптироваться к конкретным приложениям. Одной из проблем для эффективного генератора структуры является управление комбинаторным взрывом; по мере увеличения размера молекулярной формулы размер пространства химического поиска увеличивается экспоненциально. Недавний обзор дополнительно исследует историю и проблемы молекулярной структуры поколения4.
До 2021 года генератор параллельных молекул (PMG)5 был самым быстрым генератором структуры с открытым исходным кодом, но он все еще был медленнее, чем MOLGEN на порядки. MAYGEN6 примерно в 47 раз быстрее, чем PMG и примерно в 3 раза медленнее, чем MOLGEN, что делает MAYGEN самым быстрым и эффективным генератором структуры с открытым исходным кодом. Более подробные сравнения и сравнительные тесты можно найти в статье, представляющей MAYGEN6. Ключевой особенностью программы является ее лексикографический тест на основе упорядочения канонических структур, метод упорядоченной генерации графов, основанный на алгоритме Шрайера-Симса7 . Программное обеспечение может быть легко интегрировано в другие проекты и улучшено для нужд пользователей.
Как и MOLGEN и PMG, MAYGEN принимает определяемую пользователем молекулярную формулу и генерирует все структуры, возможные для этой формулы. Например, если пользователь запустит MAYGEN с формулой C5H12, MAYGEN сгенерирует все возможные структуры, содержащие пять атомов углерода и двенадцать атомов водорода. В отличие от своего аналога с открытым исходным кодом PMG, MAYGEN также может вместить «нечеткие» молекулярные формулы, которые используют интервалы вместо дискретных чисел для подсчета каждого элемента. Например, если пользователь запустит MAYGEN с формулой C5-7H12-15, MAYGEN сгенерирует все возможные структуры, которые содержат от пяти до семи атомов углерода и двенадцать и пятнадцать атомов водорода, что позволит просто генерировать структуры с широким диапазоном атомных составов.
Астробиология является одной из таких областей, которая может извлечь выгоду из генераторов молекулярной структуры. Популярной темой в астробиологии является эволюция аминокислотного алфавита, разделяемого всей существующей жизнью на Земле. Одной из определяющих особенностей последнего универсального общего предка (LUCA) является использование двадцати генетически закодированных аминокислот для построения белка 8,9. Основываясь на мета-анализе работы в нескольких областях 10,11,12, примерно 10 из этих аминокислот (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) легко образуются в абиотических условиях и, вероятно, составляют аминокислотный алфавит организмов до LUCA. Со временем этот «ранний» алфавит был расширен в ответ на различные структурные и функциональные потребности. Например, в недавнем обзоре Moosmann13 утверждается, что добавление более поздних членов генетически закодированных аминокислот (а именно Met, Tyr и Trp) позволило выжить в богатых кислородом средах, предотвращая внутриклеточную пролиферацию активных форм кислорода.
Постоянно растущий набор методов аналитической химии позволяет понять аминокислотные структуры, которые могут образовываться в абиотических условиях. В недавнем обзоре14 Симкуса и других подробно описываются методы, используемые для обнаружения многочисленных органических соединений в метеоритах, а также органических соединений из моделирования in vitro ранних сред Земли 15,16,17. Систематическая генерация химических структур позволяет исследователям исследовать за пределами органических соединений, обнаруженных с помощью приборов, заполняя структурное пространство вокруг структурных «островов», идентифицированных аналитической химией. В случае «ранних» аминокислот эта систематическая генерация структуры показывает возможную химию белка, доступную для ранней жизни, не ограничивая исследование структурами, которые были экспериментально обнаружены в условиях абиотического синтеза. С инструментами хеминформатики с открытым исходным кодом и эффективными генераторами структур, такими как MAYGEN, создание и изучение новых библиотек химических структур теперь проще, чем когда-либо прежде, и может направлять более подробные исследования альтернативных химических веществ жизни.
ПРИМЕЧАНИЕ: См. Рисунок 1 для краткого описания протокола и Таблицу материалов для получения подробной информации об используемом программном обеспечении.
Рисунок 1: Сводная блок-схема протокола. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
1. Загрузка программного обеспечения и файлов
ПРИМЕЧАНИЕ: Все программы бесплатны для индивидуального использования и могут быть запущены на персональном компьютере.
2. Генерация структуры с помощью MAYGEN
3. Фильтрующие соединения с нежелательными основаниями
4. (Необязательно) Дополнительные изменения структуры
ПРИМЕЧАНИЕ: Они выполняются в этом примере, но могут не понадобиться для курирования других библиотек.
5. Генерация дескрипторов
Библиотека | Формула | Дополнительные ограничения | «Ранние» кодированные аминокислоты | Время генерации (мс) | Структуры | ||||
Начальный | Последний | ||||||||
1 | Гли | C2Ч5NO2 | включить подструктуру Gly | Гли | 192 | 84 | 1 | ||
2 | СКЛОНЯТЬ | ПК0-3Ч3-9 | Валь, Ала, Иль, Лей | 172 | 70 | 22 | |||
3 | ДЕСТ | ПК0-3O1-2Ч3-5 | Жерех, Клей, Сер, Тр | 481 | 1928 | 254 | |||
4 | Профессионал | С2-5NO2Ч7-11 | Включить N-meGly или N-meAla подструктуру | Профессионал | 4035 | 79777 | 16 | ||
5 | VAIL_S | ЦОН0-2Ч3-7 | 122 | 65 | 31 | ||||
6 | DEST_S | ЦОН0-2О1-2Ч3 | 349 | 1075 | 79 | ||||
7 | Pro_S | C2-4СНО2Ч7-9 | Включить N-meGly или N-meAla подструктуру | 3999 | 75734 | 10 |
Таблица 1: Составные библиотеки, используемые в этом примере. Библиотеки, построенные из формул 1-4 (Gly, VAIL, DEST и Pro), основаны на ранее опубликованных нечетких формулах «ранних» кодированных аминокислот21, в то время как библиотеки, построенные из формул 5-7 (VAIL_S, DEST_S и Pro_S), основаны на вариантах формул 2-4, которые представляют собой двухвалентную серу, заменяющую один из атомов углерода. Количество структур отражает количество молекул, генерируемых MAYGEN для каждой формулы («Initial»), и количество молекул, оставшихся после фильтрации молекул с нежелательными подструктурами («Final»). Сокращения: VAIL = валин, аланин, изолейцин, лейцин; DEST = аспарагиновая кислота, глутаминовая кислота, серин, треонин; X_S = Двухвалентная сера заменяет один из атомов углерода в библиотеке X; N-meX = N-метилX.
Общие методы, приведенные выше, были применены к формулам, основанным на «ранних» кодированных аминокислотах, следуя процедуре Meringer et al.21 Структуры Badlist были взяты из этого же источника и преобразованы в строки SMARTS для легкого представления субструктурных паттернов. В этом примере не использовались две подструктуры badlist: структура 018 (CH 3-CH-N) соответствовала почти изомерам пролина, которые сами по себе не были нестабильными; структура 106 (R-C-C-OH, где R=аланиновая субструктура, присоединяющаяся к бета-углероду) соответствовала глутаминовой кислоте, кодированной аминокислоте. В дополнение к этим химическим формулам были созданы варианты с двухвалентной серой, занимающей место атома углерода и двух атомов водорода. По соображениям производительности некоторые из этих формул используют трехвалентный атом фосфора (например, «псевдоатом») в качестве заменителя бета-углерода подструктуры аланина. В таблице 1 перечислены библиотеки, созданные в этом примере, формулы, используемые для их создания, и количество соединений, содержащихся внутри. Названия библиотек основаны на кодированных аминокислотах, из которых они получены: либо с использованием 3-буквенной аббревиатуры (Gly = глицин, Pro = пролин), либо однобуквенной аббревиатуры (VAIL = Valine, Alanine, Isoleucine, Leucine; DEST = аспарагиновая кислота, глутаминовая кислота, серин, треонин). Суффикс «_S» указывает на то, что сера была заменена на углерод в формуле оригинальной библиотеки (например, VAIL_S построена с той же нечеткой формулой, что и VAIL, но с двухвалентной серой, заменяющей один из атомов углерода).
После генерации структуры с помощью MAYGEN полученные библиотеки фильтровали соединения, содержащие, по меньшей мере, одну подструктуру, содержащуюся в плохом списке. После этой фильтрации любые атомы фосфора были заменены подструктурой аланина. Затем были созданы «закрытые» версии всех структур, с ацетильной группой, добавленной к N-концу, и N-метиламидной группой, добавленной к С-концу. Это было сделано для устранения влияния на гидрофобность групп свободных аминов и карбоновых кислот в альфа-аминокислотной основе. PaDEL-Descriptor использовался для расчета XLogP для всех закрытых структур и расчета объема Ван-дер-Ваальса (VABC) для всех безрамочных структур.
На рисунке 2 показано химическое пространство отфильтрованных библиотек, как определено дескрипторами VABC и XLogP. Здесь диапазон возможных значений logP увеличивается с молекулярным объемом, даже в библиотеках, в которых отсутствуют явно гидрофильные боковые цепи (например, VAIL, Pro). Закодированные аминокислоты с углеводородными боковыми цепями были более гидрофобными, чем большинство других аминокислот сопоставимого объема из их соответствующей библиотеки. Это также, по-видимому, относится к Met and Cys по сравнению с другими членами библиотеки VAIL_S с аналогичными томами. Кодированные аминокислоты с гидроксильными боковыми цепями (Ser и Thr) были одними из самых маленьких членов библиотеки DEST, причем Asp лишь немного больше, чем Thr.
На рисунках 3 и 4 показано влияние на объем и logP, когда двухвалентная сера заменяет углерод в боковой цепи альфа-аминокислоты. Замещение серы привело к небольшому увеличению молекулярного объема во всех библиотеках (рисунок 3). Влияние замещения серы на logP не так однородно, как для объема (рисунок 4). Средний logP библиотеки VAIL_S немного ниже, чем у библиотеки VAIL, но этот эффект не наблюдается ни в одной из других пар библиотек (DEST и DEST_S, Pro и Pro_S).
На рисунке 5 количественно определено влияние на структурную генерацию псевдоатома, стоящего за общей подструктурой; здесь трехвалентный Р заменяет фрагмент аланина во время генерации структуры. Использование псевдоатома в генерации структур значительно уменьшило количество структур, генерируемых ~3 порядками величины (рисунок 5A), и общее время, необходимое для генерации этих структур, на 1-2 порядка (рисунок 5B).
Рисунок 2: Химическое пространство всех фильтрованных библиотек аминокислот. Черные маркеры представляют аминокислоты из библиотек без серы; желтые маркеры представляют аминокислоты из библиотек, обогащенных серой. Круги: VAIL и VAIL_S; квадраты: DEST и DEST_S; треугольники: Pro и Pro_S; звезды: кодированные аминокислоты. Обратите внимание, что две серосодержащие кодированные аминокислоты (Met и Cys) не считаются «ранними» аминокислотами, но присутствуют в библиотеке VAIL_S. Сокращения: XLogP = коэффициент разбиения; VAIL = валин, аланин, изолейцин, лейцин; DEST = аспарагиновая кислота, глутаминовая кислота, серин, треонин; X_S = Двухвалентная сера заменяет один из атомов углерода в библиотеке X. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Рисунок 3: Среднее значение томов ван дер Ваальса (в Å3) библиотек с серой и без нее. Черные полосы представляют средние объемы библиотек без серы (VAIL, DEST, Pro), в то время как желтые полосы представляют средние объемы серозамещенных версий этих библиотек (VAIL_S, DEST_S Pro_S). На панелях ошибок отображается стандартное отклонение. Сокращения: VAIL = валин, аланин, изолейцин, лейцин; DEST = аспарагиновая кислота, глутаминовая кислота, серин, треонин; X_S = Двухвалентная сера заменяет один из атомов углерода в библиотеке X. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Рисунок 4: Средние значения XLogP библиотек с серой и без нее. Черные полосы представляют библиотеки без серы (VAIL, DEST, Pro), в то время как желтые полосы представляют серозамещенные версии этих библиотек (VAIL_S, DEST_S, Pro_S). На панелях ошибок отображается стандартное отклонение. Сокращения: XLogP = коэффициент разбиения; VAIL = валин, аланин, изолейцин, лейцин; DEST = аспарагиновая кислота, глутаминовая кислота, серин, треонин; X_S = Двухвалентная сера заменяет один из атомов углерода в библиотеке X. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Рисунок 5: Влияние трехвалентного псевдоатома на генерацию структуры MAYGEN. Все тесты проводились на ПК с процессором Intel i7-7700HQ с тактовой частотой 2,8 ГГц, 16 ГБ оперативной памяти, отсутствием сохранения структур в файл и опцией -m для использования многопоточности. Тесты с использованием псевдоатома использовали нечеткие формулы, как описано в таблице 1. Для испытаний без псевдоатома использовались нечеткие формулы, аналогичные описанным в таблице 1 со следующими изменениями: P был заменен на N; количество углерода было увеличено на 3; количество водорода было увеличено на 7; количество кислорода было увеличено на 2. Черные полосы показывают библиотеки, сгенерированные псевдоатомом; серые полосы показывают библиотеки, созданные без псевдоатома. (A) Число структур, созданных с использованием нечетких формул, используемых для построения библиотек VAIL и DEST с трехвалентным фосфором, заменяющим подструктуру аланина, и без нее. (B) Время (в мс), необходимое для создания библиотек VAIL и DEST с трехвалентным фосфором, заменяющим подструктуру аланина, и без нее. Сокращения: VAIL = валин, аланин, изолейцин, лейцин; DEST = аспарагиновая кислота, глутаминовая кислота, серин, треонин. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Дополнительный файл 1: Блокнот для скрининга подструктуры. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.
Дополнительный файл 2: Образец плохого списка. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.
Дополнительный файл 3: Пример списка товаров. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.
Дополнительный файл 4: Блокнот для замены псевдоатомов. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.
Дополнительный файл 5: Блокнот для укупорки аминокислот. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.
Одной из особенностей «ранних» аминокислот является недостаток серы. Мета-анализы, упомянутые ранее, обычно считают, что серосодержащие кодированные аминокислоты (Cys и Met) были относительно поздними дополнениями к генетическому коду, выводы, подкрепленные отсутствием серосодержащих аминокислот в метеоритах и экспериментах с искровыми трубками. Однако сероорганические соединения легко обнаруживаются в кометах и метеоритах22, и повторный анализ экспериментов с искровыми трубками с использованием газа H2S обнаружил аминокислоты и другие органические соединения, содержащие серу16. При рассмотрении альтернативного аминокислотного алфавита стоит изучить тот, который обогащен серой.
В приведенном выше протоколе генерация структуры и фильтрация подструктур считаются критическими этапами; в зависимости от состава готовой библиотеки структуры, исследователю может потребоваться только выполнить эти два шага. Инструкции и программное обеспечение для дополнительных действий (замена псевдоатомов и добавление подструктур (в данном случае укупорка аминокислот)) включены для более релевантного расчета дескриптора (укупорка гарантирует, что на расчеты XLogP влияет боковая цепь, а не аминные или карбоксильные группы) и более быстрой генерации структуры с помощью псевдоатома, который более подробно обсуждается ниже. Кроме того, здесь выполняется расчет дескриптора как простой способ визуализации разнообразия генерируемых структур и сравнения эффектов обогащения серы в готовых библиотеках.
В то время как PaDEL-Дескриптор может вычислять тысячи молекулярных свойств, молекулярный объем (как рассчитанный объем Ван-дер-Ваальса) и коэффициент разделения (как XLogP) использовались здесь по двум различным причинам. Во-первых, эти два дескриптора измеряют молекулярные свойства (размер и гидрофобность соответственно), которые знакомы большинству химиков и биологов. Во-вторых, в случае аминокислот эти два свойства являются значительными. В течение десятилетий было известно, что размер аминокислот и гидрофобность влияют на термодинамику сворачивания белка23. Эти два свойства помогают объяснить частоты замещения аминокислот, которые были неотъемлемой частью понимания эволюции белка24.
Приведенный выше пример показывает, что в двух изученных дескрипторах (молекулярный объем и гидрофобность) замена двухвалентной серы на углерод и два водорода не дает существенных изменений. Незначительное, незначительное увеличение среднего молекулярного объема от замещения серы (рисунок 3) может быть связано с большим ковалентным радиусом серы (~ 103 пм) по сравнению с sp3 (~ 75 pm) илиsp2 (~ 73 pm) углерода25. Аналогичным образом, замещение серы оказывает минимальное влияние на среднее значение XLogP (рисунок 4). Наибольший эффект был между библиотеками VAIL и VAIL_S, вероятно, из-за того, что сочетание библиотеки VAIL было особенно гидрофобным (боковые цепи являются только углеводородами), а сульфгидрильные группы были гораздо более кислыми, чем метильные группы, которые они заменили бы. Минимальный эффект замещения серы очевиден на рисунке 2, где библиотеки с замещением серы занимают то же химическое пространство, что и аналогичные библиотеки без замещения серы.
Уменьшение количества структур (рисунок 5A) и времени, необходимого для генерации этих структур (рисунок 5B) при использовании псевдоатома, неудивительно. Использование псевдоатома уменьшает количество тяжелых атомов, которые необходимо включить в химический граф, уменьшая количество узлов графа и приводя к экспоненциальному сокращению времени генерации и числа структур. Здесь выбор трехвалентного фосфора в качестве псевдоатома проистекает из основной биохимии (отсутствие посттрансляционного добавления фосфатных групп, ни одна генетически закодированная аминокислота не содержит фосфора) и валентность атома, который бы его заменил (трехвалентный фосфор может быть легко заменен четырехвалентным углеродом, который отдельно связан с другим атомом или группой атомов). Хотя предоставленный код для замещения псевдоатомов специфичен для замены трехвалентного фосфора аланиновой субструктурой, пользователи могут настроить код для работы с различными псевдоатомами или замещающими подструктурами, потенциально используя несколько псевдоатомов во время первоначальной генерации структуры с последующей заменой каждого псевдоатома более крупной молекулярной подструктурой.
Методы генерации структуры, аналогичные тем, которые используются MAYGEN (и другими методами, такими как нейронные сети), уже используются в открытии лекарств для создания библиотек соединений для скрининга in silico ; в недавнем обзоре4 эти методы рассматриваются более подробно. Поскольку эти методы предназначены в первую очередь для создания лекарственно-подобных молекул, существуют некоторые ограничения на их способность генерировать молекулы, такие как использование биологических или фармацевтических свойств для ограничения создаваемых структур (обратный QSPR / QSAR) или создание структур из заданного числа строительных блоков подструктуры. Поскольку астробиология больше сосредоточена на множестве органических соединений, которые могут образовываться абиотически, и меньше на любых конечных продуктах или их свойствах, исчерпывающая генерация структур MAYGEN идеально подходит для создания структурных библиотек для решения астробиологических вопросов. Описанный здесь подход к фильтрации подструктур (выполняемый после генерации структуры с помощью внешней программы) отличается от программы конкурента MOLGEN тем, что фильтрация подструктуры MOLGEN происходит во время генерации структуры. Поскольку MAYGEN является открытым исходным кодом, он не только более доступен, чем MOLGEN, из-за стоимости лицензирования MOLGEN, но и отдельные лица могут внедрять новые функции, такие как фильтрация подструктур во время генерации структуры.
Как написано, протокол, описанный здесь, ориентирован на генерацию и курирование библиотек относительно небольших альфа-аминокислот. Для создания различных библиотек пользователи могут давать различные молекулярные формулы MAYGEN, изменять фильтрацию подструктуры, изменяя максимально допустимый размер кольца и валентность связи, или редактировать файлы goodlist и badlist для добавления или удаления шаблонов подструктуры. Модификации протокола, которые включают изменение способа добавления или замены атомов и подструктур (замена псевдоатомов и молекулярное ограничение), возможны, но потребуют большего внимания к валентным ограничениям, чтобы избежать ошибок RDKit о неправильных валентностях в модифицированных структурах.
Протокол, описанный выше, предназначен для малых альфа-аминокислот. Однако общий формат (комплексная генерация структуры с использованием псевдоатомов с последующей фильтрацией субструктур и молекулярными модификациями) является очень гибким для соединений, выходящих за рамки небольших аминокислот. Даже в астробиологии аналогичная недавняя процедура с использованием MOLGEN использовалась для исследования конституциональных изомеров нуклеиновых кислот26. В дополнение к инструментам, описанным выше, MAYGEN может быть сопряжен с другими инструментами хеминформатики с открытым исходным кодом, чтобы сделать создание и анализ новых химических структур доступными и доступными для широкого спектра областей исследований.
У авторов нет конфликта интересов для раскрытия.
MAY признает финансирование со стороны Фонда Carl-Zeiss. Все рисунки были сгенерированы с помощью Microsoft Excel.
Name | Company | Catalog Number | Comments |
conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
Java 17 | https://java.com/en/download/help/download_options.html | ||
MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
python v. 3.7.11 | included in Anaconda environment | ||
RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, or installed via conda: https://anaconda.org/rdkit/rdkit | ||
*These specific versions were used for this manuscript; user can obtain more recent versions if available. |
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены