Method Article
Celem tego protokołu jest efektywne generowanie i zarządzanie bibliotekami struktur małych cząsteczek za pomocą oprogramowania open-source.
Wyczerpujące generowanie struktur molekularnych ma liczne zastosowania chemiczne i biochemiczne, takie jak projektowanie leków, budowa molekularnych baz danych, eksploracja alternatywnych biochemii i wiele innych. Matematycznie rzecz biorąc, są to generatory grafów z ograniczeniami chemicznymi. W tej dziedzinie najbardziej wydajnym obecnie generatorem (MOLGEN) jest produkt komercyjny, co ogranicza jego zastosowanie. Alternatywnie do tego, inny generator struktury molekularnej, MAYGEN, jest najnowszym narzędziem typu open source o wydajności porównywalnej z MOLGEN i zdolnością użytkowników do zwiększania jego wydajności poprzez dodawanie nowych funkcji. Jedną z dziedzin badań, które mogą skorzystać na tym rozwoju, jest astrobiologia; Generatory struktur umożliwiają naukowcom uzupełnianie danych eksperymentalnych o możliwości obliczeniowe dla alternatywnej biochemii. Protokół ten szczegółowo opisuje jeden przypadek użycia do generowania struktur w astrobiologii, a mianowicie generowania i selekcjonowania bibliotek alfa-aminokwasów. Korzystając z generatorów struktur typu open source i narzędzi cheminoinformatycznych, opisane tutaj praktyki mogą być wdrażane poza astrobiologię w celu taniego tworzenia i zarządzania bibliotekami struktur chemicznych dla dowolnego pytania badawczego.
Generowanie struktur molekularnych służy jako praktyczne zastosowanie ogólnego problemu wyczerpującego generowania grafów; biorąc pod uwagę kilka węzłów (atomów) i ograniczenia ich łączności (np. wartościowości, wielokrotności wiązań, pożądane/niepożądane podstruktury), ile połączonych grafów (molekuł) jest możliwych? Generatory struktur znalazły szerokie zastosowanie w odkrywaniu leków i rozwoju farmaceutycznym, gdzie mogą tworzyć ogromne biblioteki nowych struktur do badań przesiewowych in silico1.
Pierwszy generator struktur, CONGEN, został opracowany dla pierwszego projektu sztucznej inteligencji w chemii organicznej, DENDRAL2 (skrót od DENDRitic ALgorithm). W literaturze opisano kilka następców oprogramowania DENDRAL; Jednak nie wszystkie z nich były utrzymywane lub wydajne. Obecnie MOLGEN3 jest najnowocześniejszym generatorem struktur molekularnych. Niestety dla większości potencjalnych użytkowników jest to oprogramowanie o zamkniętym kodzie źródłowym i wymaga opłaty licencyjnej. W związku z tym zaistniała potrzeba wydajnego generatora struktur typu open source, który można łatwo dostosować do określonych zastosowań. Jednym z wyzwań stojących przed wydajnym generatorem struktur jest zarządzanie eksplozją kombinatoryczną; Wraz ze wzrostem rozmiaru wzoru cząsteczkowego wykładniczo zwiększa się rozmiar chemicznej przestrzeni wyszukiwania. Niedawny przegląd dokładniej bada historię i wyzwania związane z generowaniem struktur molekularnych4.
Przed 2021 rokiem, Parallel Molecule Generator (PMG)5 był najszybszym generatorem struktur open-source, ale nadal był wolniejszy od MOLGEN o rzędy wielkości. MAYGEN6 jest około 47 razy szybszy niż PMG i około 3 razy wolniejszy niż MOLGEN, co czyni MAYGEN najszybszym i najbardziej wydajnym generatorem struktur open-source dostępnym na rynku. Bardziej szczegółowe porównania i testy porównawcze można znaleźć w artykule wprowadzającym MAYGEN6. Kluczową cechą programu jest test oparty na porządkowaniu leksykograficznym dla struktur kanonicznych, uporządkowana metoda generowania grafów oparta na algorytmie Schreier-Sims7. Oprogramowanie można łatwo zintegrować z innymi projektami i ulepszyć zgodnie z potrzebami użytkowników.
Podobnie jak MOLGEN i PMG, MAYGEN bierze zdefiniowany przez użytkownika wzór molekularny i generuje wszystkie możliwe struktury dla tego wzoru. Na przykład, jeśli użytkownik uruchomi MAYGEN ze wzorem C5H12, MAYGEN wygeneruje wszystkie możliwe struktury zawierające pięć atomów węgla i dwanaście atomów wodoru. W przeciwieństwie do swojego odpowiednika PMG o otwartym kodzie źródłowym, MAYGEN może również obsługiwać "rozmyte" wzory molekularne, które używają interwałów zamiast dyskretnych liczb do liczenia każdego pierwiastka. Na przykład, jeśli użytkownik uruchomi MAYGEN ze wzorem C5-7H12-15, MAYGEN wygeneruje wszystkie możliwe struktury, które zawierają od pięciu do siedmiu atomów węgla i dwanaście do piętnastu atomów wodoru, co pozwala na proste generowanie struktur o szerokim zakresie składu atomowego.
Astrobiologia jest jedną z takich dziedzin, która może skorzystać z generatorów struktur molekularnych. Popularnym tematem w astrobiologii jest ewolucja alfabetu aminokwasów wspólnego dla całego istniejącego życia na Ziemi. Jedną z cech charakterystycznych Ostatniego Uniwersalnego Wspólnego Przodka (LUCA) jest użycie dwudziestu genetycznie kodowanych aminokwasów do budowy białek8,9. Na podstawie metaanaliz pracy w wielu dziedzinach10,11,12, około 10 z tych aminokwasów (Gly, Ala, Val, Asp, Glu, Ser, Thr, Leu, Ile, Pro) łatwo tworzy się w warunkach abiotycznych i prawdopodobnie tworzy alfabet aminokwasów organizmów pre-Luca. Z biegiem czasu ten "wczesny" alfabet został rozszerzony w odpowiedzi na różne potrzeby strukturalne i funkcjonalne. Na przykład, niedawna recenzja z Moosmann13 twierdzi, że dodanie nowszych członków genetycznie kodowanych aminokwasów (mianowicie Met, Tyr i Trp) pozwoliło na przetrwanie w środowisku bogatym w tlen, zapobiegając wewnątrzkomórkowej proliferacji reaktywnych form tlenu.
Stale rosnący zestaw technik chemii analitycznej pozwala na wgląd w struktury aminokwasów, które mogą powstawać w warunkach abiotycznych. Niedawny przegląd14 autorstwa Simkusa i innych szczegółowo opisuje metody używane do wykrywania licznych związków organicznych w meteorytach, a także związków organicznych z symulacji in vitro wczesnych środowisk Ziemi15,16,17. Systematyczne generowanie struktur chemicznych pozwala naukowcom na eksplorację poza związki organiczne wykryte za pomocą oprzyrządowania, wypełniając przestrzeń strukturalną wokół strukturalnych "wysp" zidentyfikowanych przez chemię analityczną. W przypadku "wczesnych" aminokwasów, to systematyczne generowanie struktur pokazuje możliwe chemie białek dostępne dla wczesnego życia, bez ograniczania eksploracji do struktur, które zostały eksperymentalnie wykryte w warunkach syntezy abiotycznej. Dzięki zestawom narzędzi chemicznych i wydajnym generatorom struktur, takim jak MAYGEN, tworzenie i eksplorowanie nowatorskich bibliotek struktur chemicznych jest teraz łatwiejsze niż kiedykolwiek wcześniej i może prowadzić bardziej szczegółowe badania nad alternatywnymi substancjami chemicznymi życia.
UWAGA: Zobacz Rysunek 1 dla podsumowania protokołu i Tabeli materiałów, aby uzyskać szczegółowe informacje na temat używanego oprogramowania.

Rysunek 1: Schemat blokowy podsumowania protokołu. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.
1. Pobieranie oprogramowania i plików
UWAGA: Wszystkie programy są darmowe do użytku indywidualnego i mogą być uruchamiane na komputerze osobistym.
2. Generowanie struktur za pomocą MAYGEN
3. Filtruj związki z niepożądanymi podstrukturami
4. (Opcjonalnie) Dodatkowe modyfikacje struktury
UWAGA: Są one wykonywane w tym przykładzie, ale mogą nie być potrzebne do zarządzania innymi bibliotekami.
5. Generowanie deskryptorów
| Biblioteka | Formuła | Dodatkowe ograniczenia | "Wczesne" zakodowane aminokwasy | Czas generacji (ms) | Struktury | ||||
| inicjał | finał | ||||||||
| 1 | Gly powiedział: | C2H5NIE2 | dołącz podkonstrukcję Gly | Gly powiedział: | Rozdział 192 | Rozdział 84 | 1 | ||
| cyfra arabska | Vail | PC0-3H3-9 | Val, Ala, Ile, Leu | 172 Rozdział 172 | 70 | 22 Rozdział 22 | |||
| 3 | DEST | PC0-3O1-2H3-5 | Boleń, Klej, Ser, Thr | Okręg wyborczy 481 | Rok 1928 | Rozdział 254 | |||
| 4 | pro | C2-5NIE2H7-11 | Uwzględnij podbudowę N-meGly lub N-meAla | pro | Numer katalogowy: 4035 | Numer telefonu 79777 | 16 | ||
| 5 | VAIL_S | PSC0-2H3-7 | 122 Rozdział 122 | 65 | Rozdział 31 | ||||
| 6 | DEST_S | PSC0-2O1-2H3 | Okręg wyborczy 349 | 1075 | 79 | ||||
| 7 | Pro_S | C2-4SNO2H7-9 | Uwzględnij podbudowę N-meGly lub N-meAla | Numer katalogowy: 3999 | Numer telefonu 75734 | 10 | |||
Tabela 1: Biblioteki złożone użyte w tym przykładzie. Biblioteki zbudowane ze wzorów 1-4 (Gly, VAIL, DEST i Pro) są oparte na wcześniej opublikowanych formułach rozmytych "wczesnych" kodowanych aminokwasów21, podczas gdy biblioteki zbudowane ze wzorów 5-7 (VAIL_S, DEST_S i Pro_S) są oparte na wariantach wzorów 2-4, które wyobrażają sobie dwuwartościową siarkę zastępującą jeden z atomów węgla. Liczba struktur odzwierciedla liczbę cząsteczek wygenerowanych przez MAYGEN dla każdej formuły ("Początkowej") oraz liczby cząsteczek pozostałych po odfiltrowaniu tych z niepożądanymi podstrukturami ("Końcowy"). Skróty: VAIL = walina, alanina, izoleucyna, leucyna; DEST = kwas asparaginowy, kwas glutaminowy, seryna, treonina; X_S = Siarka dwuwartościowa zastępuje jeden z atomów węgla w bibliotece X; N-meX = N-metyloX.
Ogólne metody powyżej zostały zastosowane do formuł opartych na "wczesnych" kodowanych aminokwasach, zgodnie z procedurą Meringer et al.21 Struktury Badlist zostały pobrane z tego samego źródła i przekształcone w ciągi SMARTS, aby łatwo reprezentować wzorce substrukturalne. W tym przykładzie nie użyto dwóch podstruktur z błędną listą: struktura 018 (CH 3-CH-N) dopasowała bliskie izomery proliny, które same w sobie nie były niestabilne; Struktura 106 (R-C-C-OH, gdzie R = podstruktura alaniny przyłączająca się do beta-węgla) pasowała do kwasu glutaminowego, zakodowanego aminokwasu. Oprócz tych wzorów chemicznych stworzono warianty z dwuwartościową siarką zajmującą miejsce atomu węgla i dwóch atomów wodoru. Ze względu na wydajność, kilka z tych wzorów wykorzystuje trójwartościowy atom fosforu (np. "pseudoatom") jako substytut węgla beta podstruktury alaniny. Tabela 1 zawiera listę bibliotek wygenerowanych w tym przykładzie, formuły użyte do ich wygenerowania oraz liczbę zawartych w nich związków. Nazwy bibliotek są oparte na zakodowanych aminokwasach, z których pochodzą: albo przy użyciu 3-literowego skrótu (Gly = glicyna, Pro = prolina), albo jednoliterowego skrótu (VAIL = walina, alanina, izoleucyna, leucyna; DEST = Kwas asparaginowy, Kwas glutaminowy, Seryna, Treonina). Przyrostek "_S" wskazuje, że siarka została podstawiona przez węgiel we wzorze oryginalnej biblioteki (np. VAIL_S jest zbudowany z tego samego rozmytego wzoru co VAIL, ale z dwuwartościową siarką zastępującą jeden z atomów węgla).
Po wygenerowaniu struktury za pomocą MAYGEN, wynikowe biblioteki zostały przefiltrowane ze związków zawierających co najmniej jedną podstrukturę zawartą na liście uszkodzonych. Po tym filtrowaniu wszelkie atomy fosforu zostały zastąpione podstrukturą alaniny. Następnie stworzono "zasklepione" wersje wszystkich struktur, z grupą acetylową dodaną do N-końca i grupą N-metylowo-amidową dodaną do C-końca. Miało to na celu usunięcie wpływu na hydrofobowość grup wolnych amin i kwasów karboksylowych w szkielecie alfa-aminokwasowym. Do obliczenia XLogP dla wszystkich struktur z ograniczeniem wykorzystano Deskryptor PaDEL, a dla wszystkich struktur nieograniczonych obliczono objętość van der Waalsa (VABC).
Rysunek 2 pokazuje przestrzeń chemiczną filtrowanych bibliotek, zgodnie z deskryptorami VABC i XLogP. W tym przypadku zakres możliwych wartości logP zwiększa się wraz z objętością cząsteczkową, nawet w bibliotekach, które nie mają wyraźnie hydrofilowych łańcuchów bocznych (np. VAIL, Pro). Kodowane aminokwasy z węglowodorowymi łańcuchami bocznymi były bardziej hydrofobowe niż większość innych aminokwasów o porównywalnej objętości z odpowiedniej biblioteki. Wydaje się, że tak jest również w przypadku Met i Cys w porównaniu z innymi członkami biblioteki VAIL_S o podobnych tomach. Kodowane aminokwasy z hydroksylowymi łańcuchami bocznymi (Ser i Thr) należały do najmniejszych członków biblioteki DEST, przy czym Asp był tylko nieznacznie większy od Thr.
Rysunek 3 i Rysunek 4 pokazuje wpływ na objętość i logP, gdy dwuwartościowa siarka zastępuje węgiel w łańcuchu bocznym alfa-aminokwasu. Substytucja siarki doprowadziła do nieznacznego wzrostu objętości molekularnej we wszystkich bibliotekach (Rysunek 3). Wpływ podstawienia siarki na logP nie jest tak jednorodny jak dla objętości (Rysunek 4). Średnia logP biblioteki VAIL_S jest nieco niższa niż w bibliotece VAIL, ale efekt ten nie jest widoczny w żadnej z pozostałych par bibliotek (DEST i DEST_S, Pro i Pro_S).
Rysunek 5 określa ilościowo wpływ na generowanie struktury pseudoatomu zastępującego wspólną podstrukturę; tutaj trójwartościowy P podstawiony przez ugrupowanie alaninowe podczas generowania struktury. Użycie pseudoatomu w generowaniu struktur znacznie zmniejszyło liczbę generowanych struktur o ~3 rzędy wielkości (Rysunek 5A) i całkowity czas potrzebny do wygenerowania tych struktur o 1-2 rzędy wielkości (Rysunek 5B).

Rysunek 2: Przestrzeń chemiczna wszystkich filtrowanych bibliotek aminokwasów. Czarne markery reprezentują aminokwasy z bibliotek bez siarki; Żółte znaczniki reprezentują aminokwasy z bibliotek wzbogaconych w siarkę. Kręgi: VAIL i VAIL_S; kwadraty: DEST i DEST_S; trójkąty: Pro i Pro_S; Gwiazdy: kodowane aminokwasy. Należy zauważyć, że dwa kodowane aminokwasy zawierające siarkę (Met i Cys) nie są uważane za "wczesne" aminokwasy, ale są obecne w bibliotece VAIL_S. Skróty: XLogP = współczynnik podziału; VAIL = walina, alanina, izoleucyna, leucyna; DEST = kwas asparaginowy, kwas glutaminowy, seryna, treonina; X_S = Siarka dwuwartościowa zastępuje jeden z atomów węgla w bibliotece X. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 3: Średnia liczba woluminów van der Waalsa (w Å3) bibliotek z siarką i bez siarki. Czarne słupki reprezentują średnie objętości bibliotek bez siarki (VAIL, DEST, Pro), podczas gdy żółte słupki reprezentują średnie objętości wersji tych bibliotek podstawionych siarką (VAIL_S, DEST_S, Pro_S). Słupki błędów pokazują odchylenie standardowe. Skróty: VAIL = walina, alanina, izoleucyna, leucyna; DEST = kwas asparaginowy, kwas glutaminowy, seryna, treonina; X_S = Siarka dwuwartościowa zastępuje jeden z atomów węgla w bibliotece X. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 4: Średnie wartości XLogP bibliotek z siarką i bez siarki. Czarne paski reprezentują biblioteki bez siarki (VAIL, DEST, Pro), podczas gdy żółte paski reprezentują wersje tych bibliotek podstawione siarką (VAIL_S, DEST_S, Pro_S). Słupki błędów pokazują odchylenie standardowe. Skróty: XLogP = współczynnik podziału; VAIL = walina, alanina, izoleucyna, leucyna; DEST = kwas asparaginowy, kwas glutaminowy, seryna, treonina; X_S = Siarka dwuwartościowa zastępuje jeden z atomów węgla w bibliotece X. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 5: Wpływ trójwartościowego pseudoatomu na generowanie struktury MAYGEN. Wszystkie testy zostały przeprowadzone na komputerze z procesorem Intel i7-7700HQ o częstotliwości 2,8 GHz, 16 GB pamięci RAM, brakiem zapisywania struktur do pliku i opcją -m do korzystania z wielowątkowości. W testach z użyciem pseudoatomu stosowano wzory rozmyte, jak opisano w tabeli 1. W przypadku testów bez pseudoatomu użyte wzory rozmyte były takie same, jak opisano w tabeli 1 z następującymi zmianami: P zastąpiono przez N; liczba węgla wzrosła o 3; liczba wodoru została zwiększona o 7; Liczba tlenu wzrosła o 2. Czarne paski pokazują biblioteki wygenerowane za pomocą pseudoatomu; Szare paski pokazują biblioteki wygenerowane bez pseudoatomu. (A) Liczba struktur wygenerowanych przy użyciu wzorów rozmytych użytych do budowy bibliotek VAIL i DEST z lub bez substytucji fosforu trójwartościowego dla podstruktury alaniny. (B) Czas (w ms) potrzebny do zbudowania bibliotek VAIL i DEST z i bez substytutu fosforu trójwartościowego w miejsce podstruktury alaniny. Skróty: VAIL = walina, alanina, izoleucyna, leucyna; DEST = kwas asparaginowy, kwas glutaminowy, seryna, treonina. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.
Plik uzupełniający 1: Notatnik do badania podbudowy. Kliknij tutaj, aby pobrać ten plik.
Plik uzupełniający 2: Przykładowa lista błędów. Kliknij tutaj, aby pobrać ten plik.
Plik uzupełniający 3: Przykładowa lista dobrych. Kliknij tutaj, aby pobrać ten plik.
Plik uzupełniający 4: Notatnik zastępujący pseudoatom. Kliknij tutaj, aby pobrać ten plik.
Plik uzupełniający 5: Notatnik z limitowaniem aminokwasów. Kliknij tutaj, aby pobrać ten plik.
Jedną z cech "wczesnych" aminokwasów jest brak siarki. Wspomniane wcześniej metaanalizy generalnie uważają, że kodowane aminokwasy zawierające siarkę (Cys i Met) były stosunkowo późnymi dodatkami do kodu genetycznego, a wnioski te potwierdza brak aminokwasów zawierających siarkę w meteorytach i eksperymentach z lampami zapłonowymi. Jednak związki siarkoorganiczne są łatwo wykrywalne w kometach i meteorytach22, a ponowna analiza eksperymentów z lampą iskrową z użyciem gazuH2Swykazała aminokwasy i inne związki organiczne zawierające siarkę16. Rozważając alternatywny alfabet aminokwasów, warto zapoznać się z tym wzbogaconym w siarkę.
W powyższym protokole generowanie struktury i filtrowanie podstruktury są uważane za kroki krytyczne; W zależności od składu gotowej biblioteki struktur, badacz może być zmuszony do wykonania tylko tych dwóch kroków. Instrukcje i oprogramowanie do dodatkowych działań (zastępowanie pseudoatomów i dodawanie podstruktur (w tym przypadku capping aminokwasów)) są dołączone w celu uzyskania bardziej odpowiednich obliczeń deskryptorowych (capping zapewnia, że na obliczenia XLogP ma wpływ łańcuch boczny, a nie grupy aminowe lub karboksylowe w szkielecie) oraz szybszego generowania struktury za pomocą pseudoatomu, co omówiono bardziej szczegółowo poniżej. Dodatkowo wykonywane są tutaj obliczenia deskryptorowe, które w łatwy sposób pozwalają na wizualizację różnorodności generowanych struktur i porównanie efektów wzbogacania siarką w gotowych bibliotekach.
Podczas gdy PaDEL-Descriptor może obliczyć tysiące właściwości molekularnych, objętość cząsteczkowa (obliczona objętość van der Waalsa) i współczynnik podziału (jako XLogP) zostały tutaj użyte z dwóch różnych powodów. Po pierwsze, te dwa deskryptory mierzą właściwości molekularne (odpowiednio rozmiar i hydrofobowość), które są znane większości chemików i biologów. Po drugie, w przypadku aminokwasów te dwie właściwości są znaczące. Przez dziesięciolecia wiadomo było, że wielkość aminokwasów i hydrofobowość wpływają na termodynamikę fałdowania białek23. Te dwie właściwości pomagają wyjaśnić częstotliwości podstawiania aminokwasów, które były integralną częścią zrozumienia ewolucji białek24.
Powyższy przykład pokazuje, że w dwóch badanych deskryptorach (objętość cząsteczkowa i hydrofobowość) podstawienie dwuwartościowej siarki na węgiel i dwa wodory nie powoduje istotnych zmian. Niewielki, nieistotny wzrost średniej objętości cząsteczkowej spowodowany podstawieniem siarki (ryc. 3) można przypisać większemu promieniowi kowalencyjnemu siarki (~103 pm) w porównaniu z węglem sp3 (~75 pm) lub sp2 (~73 pm)25. Podobnie, podstawienie siarki ma minimalny wpływ na średnią XLogP (ryc. 4). Największy efekt zaobserwowano między bibliotekami VAIL i VAIL_S, prawdopodobnie ze względu na połączenie biblioteki VAIL szczególnie hydrofobowej (łańcuchy boczne to tylko węglowodory) i grup sulfhydrylowych, które byłyby znacznie bardziej kwaśne niż grupy metylowe, które miałyby zastąpić. Minimalny efekt podstawiania siarki jest widoczny na rysunku 2, gdzie biblioteki z podstawieniem siarki zajmują tę samą przestrzeń chemiczną, co analogiczne biblioteki bez podstawiania siarki.
Zmniejszenie liczby struktur (Rysunek 5A) i czasu potrzebnego do wygenerowania tych struktur (Rysunek 5B) przy użyciu pseudoatomu nie jest zaskakujące. Użycie pseudoatomu zmniejsza liczbę ciężkich atomów, które muszą zostać włączone do wykresu chemicznego, zmniejszając liczbę węzłów grafu i powodując wykładnicze skrócenie czasu generowania i liczby struktur. W tym przypadku wybór fosforu trójwartościowego jako pseudoatomu wynika z podstawowej biochemii (brak potranslacyjnego dodawania grup fosforanowych, żadne genetycznie kodowane aminokwasy nie zawierają fosforu) oraz wartościowości atomu, który by go zastąpił (fosfor trójwartościowy można łatwo zastąpić czterowartościowym węglem, który jest pojedynczo związany z innym atomem lub grupą atomów). Podczas gdy dostarczony kod do podstawiania pseudoatomów jest specyficzny dla zastąpienia trójwartościowego fosforu podstrukturą alaniny, użytkownicy mogą dostosować kod do pracy z różnymi pseudoatomami lub podstrukturami zastępczymi, potencjalnie używając wielu pseudoatomów podczas początkowego generowania struktury, a następnie zastępując każdy pseudoatom większą podstrukturą molekularną.
Metody generowania struktur podobne do tych stosowanych w ramach projektu MAYGEN (i inne metody, takie jak sieci neuronowe) są już wykorzystywane w odkrywaniu leków do generowania bibliotek związków do badań przesiewowych in silico ; W niedawnym przeglądzie4 omówiono te metody bardziej szczegółowo. Ponieważ metody te są przeznaczone przede wszystkim do tworzenia cząsteczek podobnych do leków, istnieją pewne ograniczenia ich zdolności do generowania cząsteczek, takie jak wykorzystanie właściwości biologicznych lub farmaceutycznych w celu ograniczenia tworzonych struktur (odwrotne QSPR/QSAR) lub tworzenie struktur z ustalonej liczby bloków budulcowych podstruktury. Ponieważ astrobiologia skupia się bardziej na mnogości związków organicznych, które mogą tworzyć się abiotycznie, a mniej na jakichkolwiek produktach końcowych lub ich właściwościach, wyczerpujące generowanie struktur w ramach projektu MAYGEN jest idealne do tworzenia bibliotek struktur w celu odpowiedzi na pytania astrobiologiczne. Opisane tutaj podejście do filtrowania podkonstrukcji (wykonywane po wygenerowaniu struktury za pomocą zewnętrznego programu) różni się od konkurencyjnego programu MOLGEN tym, że filtrowanie podstruktury MOLGEN następuje podczas generowania konstrukcji. Ponieważ MAYGEN jest oprogramowaniem typu open source, jest nie tylko bardziej dostępny niż MOLGEN ze względu na koszt licencji MOLGEN, ale osoby fizyczne mogą wdrażać nowe funkcje, takie jak filtrowanie podstruktur podczas generowania struktury.
Jak napisano, opisany tutaj protokół koncentruje się na generowaniu i utrzymywaniu bibliotek stosunkowo małych alfa-aminokwasów. Aby wygenerować różne biblioteki, użytkownicy mogą nadać MAYGENOWI różne wzory molekularne, zmienić filtrowanie podstruktury, zmieniając maksymalny dozwolony rozmiar pierścienia i wartościowość wiązania, lub edytować pliki goodlist i badlist, aby dodać lub usunąć wzorce podstruktury. Modyfikacje protokołu, które obejmują zmianę sposobu dodawania lub zastępowania atomów i podstruktur (podstawienie pseudoatomów i ograniczenie molekularne) są wykonalne, ale będą wymagały zwrócenia większej uwagi na ograniczenia walencyjne, aby uniknąć błędów RDKit dotyczących nieprawidłowych wartościowości w zmodyfikowanych strukturach.
Opisany powyżej protokół jest przeznaczony dla małych alfa-aminokwasów. Jednak ogólny format (kompleksowe generowanie struktury za pomocą pseudoatomów, a następnie filtrowanie podstruktury i modyfikacje molekularne) jest bardzo elastyczny dla związków innych niż małe aminokwasy. Nawet w astrobiologii podobną niedawną procedurę z użyciem MOLGEN zastosowano do zbadania konstytucyjnych izomerów kwasów nukleinowych26. Oprócz narzędzi opisanych powyżej, MAYGEN można połączyć z innymi narzędziami chemicznymi typu open source, aby tworzenie i analizowanie nowych struktur chemicznych było przystępne cenowo i dostępne dla szerokiego wachlarza dziedzin badawczych.
Autorzy nie mają do ujawnienia żadnych konfliktów interesów.
MAY dziękuje za sfinansowanie przez Fundację Carl-Zeiss. Wszystkie rysunki zostały wygenerowane przy użyciu programu Microsoft Excel.
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| conda v. 4.10.3 | https://www.anaconda.com/products/individual | ||
| Java 17 | https://java.com/en/download/help/download_options.html | ||
| MAYGEN v. 1.8 | https://github.com/MehmetAzizYirik/MAYGEN/releases | ||
| PaDEL-Descriptor v. 2.21 | http://www.yapcwsoft.com/dd/padeldescriptor/ | ||
| python v. 3.7.11 | zawarty w środowisku Anaconda | ||
| RDKit v. 2020.09.1.0 | https://www.rdkit.org/docs/Install.html, lub zainstalowany przez conda: https://anaconda.org/rdkit/rdkit | ||
| *Te konkretne wersje zostały użyte w tym manuskrypcie; użytkownik może uzyskać nowsze wersje, jeśli są dostępne. |
Request permission to reuse the text or figures of this JoVE article
Request Permission