Nuestro protocolo demuestra cómo el software de código abierto puede permitir a cualquier investigador crear y curar una biblioteca de estructura computacional. Este atractivo de los protocolos proviene de su apertura y flexibilidad. Cualquiera puede usarlo y modificarlo para que se adapte a su pregunta de investigación específica.
Las versiones de este protocolo se pueden aplicar a aplicaciones de descubrimiento de fármacos, creando rápidamente bibliotecas de estructuras específicas para el cribado in silico. Aunque el protocolo se explica paso a paso, si los usuarios no están familiarizados con Java o la codificación básica, primero pueden mirarlos antes de implementar el protocolo. Comience creando un nuevo directorio para el proyecto.
Coloque todos los archivos y ejecutables en este directorio para facilitar el acceso. Descargue la última versión de Maygen como un archivo jar y el software de gestión de paquetes Anaconda. En los sistemas Windows, busque el mensaje Anaconda y haga clic en el acceso directo resultante para ejecutarlo.
Para crear un entorno RDKit en Anaconda y descargar el RDKit en el entorno, escriba el comando que se muestra en la pantalla, presione entrar para ejecutar y responda sí a cualquier pregunta que surja durante la instalación. Luego descargue los Jupyter Notebooks y los archivos de texto de los patrones de sustrato de los archivos suplementarios, del uno al cinco. En el símbolo del sistema, navegue hasta el directorio que contiene el maygen.
archivo ejecutable jar. Para cada fórmula química de interés, use el comando que se muestra en la pantalla para ejecutar Maygen. Si la fórmula es una fórmula difusa en lugar de una fórmula discreta, reemplace el indicador F del guión por un indicador difuso del guión y incluya los intervalos de los elementos entre paréntesis.
En un mensaje de Anaconda, vaya a la carpeta que contiene Jupyter Notebooks y active el entorno RDKit. Los blocs de notas descargados requieren RDKit. Por lo tanto, cualquier uso futuro de ellos en este protocolo requerirá que se abran en el entorno RDKit.
A continuación, abra Jupyter Notebook para el filtrado de subestructuras y cierre el nombre del archivo entre comillas si contiene espacios. En la celda designada al principio del bloc de notas, escriba la ruta de acceso completa del archivo sdf de entrada. La ruta de archivo completa del archivo de salida sdf deseado y la ruta de archivo del archivo de lista incorrecta como cadenas.
Si es necesario conservar algunas subestructuras de la biblioteca filtrada o una lista buena, cree un archivo txt de patrones SMARTS para esas subestructuras y coloque la ruta del archivo de lista buena en la línea designada al principio del bloc de notas. En el menú de la parte superior, seleccione kernel, reinicie y ejecute todo para reiniciar el kernel del portátil y ejecutar todas las celdas. Se creará un archivo sdf con el nombre deseado en la carpeta de salida especificada.
Repita estos pasos para cada archivo de estructura generado por Maygen. Para el reemplazo de pseudoátomos, abra un mensaje de Anaconda, navegue a la carpeta que contiene Jupyter Notebooks y active el entorno RDKit. A continuación, abra el Jupyter Notebook para el reemplazo de pseudoátomos.
En la celda designada al principio del bloc de notas, escriba la ruta de acceso completa del archivo sdf de entrada y la ruta de archivo completa del archivo de salida sdf deseado como cadenas. Reinicie el kernel del bloc de notas y ejecute todas las celdas para obtener un archivo sdf con el nombre deseado en la carpeta de salida especificada. Del mismo modo, abra un indicador de Anaconda para el taponamiento de aminoácidos N y C termini.
Desplácese hasta la carpeta que contiene Jupyter Notebooks y active el entorno RDKit. Abra el Jupyter Notebook para tapar aminoácidos. En la celda designada al principio del bloc de notas, escriba la ruta de acceso completa del archivo sdf de entrada y la ruta de archivo completa del archivo de salida sdf deseado como cadenas.
Reinicie el kernel del bloc de notas y ejecute todas las celdas para obtener un archivo sdf con el nombre deseado en la carpeta de salida especificada. Para la generación de descriptores, coloque todos los archivos sdf para los que se van a calcular los descriptores en una sola carpeta. Luego descargue el descriptor PaDEL, descomprímalo y extráigalo a esa carpeta.
Abra un símbolo del sistema, navegue hasta la carpeta que contiene el archivo jar del descriptor PaDEL y ejecute el descriptor PaDEL para los archivos sdf recopilados. El espacio químico de todas las bibliotecas de aminoácidos filtrados se muestra aquí. Los marcadores negros representan aminoácidos de las bibliotecas sin azufre y los marcadores amarillos representan aminoácidos de bibliotecas enriquecidas con azufre.
Aquí, las bibliotecas VAIL y VAIL_S están representadas por círculos. Las bibliotecas DEST y DEST_S están representadas por cuadrados. Las bibliotecas Proline y Pro S están representadas por triángulos y las estrellas representan aminoácidos codificados.
El rango de posibles valores de log P aumenta con el volumen molecular incluso dentro de las bibliotecas que carecen explícitamente de cadenas laterales hidrofílicas. Los aminoácidos codificados con cadenas laterales de hidrocarburos son más hidrófobos que la mayoría de los otros aminoácidos de un volumen comparable de su respectiva biblioteca. Este es también el caso de la insistencia de metionina en comparación con otros miembros de la biblioteca VAILS con volúmenes similares.
Los aminoácidos codificados con cadenas laterales de hidroxilo se encontraban entre los miembros más pequeños de la biblioteca DEST con ácido aspártico solo un poco más grande que tres aninas. La imagen representada muestra los volúmenes medios de Van der Waal de bibliotecas con azufre y sin azufre. La sustitución de azufre condujo a un ligero aumento en el volumen molecular en todas las bibliotecas.
Los valores del coeficiente de partición medio de las bibliotecas con y sin azufre se muestran aquí. El efecto de la sustitución de azufre en el log P no es tan homogéneo como para el volumen. La imagen representativa muestra los efectos de un pseudoátomo trivalente en la generación de la estructura de Maygen.
El uso de un pseudoátomo en la generación de estructuras disminuyó el número de estructuras generadas por alrededor de tres órdenes de magnitud en el tiempo total necesario para generar esas estructuras en uno o dos órdenes de magnitud. Siguiendo este protocolo, se pueden integrar funcionalidades adicionales en el futuro en función de las necesidades de los investigadores. Por ejemplo, se podrían integrar filtros de subestructura en Maygen para evitar el paso posterior al procesamiento.
Generación, curaduría y modificación de bibliotecas. Este proceso general puede acomodar otras estructuras moleculares y modificaciones con algunos conocimientos de codificación, lo que permitirá a los investigadores explorar bibliotecas computacionales más allá de las de los aminoácidos alfa. Este protocolo ayudará a los investigadores a mejorar su trabajo computacional en los orígenes del campo de la vida.
Los kits de herramientas de código abierto ayudarán en gran medida a estos esfuerzos.