Este protocolo computacional es significativo porque permite investigar las asociaciones entre componentes celulares, por ejemplo, las proteínas mitocondriales y sus asociaciones con la enfermedad, como se informa en publicaciones biomédicas. CaseOLAP LIFT permite a los investigadores extraer e integrar información de informes biomédicos y bases de conocimientos. Organizados como un gráfico de conocimiento, estos resultados se pueden aprovechar para predecir nuevas relaciones.
Estos hallazgos de investigación respaldan la generación de hipótesis al destacar una lista priorizada de asociaciones de enfermedades proteicas identificadas y predichas, útiles para descubrir nuevos conocimientos sobre la patología y la terapéutica de la enfermedad. Este flujo de trabajo altamente personalizable se puede aplicar a cualquier componente celular a través de su término GO a cualquier lista de enfermedades a través de su término MeSH dentro de cualquier rango de fechas de publicación. Este protocolo fácil de usar minimiza la experiencia computacional requerida para el análisis.
El software se lanza como un contenedor Docker, que solo requiere suficiente almacenamiento computacional y recursos para ejecutarse. Para comenzar, abra la ventana de terminal para descargar el contenedor de la ventana acoplable CaseOLAP LIFT y escriba docker pull CaseOLAP slash CaseOLAP_LIFT más reciente. Cree un directorio que almacene todos los datos y resultados del programa.
Inicie el contenedor de Docker con el comando que se muestra en la pantalla, reemplazando PATH_TO_FOLDER como la ruta de archivo completa de la carpeta. Para iniciar Elasticsearch dentro del contenedor, abra una nueva ventana de terminal y escriba el comando que se muestra en la pantalla. Vaya a la carpeta CaseOLAP_LIFT.
Asegúrese de que los enlaces de descarga y la barra diagonal de configuración knowledge_base_links. JSON están actualizados y son precisos para la última versión de cada recurso de Knowledge Base. Para determinar la ontología del gen o el término GO, vaya al sitio web geneontología.
org y encuentre los identificadores de todos los términos de GO. Del mismo modo, busque las categorías de enfermedades a través del encabezado de materia médica o los identificadores MeSH del sitio web que se muestra en la pantalla. Para ejecutar el módulo de preprocesamiento, indique los términos GO estudiados definidos por el usuario utilizando el indicador de guión C, los números de árbol MeSH de la enfermedad utilizando el indicador de guión D y especifique las abreviaturas con un indicador de guión A.
Para ejecutar el módulo de minería de texto, escriba Python, space CaseOLAP_LIFT. py, espacio, text_mining y agregue el indicador L del guión para imputar los temas de los documentos sin categorizar, y el indicador T del guión para descargar el texto completo de los documentos relevantes de la enfermedad. Asegúrese de que los resultados de la minería de texto estén en la carpeta de resultados.
Indique los resultados de la minería de texto que se van a utilizar para el análisis especificando analizar todas las proteínas para incluir todas las proteínas relacionadas funcionalmente o analizar las proteínas principales para incluir solo las proteínas relacionadas con el término GO. Para identificar las principales proteínas y vías de cada enfermedad, las puntuaciones de CaseOLAP se transforman en puntuaciones Z dentro de cada categoría de enfermedad. Especifique el indicador Z de guión para indicar una puntuación de umbral especificada por encima de la cual las proteínas se considerarán significativas.
Revise los resultados del análisis y ajústelos según sea necesario. Abra el archivo z_score_cutoff_table. csv para ver la tabla de puntuación Z generada que contiene el número de proteínas significativas para cada categoría de enfermedad.
Esto ayuda a informar al usuario para que seleccione un umbral de puntuación Z adecuado. Abra la carpeta de resultados y asegúrese de que los archivos necesarios, incluida la carpeta generada a partir del procesamiento previo, estén en la carpeta. Compruebe si hay todas las proteínas en las carpetas de proteínas principales.
Para diseñar el gráfico de conocimiento, incluya el árbol de enfermedades MeSH con el indicador include MeSH. Las interacciones proteína-proteína de la cadena con el indicador incluyen PPI, las vías compartidas del reactoma con el indicador incluyen PW y la dependencia del factor de transcripción de GRNdb GTEx con el indicador TFD incluido. Ejecute el módulo de construcción del gráfico de conocimiento especificando analizar proteínas centrales para incluir solo las proteínas relacionadas con el término GO.
Para escalar las ponderaciones de los bordes, utilice la puntuación Z de escala para las puntuaciones Z no negativas en lugar de las puntuaciones predeterminadas de CaseOLAP. Compruebe el resultado y asegúrese de que los archivos del gráfico de conocimiento merged_edges. TSV y merged_nodes.
Los archivos TSV están presentes. Por último, escriba el comando que se muestra en la pantalla para ejecutar el script de predicción del gráfico de conocimiento para predecir las asociaciones de enfermedades proteicas. Esta figura presenta proteínas mitocondriales significativas para cada categoría de enfermedad.
La transformación Z-score se aplicó a las puntuaciones de CaseOLAP dentro de cada categoría para identificar proteínas significativas utilizando un umbral de tres. El número total de proteínas significativas para cada categoría de enfermedad se muestra encima de cada gráfico de violín. El análisis de la vía del reactoma de estas proteínas reveló 12 vías significativas para todas las enfermedades.
En esta figura se presenta un ejemplo de aplicación del aprendizaje profundo a un gráfico de conocimiento específico de una enfermedad. Se predicen las relaciones ocultas entre las proteínas y la enfermedad, y aquí se muestran las probabilidades calculadas para ambas predicciones con valores que van de cero a uno, donde uno indica una predicción fuerte. La secuencia especificada es crucial para la ejecución de este protocolo, en particular los módulos de preprocesamiento y minería de textos.
Estos dos pasos influyen directamente en la identificación de las principales proteínas y vías para cada enfermedad, así como en la construcción del gráfico de conocimiento específico de la enfermedad. El gráfico de conocimiento resultante se visualiza de manera efectiva mediante herramientas de gráficos, como Neo4j y Cytoscape, y se puede aprovechar para predicciones avanzadas de aprendizaje profundo de nuevas relaciones. CaseOLAP LIFT permite el estudio de las asociaciones entre cualquier componente celular y categorías de enfermedades.
El gráfico de conocimiento resultante y las asociaciones clasificadas de enfermedades proteicas respaldan el procesamiento del lenguaje natural y los análisis basados en gráficos de seguimiento.