Se presenta un protocolo computacional, CaseOLAP LIFT, y un caso de uso para investigar las proteínas mitocondriales y sus asociaciones con las enfermedades cardiovasculares descritas en los informes biomédicos. Este protocolo se puede adaptar fácilmente para estudiar los componentes celulares y las enfermedades seleccionadas por el usuario.
El rápido aumento y la gran cantidad de informes biomédicos, cada uno de los cuales contiene numerosas entidades y una rica información, representan un rico recurso para las aplicaciones de minería de textos biomédicos. Estas herramientas permiten a los investigadores integrar, conceptualizar y traducir estos descubrimientos para descubrir nuevos conocimientos sobre la patología y la terapéutica de la enfermedad. En este protocolo, presentamos CaseOLAP LIFT, un nuevo canal computacional para investigar los componentes celulares y sus asociaciones de enfermedades mediante la extracción de información seleccionada por el usuario de conjuntos de datos de texto (por ejemplo, literatura biomédica). El software identifica las proteínas subcelulares y sus socios funcionales dentro de documentos relevantes para la enfermedad. Los documentos adicionales relevantes para la enfermedad se identifican a través del método de imputación de etiquetas del software. Para contextualizar las asociaciones proteína-enfermedad resultantes e integrar la información de múltiples recursos biomédicos relevantes, se construye automáticamente un gráfico de conocimiento para su posterior análisis. Presentamos un caso de uso con un corpus de ~34 millones de documentos de texto descargados en línea para proporcionar un ejemplo de dilucidación del papel de las proteínas mitocondriales en distintos fenotipos de enfermedades cardiovasculares utilizando este método. Además, se aplicó un modelo de aprendizaje profundo al grafo de conocimiento resultante para predecir las relaciones entre las proteínas y la enfermedad que no se habían informado previamente, lo que dio como resultado 1.583 asociaciones con probabilidades predichas >0,90 y con un área bajo la curva característica operativa del receptor (AUROC) de 0,91 en el conjunto de prueba. Este software cuenta con un flujo de trabajo altamente personalizable y automatizado, con una amplia gama de datos sin procesar disponibles para su análisis; Por lo tanto, utilizando este método, las asociaciones proteína-enfermedad se pueden identificar con mayor fiabilidad dentro de un corpus de texto.
El estudio de las proteínas relacionadas con la enfermedad mejora el conocimiento científico de la patogénesis y ayuda a identificar posibles terapias. Varios grandes corpus de texto de publicaciones biomédicas, como los 34 millones de artículos de PubMed que contienen títulos de publicaciones, resúmenes y documentos de texto completo, informan de nuevos hallazgos que vinculan las proteínas con las enfermedades. Sin embargo, estos hallazgos están fragmentados en varias fuentes y deben integrarse para generar nuevos conocimientos biomédicos. Existen varios recursos biomédicos para integrar las asociaciones proteína-enfermedad 1,2,3,4,5,6,7. Sin embargo, estos recursos seleccionados a menudo están incompletos y es posible que no abarquen los últimos hallazgos de la investigación. Los enfoques de minería de textos son esenciales para extraer y sintetizar asociaciones proteína-enfermedad en grandes corpus de texto, lo que daría lugar a una comprensión más completa de estos conceptos biomédicos en la literatura científica.
Existen múltiples enfoques biomédicos de minería de textos para descubrir las relaciones proteína-enfermedad 8,9,10,11,12,13,14, y otros contribuyen en parte a determinar estas relaciones mediante la identificación de las proteínas, enfermedades u otras entidades biomédicas mencionadas en el texto13,15,16,17, 18,19. Sin embargo, muchas de estas herramientas carecen de acceso a la literatura más actualizada, con excepción de algunas que se actualizan periódicamente 8,11,13,15. Del mismo modo, muchas herramientas también tienen un alcance de estudio limitado, ya que se limitan a enfermedades o proteínas predefinidas en general 9,13. Varios enfoques también son propensos a la identificación de falsos positivos dentro del texto; Otros han abordado estas cuestiones con una lista negra interpretable y global de nombres de proteínas 9,11 o menos técnicas de reconocimiento de entidades de nombres interpretables15,20. Si bien la mayoría de los recursos presentan solo resultados precalculados, algunas herramientas ofrecen interactividad a través de aplicaciones web o código de software accesible 8,9,11.
Para abordar las limitaciones anteriores, presentamos el siguiente protocolo, CaseOLAP con imputación de etiquetas y texto completo (CaseOLAP LIFT), como una plataforma flexible y personalizable para investigar asociaciones entre proteínas (por ejemplo, proteínas asociadas con un componente celular) y enfermedades a partir de conjuntos de datos de texto. Esta plataforma cuenta con la curación automatizada de proteínas específicas de términos de ontología génica (GO) (por ejemplo, proteínas específicas de orgánulos), imputación de etiquetas de temas de documentos faltantes, análisis de documentos de texto completo, así como herramientas de análisis y herramientas predictivas (Figura 1, Figura 2 y Tabla 1). CaseOLAP LIFT selecciona proteínas específicas de orgánulos mediante el uso de términos GO proporcionados por el usuario (p. ej., compartimento de orgánulos) y proteínas funcionalmente relacionadas mediante el uso de STRING21, Reactoma 22 y GRNdb23. Los documentos de estudio de enfermedades se identifican por sus etiquetas de encabezado de materia médica (MeSH) anotadas en PubMed. Para el ~15,1% de los documentos sin etiquetar, las etiquetas se imputan si se encuentra al menos un sinónimo de término MeSH en el título o al menos dos en el resumen. Esto permite que las publicaciones que antes no se habían categorizado se tengan en cuenta en el análisis de minería de textos. CaseOLAP LIFT también permite al usuario seleccionar secciones de publicaciones (por ejemplo, solo títulos y resúmenes, texto completo o texto completo excluyendo métodos) dentro de un período de tiempo específico (por ejemplo, 2012-2022). El software también selecciona de forma semiautomática una lista negra de nombres de proteínas específicos de cada caso de uso, lo que reduce de forma vital las asociaciones proteína-enfermedad de falsos positivos presentes en otros enfoques. En general, estas mejoras permiten una mayor personalización y automatización, amplían la cantidad de datos disponibles para el análisis y producen asociaciones proteína-enfermedad más fiables a partir de grandes corpus de textos biomédicos.
CaseOLAP LIFT incorpora el conocimiento biomédico y representa la relación de varios conceptos biomédicos utilizando un grafo de conocimiento, que se aprovecha para predecir relaciones ocultas en el grafo. Recientemente, los métodos de computación basados en gráficos se han aplicado a entornos biológicos, incluida la integración y organización de conceptos biomédicos 24,25, la reutilización y el desarrollo de fármacos 26,27,28, y para la toma de decisiones clínicas a partir de datos proteómicos 29.
Para demostrar las utilidades de CaseOLAP LIFT en el contexto de la construcción de un grafo de conocimiento, destacamos un caso de uso en la investigación de las asociaciones entre las proteínas mitocondriales y ocho categorías de enfermedades cardiovasculares. Se analizó la evidencia de ~ 362,000 documentos relevantes para la enfermedad para identificar las principales proteínas mitocondriales y las vías asociadas con las enfermedades. A continuación, estas proteínas, sus proteínas funcionalmente relacionadas y sus resultados de minería de texto se incorporaron a un gráfico de conocimiento. Este gráfico se aprovechó en un análisis de predicción de enlaces basado en el aprendizaje profundo para predecir las asociaciones proteína-enfermedad que hasta ahora no se habían reportado en las publicaciones biomédicas.
La sección de introducción describe los antecedentes y los objetivos de nuestro protocolo. En la siguiente sección se describen los pasos del protocolo computacional. Posteriormente, se describen los resultados representativos de este protocolo. Finalmente, discutimos brevemente los casos de uso del protocolo computacional, las ventajas, los inconvenientes y las aplicaciones futuras.
1. Ejecución del contenedor de Docker
2. Preparación de las enfermedades y las proteínas
3. Minería de textos
4. Análisis de los resultados
5. Análisis predictivo
Siguiendo este protocolo, se obtuvieron resultados representativos para estudiar las asociaciones entre las proteínas mitocondriales (Tabla 2) y ocho categorías de enfermedades cardiovasculares (Tabla 3). En estas categorías, encontramos 363.567 publicaciones publicadas desde 2012 hasta octubre de 2022 (362.878 categorizadas por metadatos MeSH, 6.923 categorizadas por imputación de etiqueta). Todas las publicaciones tenían títulos, 276.524 tenían resúmenes y 51.065 tenían el texto completo disponible. En total, se identificaron 584 de las 1.687 proteínas mitocondriales consultadas en las publicaciones, mientras que se identificaron 3.284 de las 8.026 proteínas funcionalmente relacionadas consultadas. En total, se identificaron 14 proteínas únicas con puntuaciones significativas en todas las categorías de enfermedades, con un umbral de puntuación z de 3,0 (Figura 5). El análisis de la vía del reactoma de estas proteínas reveló 12 vías significativas para todas las enfermedades (Figura 6). Todas las proteínas, vías, enfermedades y puntuaciones se integraron en un gráfico de conocimiento (Tabla 4). Este gráfico de conocimiento se aprovechó para predecir 12.688 nuevas asociaciones proteína-enfermedad y se filtró con una puntuación de probabilidad de 0,90 para producir 1.583 predicciones de alta confianza. En la Figura 7 se muestra un ejemplo destacado de dos asociaciones proteína-enfermedad, ilustrado en el contexto de otras entidades biológicas relevantes relacionadas funcionalmente con las proteínas. Las métricas de evaluación del modelo se presentan en la Tabla 5.
Figura 1: Vista dinámica del flujo de trabajo. Esta figura representa los cuatro pasos principales de este flujo de trabajo. En primer lugar, las proteínas relevantes se seleccionan en función de los términos GO proporcionados por el usuario (por ejemplo, componentes celulares), y las categorías de enfermedades se preparan en función de los identificadores MeSH de enfermedades proporcionados por el usuario. En segundo lugar, las asociaciones entre proteínas y enfermedades se calculan en la etapa de minería de textos. Las publicaciones dentro de un determinado rango de fechas se descargan e indexan. Las publicaciones que estudian la enfermedad se identifican (a través de etiquetas MeSH y, opcionalmente, a través de etiquetas imputadas), y sus textos completos se descargan e indexan. Los nombres de las proteínas se consultan en las publicaciones y se utilizan para calcular las puntuaciones de asociación proteína-enfermedad. A continuación, tras la minería de textos, estas puntuaciones ayudan a identificar las principales asociaciones de proteínas y vías. Finalmente, se construye un grafo de conocimiento que abarca estas proteínas, enfermedades y sus relaciones dentro de la base de conocimiento biomédico. Las nuevas asociaciones proteína-enfermedad se predicen en función del gráfico de conocimiento construido. Estos pasos utilizan los datos más recientes disponibles de las bases de conocimiento biomédico y PubMed. Haga clic aquí para ver una versión más grande de esta figura.
Figura 2: Arquitectura técnica del flujo de trabajo. Los detalles técnicos de este flujo de trabajo se ilustran en esta figura. El usuario proporciona los números del árbol MeSH de las categorías de enfermedades y los términos GO. Los documentos de texto se descargan de PubMed, los documentos relevantes para la enfermedad se identifican en función de las etiquetas MeSH proporcionadas, y los documentos sin etiquetas MeSH que indican el tema reciben etiquetas de categoría imputadas. Se adquieren las proteínas asociadas con los términos GO proporcionados. Este conjunto de proteínas se amplía para incluir proteínas que están relacionadas funcionalmente a través de interacciones proteína-proteína, vías biológicas compartidas y dependencia de factores de transcripción. Estas proteínas se consultan en documentos relevantes para la enfermedad y se puntúan mediante CaseOLAP. Haga clic aquí para ver una versión más grande de esta figura.
Figura 3: Ejemplo de un documento procesado. Aquí se presenta un ejemplo de un documento de texto analizado e indexado. En orden, los campos relevantes indican el nombre del índice (_index, _type), el ID de PubMed (_id, pmid), las subsecciones del documento (título, resumen, full_text, introducción, métodos, resultados, discusión) y otros metadatos (año, MeSH, ubicación, revista). Solo con fines de visualización, las subsecciones del documento se truncan con puntos suspensivos. El campo MeSH contiene los temas del documento, que a veces pueden ser proporcionados por nuestro paso de imputación de etiquetas. Haga clic aquí para ver una versión más grande de esta figura.
Figura 4: Esquema del gráfico de conocimiento y recursos biomédicos. En esta figura se muestra el esquema del gráfico de conocimiento. Cada nodo y arista representa un tipo de nodo o arista, respectivamente. Los límites entre las enfermedades cardiovasculares (ECV) y las proteínas se ponderan mediante las puntuaciones de CaseOLAP. Los bordes de la interacción proteína-proteína (PPI) se ponderan mediante puntuaciones de confianza STRING. Los bordes de la dependencia del factor de transcripción (TFD) derivados de GRNdb/GTEx, los bordes del árbol de enfermedades derivados del MeSH y los bordes de la vía derivados del reactoma no están ponderados. Haga clic aquí para ver una versión más grande de esta figura.
Figura 5: Principales asociaciones proteína-enfermedad. Esta figura presenta proteínas mitocondriales significativas para cada categoría de enfermedad. La transformación de la puntuación Z se aplicó a las puntuaciones de CaseOLAP dentro de cada categoría para identificar proteínas significativas utilizando un umbral de 3,0. (Arriba) Número de proteínas mitocondriales significativas para cada enfermedad: Estos gráficos de violín representan la distribución de las puntuaciones z para las proteínas en cada categoría de enfermedad. El número total de proteínas significativas para cada categoría de enfermedad se muestra encima de cada gráfico de violín. Se identificaron un total de 14 proteínas únicas como significativas en todas las enfermedades, y algunas proteínas fueron significativas para múltiples enfermedades. (Abajo) Proteínas con mayor puntuación: El mapa de calor muestra las 10 proteínas principales que obtuvieron las puntuaciones z promedio más altas en todas las enfermedades. Los valores en blanco representan la ausencia de puntuación obtenida entre la proteína y la enfermedad. Haga clic aquí para ver una versión más grande de esta figura.
Figura 6: Principales asociaciones vía-enfermedad. Esta figura ilustra las principales vías biológicas asociadas con las categorías de enfermedades estudiadas, según se determina mediante el análisis de la vía del actoma. Todos los análisis de vía se filtraron con p < 0,05. Los valores del mapa de calor representan la puntuación z promedio de todas las proteínas dentro de la vía. (Arriba) Vías conservadas entre todas las enfermedades: En general, se identificaron 14 proteínas relevantes para todas las categorías de enfermedades, y se revelaron 12 vías conservadas entre todas las categorías de enfermedades. Se construyó un dendrograma basado en la estructura jerárquica de la vía para vincular las vías con funciones biológicas similares. La altura del dendrograma representa la profundidad relativa dentro de la jerarquía de vías; Las funciones biológicas amplias tienen extremidades más largas, y las vías más específicas tienen extremidades más cortas. (Abajo) Vías distintas a una categoría de enfermedad: El análisis de vías se realizó utilizando proteínas que lograron una puntuación z significativa en cada enfermedad. Las tres vías principales con los valores p más bajos asociados con cada enfermedad se muestran e indican con asteriscos. Las vías podrían estar entre las tres primeras en múltiples enfermedades. Haga clic aquí para ver una versión más grande de esta figura.
Figura 7: Aplicación del aprendizaje profundo para completar gráficos de conocimiento. En esta figura se presenta un ejemplo de aplicación del aprendizaje profundo a un gráfico de conocimiento específico de una enfermedad. Se predicen relaciones ocultas entre las proteínas y la enfermedad, y estas se indican en azul. Se muestran las probabilidades calculadas para ambas predicciones, con valores que van de 0,0 a 1,0 y donde 1,0 indica una predicción fuerte. Se incluyen varias proteínas con interacciones conocidas, que representan las interacciones proteína-proteína, la dependencia de factores de transcripción y las vías biológicas compartidas. Para la visualización, se muestra un subgrafo de algunos nodos con relevancia para el ejemplo resaltado. Clave: CI = cardiopatía isquémica; R-HSA-1430728 = metabolismo; O14949 = citocromo b-c1 complejo subunidad 8; P17568 = NADH deshidrogenasa (ubiquinona) 1 subcomplejo beta subunidad 7; Q9NYF8 Factor de transcripción asociado a Bcl-2 1, puntuación: 7,24 x 10−7; P49821 = NADH deshidrogenasa (ubiquinona) flavoproteína 1, mitocondrial, puntuación: 1,06 x 10−5; P31930 = citocromo b-c1 complejo subunidad 1, mitocondrial, puntuación: 4,98 x 10−5; P99999 = citocromo c, puntuación: 0,399. Haga clic aquí para ver una versión más grande de esta figura.
Tabla 1: Flujo de trabajo y pasos de limitación de velocidad. En esta tabla se presentan estimaciones aproximadas del tiempo de cálculo para cada etapa del flujo de trabajo. Las opciones para incluir componentes de la canalización cambiarán el tiempo de ejecución total necesario para completar el análisis. La estimación del tiempo total varía en función de los recursos computacionales disponibles, incluidas las especificaciones de hardware y la configuración del software. Como estimación aproximada, el protocolo tardó 36 h de tiempo de ejecución activo en ejecutarse en nuestro servidor computacional, con seis núcleos, 32 Gb de RAM y 2 Tb de almacenamiento, pero esto puede ser más rápido o más lento en otros dispositivos. Haga clic aquí para descargar esta tabla.
Tabla 2: Ensamblaje automático de las proteínas componentes celulares. Esta tabla muestra el número de proteínas asociadas con un componente celular determinado (es decir, el término GO), las proteínas relacionadas funcionalmente con ellos a través de interacciones proteína-proteína (PPI), vías compartidas (PW) y dependencia del factor de transcripción (TFD). El número de proteínas totales es el número de proteínas de todas las categorías anteriores combinadas. Todas las proteínas funcionalmente relacionadas se obtuvieron utilizando los parámetros predeterminados de CaseOLAP LIFT. Haga clic aquí para descargar esta tabla.
Tabla 3: Estadísticas de imputación de etiquetas MeSH. Esta tabla muestra las categorías de enfermedades, los números del árbol MeSH utilizados como término principal de todas las enfermedades incluidas en la categoría, el número de artículos de PubMed encontrados en cada categoría entre 2012 y 2022 y el número de artículos adicionales incluidos en función del paso de imputación de la etiqueta. Haga clic aquí para descargar esta tabla.
Tabla 4: Estadística de construcción de grafos de conocimiento. En esta tabla se describen las estadísticas del tamaño del gráfico de conocimiento construido, incluidos los distintos nodos y tipos de borde. Las puntuaciones de CaseOLAP representan la relación entre una proteína y una categoría de enfermedad cardiovascular (ECV). Haga clic aquí para descargar esta tabla.
Tabla 5: Estadísticas y validaciones de predicción de gráficos de conocimiento. En esta tabla se presentan las métricas de evaluación para la predicción del vínculo del gráfico de conocimiento de las asociaciones proteína-enfermedad nuevas/ocultas. Los bordes del gráfico de conocimiento se dividieron en conjuntos de datos de entrenamiento y prueba 70/30, y la conectividad del gráfico de los bordes se conservó en ambos conjuntos de datos. La precisión indica la proporción de predicciones clasificadas correctamente, mientras que la precisión equilibrada corrige el desequilibrio de clase. La especificidad indica la proporción de predicciones negativas correctamente clasificadas. La precisión indica la proporción de predicciones positivas correctas de todas las predicciones positivas, mientras que la recuperación indica la proporción de predicciones positivas correctas de todas las aristas positivas (es decir, asociaciones proteína-enfermedad identificadas a través de la minería de texto). La puntuación F1 es la media armónica de la precisión y la recuperación. El área bajo la curva de características operativas del receptor (AUROC) describe qué tan bien el modelo distingue entre predicciones positivas y negativas, donde 1.0 indica un clasificador perfecto. El área bajo la curva de precisión-recuperación (AUPRC) mide el equilibrio entre la precisión y la recuperación en diferentes umbrales de probabilidad, con valores más altos que indican un mejor rendimiento. Haga clic aquí para descargar esta tabla.
CaseOLAP LIFT permite a los investigadores investigar asociaciones entre proteínas funcionales (p. ej., proteínas asociadas con un componente celular, un proceso biológico o una función molecular) y categorías biológicas (p. ej., enfermedades). El protocolo descrito debe ejecutarse en la secuencia especificada, siendo la sección 2 y la sección 3 del protocolo los pasos más críticos, ya que la sección 4 y la sección 5 del protocolo dependen de sus resultados. Como alternativa a la sección 1 del protocolo, el código CaseOLAP LIFT se puede clonar y acceder a él desde el repositorio de GitHub (https://github.com/CaseOLAP/caseolap_lift). Cabe señalar que a pesar de las pruebas durante el desarrollo del software, pueden ocurrir errores. Si es así, se debe repetir el paso fallido. Si el problema persiste, se recomienda repetir la sección 1 del protocolo para asegurarse de que se utiliza la versión más reciente del contenedor Docker. Para obtener más ayuda, cree un problema en el repositorio de GitHub para obtener soporte adicional.
Este método apoya la generación de hipótesis al permitir a los investigadores identificar entidades de interés y revelar las posibles asociaciones entre ellas, que pueden no ser fácilmente accesibles en los recursos biomédicos existentes. Las asociaciones proteína-enfermedad resultantes permiten a los investigadores obtener nuevos conocimientos a través de las métricas interpretables de las puntuaciones: las puntuaciones de popularidad indican las proteínas más estudiadas en relación con una enfermedad, las puntuaciones de distintividad indican las enfermedades más exclusivas de una proteína, y la puntuación combinada de CaseOLAP es una combinación de ambas. Para evitar identificaciones de falsos positivos (por ejemplo, debido a homónimos), algunas herramientas de minería de texto utilizan una lista negra de términos para evitar 9,11. Del mismo modo, CaseOLAP LIFT también utiliza una lista negra, pero permite al usuario adaptar la lista negra a su caso de uso. Por ejemplo, cuando se estudia la enfermedad de las arterias coronarias (EAC), "EAC" no debe considerarse un nombre para la proteína "desoxirribonucleasa activada por caspasas". Sin embargo, cuando se estudian otros temas, "CAD" generalmente puede referirse a la proteína.
CaseOLAP LIFT se adapta a la cantidad de datos disponibles para la minería de textos. La funcionalidad del rango de fechas alivia la carga computacional y crea flexibilidad para la generación de hipótesis (por ejemplo, estudiar cómo ha cambiado el conocimiento científico sobre una asociación proteína-enfermedad a lo largo del tiempo). Mientras tanto, la imputación de etiquetas y los componentes de texto completo mejoran el alcance de los datos disponibles para la minería de textos. Ambos componentes están deshabilitados de forma predeterminada para reducir los costos computacionales, pero el usuario puede decidir incluir cualquiera de los componentes. La imputación de etiquetas es conservadora y categoriza correctamente la mayoría de las publicaciones (87% de precisión), pero omite otras etiquetas de categoría (2% de recuerdo). Este método se basa actualmente en una heurística basada en reglas que coincide con las palabras clave de la enfermedad, y hay planes para mejorar el rendimiento mediante el uso de técnicas de modelado de temas de documentos. Dado que muchos informes no categorizados tienden a ser publicaciones recientes, los estudios que investigan un rango de fechas reciente (por ejemplo, todas las publicaciones dentro de los últimos 3 años) son más útiles deshabilitando la imputación de etiquetas. El componente de texto completo aumenta el tiempo de ejecución y los requisitos de almacenamiento. Cabe destacar que solo una minoría de los documentos tienen el texto completo disponible (~14% de los documentos de nuestro estudio). Asumiendo que los nombres de las proteínas mencionados en la sección de métodos de las publicaciones tienen menos probabilidades de estar relacionados con los temas de la enfermedad, se recomienda consultar los artículos de texto completo excluyendo la sección de métodos.
Las puntuaciones de asociación proteína-enfermedad resultantes son útiles para los análisis tradicionales, como la agrupación, la reducción de la dimensionalidad o los análisis de enriquecimiento (p. ej., GO, vías), con alguna implementación incluida en este paquete de software. Para contextualizar estas puntuaciones dentro del conocimiento biomédico existente, se construye automáticamente un gráfico de conocimiento que se puede explorar utilizando herramientas de visualización de gráficos (por ejemplo, Neo4j32, Cytoscape33). El gráfico de conocimiento también se puede utilizar para análisis predictivos (p. ej., predicción de vínculos de relaciones proteína-enfermedad no informadas, detección comunitaria de redes de proteínas, métodos de búsqueda de rutas de recolección de premios).
Hemos examinado las métricas de evaluación del modelo para las asociaciones proteína-enfermedad predichas (Tabla 5). El modelo asigna una puntuación de probabilidad entre 0,0 y 1,0 a cada asociación proteína-enfermedad, y las puntuaciones más cercanas a 1,0 indican un mayor nivel de confianza en la predicción. La evaluación interna del rendimiento del modelo, que se basó en varias métricas, entre ellas el AUROC, la precisión, la precisión equilibrada, la especificidad y la recuperación, indicó un excelente rendimiento general en su trabajo. Sin embargo, la evaluación también puso de manifiesto una puntuación bastante pobre para la precisión (0,15) del modelo, lo que dio lugar a una puntuación más baja tanto en el AUPRC como en la F1. Los estudios futuros para mejorar esta métrica ayudarán a elevar el rendimiento general del modelo. Prevemos que esto podría lograrse mediante la implementación de modelos de predicción de gráficos y de integración de gráficos de conocimiento más sofisticados. Sobre la base de la precisión del modelo de 0,15, los investigadores deben anticipar aproximadamente un 15% de identificaciones positivas; En particular, de todas las 12.688 asociaciones proteína-enfermedad predichas por el modelo, aproximadamente el 15% son asociaciones verdaderas positivas. Esto se puede mitigar considerando solo las asociaciones proteína-enfermedad con una puntuación de probabilidad alta (p. ej., >0,90); En nuestro caso de uso, el filtrado con un umbral de probabilidad de 0,90 condujo a predicciones de alta confianza de 1.583 asociaciones. A los investigadores también les puede resultar útil inspeccionar manualmente estas predicciones para garantizar una alta validez (consulte la Figura 7 como ejemplo). Una evaluación externa de nuestras predicciones determinó que de las 310 asociaciones proteína-enfermedad de una extensa base de datos curada DisGeNet19, 103 se identificaron en nuestro estudio de minería de textos, y 88 asociaciones adicionales fueron predichas por nuestro análisis de gráficos de conocimiento con una puntuación de probabilidad >0,90.
En general, CaseOLAP LIFT presenta una mayor flexibilidad y facilidad de uso en el diseño de análisis personalizados de las asociaciones entre grupos de proteínas funcionales y múltiples categorías de enfermedades en grandes corpus de texto. Este paquete se simplifica en una nueva interfaz de línea de comandos fácil de usar y se lanza como un contenedor Docker, lo que reduce los problemas asociados con la configuración de los entornos de programación y las dependencias de software. La línea de producción CaseOLAP LIFT para estudiar las proteínas mitocondriales en enfermedades cardiovasculares se puede adaptar fácilmente; por ejemplo, las aplicaciones futuras de esta técnica podrían implicar la investigación de las asociaciones entre cualquier proteína asociada con cualquier término GO y cualquier categoría biomédica. Además, las asociaciones proteína-enfermedad identificadas por esta plataforma de minería de textos son importantes en la preparación del conjunto de datos para el uso de técnicas avanzadas de lenguaje natural. El gráfico de conocimiento resultante permite a los investigadores convertir estos hallazgos en conocimiento biológicamente informativo y sienta las bases para los análisis basados en gráficos de seguimiento.
Los autores no tienen nada que revelar.
Este trabajo fue apoyado por los Institutos Nacionales de Salud (NIH, por sus siglas en inglés) R35 HL135772 a P.P., NIH T32 HL13945 a A.R.P. y D.S., NIH T32 EB016640 a A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 a A.R.P. y D.S., NIH R01 HL146739 para I.A., J.R., A.V., K.B., y el TC Laubisch Endowment a P.P. en UCLA.
Name | Company | Catalog Number | Comments |
Software - Docker | Docker | N/A | docker.com |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoExplorar más artículos
This article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados