Abstract
Biochemistry
El rápido aumento y la gran cantidad de informes biomédicos, cada uno de los cuales contiene numerosas entidades y una rica información, representan un rico recurso para las aplicaciones de minería de textos biomédicos. Estas herramientas permiten a los investigadores integrar, conceptualizar y traducir estos descubrimientos para descubrir nuevos conocimientos sobre la patología y la terapéutica de la enfermedad. En este protocolo, presentamos CaseOLAP LIFT, un nuevo canal computacional para investigar los componentes celulares y sus asociaciones de enfermedades mediante la extracción de información seleccionada por el usuario de conjuntos de datos de texto (por ejemplo, literatura biomédica). El software identifica las proteínas subcelulares y sus socios funcionales dentro de documentos relevantes para la enfermedad. Los documentos adicionales relevantes para la enfermedad se identifican a través del método de imputación de etiquetas del software. Para contextualizar las asociaciones proteína-enfermedad resultantes e integrar la información de múltiples recursos biomédicos relevantes, se construye automáticamente un gráfico de conocimiento para su posterior análisis. Presentamos un caso de uso con un corpus de ~34 millones de documentos de texto descargados en línea para proporcionar un ejemplo de dilucidación del papel de las proteínas mitocondriales en distintos fenotipos de enfermedades cardiovasculares utilizando este método. Además, se aplicó un modelo de aprendizaje profundo al grafo de conocimiento resultante para predecir las relaciones entre las proteínas y la enfermedad que no se habían informado previamente, lo que dio como resultado 1.583 asociaciones con probabilidades predichas >0,90 y con un área bajo la curva característica operativa del receptor (AUROC) de 0,91 en el conjunto de prueba. Este software cuenta con un flujo de trabajo altamente personalizable y automatizado, con una amplia gama de datos sin procesar disponibles para su análisis; Por lo tanto, utilizando este método, las asociaciones proteína-enfermedad se pueden identificar con mayor fiabilidad dentro de un corpus de texto.
Explore More Videos
ABOUT JoVE
Copyright © 2024 MyJoVE Corporation. All rights reserved