Un enfoque de grafos de conocimiento para dilucidar el papel de las vías organelares en la enfermedad a través de informes biomédicos

Published: October 13th, 2023

DOI:

Alexander R. Pelletier^1,2,3, Dylan Steinecke^1,3,4, Dibakar Sigdel¹, Irsyad Adam¹, J. Harry Caufield¹, Vladimir Guevara-Gonzalez¹, Joseph Ramirez¹, Aarushi Verma¹, Kaitlyn Bali¹, Katherine Downs¹, Wei Wang^1,2,3, Alex Bui^3,4, Peipei Ping^1,2,3,4,5

¹Department of Physiology, UCLA School of Medicine, ²Scalable Analytics Institute (ScAi) at Department of Computer Science, UCLA School of Engineering, ³NIH BRIDGE2AI Center at UCLA & NHLBI Integrated Cardiovascular Data Science Training Program, UCLA, ⁴Medical Informatics, University of California at Los Angeles (UCLA), ⁵Department of Medicine (Cardiology), UCLA School of Medicine

El rápido aumento y la gran cantidad de informes biomédicos, cada uno de los cuales contiene numerosas entidades y una rica información, representan un rico recurso para las aplicaciones de minería de textos biomédicos. Estas herramientas permiten a los investigadores integrar, conceptualizar y traducir estos descubrimientos para descubrir nuevos conocimientos sobre la patología y la terapéutica de la enfermedad. En este protocolo, presentamos CaseOLAP LIFT, un nuevo canal computacional para investigar los componentes celulares y sus asociaciones de enfermedades mediante la extracción de información seleccionada por el usuario de conjuntos de datos de texto (por ejemplo, literatura biomédica). El software identifica las proteínas subcelulares y sus socios funcionales dentro de documentos relevantes para la enfermedad. Los documentos adicionales relevantes para la enfermedad se identifican a través del método de imputación de etiquetas del software. Para contextualizar las asociaciones proteína-enfermedad resultantes e integrar la información de múltiples recursos biomédicos relevantes, se construye automáticamente un gráfico de conocimiento para su posterior análisis. Presentamos un caso de uso con un corpus de ~34 millones de documentos de texto descargados en línea para proporcionar un ejemplo de dilucidación del papel de las proteínas mitocondriales en distintos fenotipos de enfermedades cardiovasculares utilizando este método. Además, se aplicó un modelo de aprendizaje profundo al grafo de conocimiento resultante para predecir las relaciones entre las proteínas y la enfermedad que no se habían informado previamente, lo que dio como resultado 1.583 asociaciones con probabilidades predichas >0,90 y con un área bajo la curva característica operativa del receptor (AUROC) de 0,91 en el conjunto de prueba. Este software cuenta con un flujo de trabajo altamente personalizable y automatizado, con una amplia gama de datos sin procesar disponibles para su análisis; Por lo tanto, utilizando este método, las asociaciones proteína-enfermedad se pueden identificar con mayor fiabilidad dentro de un corpus de texto.

Explore More Videos

Bioqu mica

N mero 200

This article has been published

Video Coming Soon

Keep me updated: