Uma Abordagem de Gráfico de Conhecimento para Elucidar o Papel das Vias Organelares na Doença via Relatórios Biomédicos

Published: October 13th, 2023

DOI:

Alexander R. Pelletier^1,2,3, Dylan Steinecke^1,3,4, Dibakar Sigdel¹, Irsyad Adam¹, J. Harry Caufield¹, Vladimir Guevara-Gonzalez¹, Joseph Ramirez¹, Aarushi Verma¹, Kaitlyn Bali¹, Katherine Downs¹, Wei Wang^1,2,3, Alex Bui^3,4, Peipei Ping^1,2,3,4,5

¹Department of Physiology, UCLA School of Medicine, ²Scalable Analytics Institute (ScAi) at Department of Computer Science, UCLA School of Engineering, ³NIH BRIDGE2AI Center at UCLA & NHLBI Integrated Cardiovascular Data Science Training Program, UCLA, ⁴Medical Informatics, University of California at Los Angeles (UCLA), ⁵Department of Medicine (Cardiology), UCLA School of Medicine

O rápido aumento e a grande quantidade de relatórios biomédicos, cada um contendo numerosas entidades e informações ricas, representam um rico recurso para aplicações de mineração de texto biomédico. Essas ferramentas permitem que os pesquisadores integrem, conceituam e traduzam essas descobertas para descobrir novos insights sobre patologia e terapêutica de doenças. Neste protocolo, apresentamos o CaseOLAP LIFT, um novo pipeline computacional para investigar componentes celulares e suas associações de doenças, extraindo informações selecionadas pelo usuário de conjuntos de dados de texto (por exemplo, literatura biomédica). O software identifica proteínas subcelulares e seus parceiros funcionais dentro de documentos relevantes para a doença. Documentos adicionais relevantes para doenças são identificados por meio do método de imputação de rótulos do software. Para contextualizar as associações proteína-doença resultantes e integrar informações de múltiplos recursos biomédicos relevantes, um gráfico de conhecimento é automaticamente construído para análises posteriores. Apresentamos um caso de uso com um corpus de ~34 milhões de documentos de texto baixados on-line para fornecer um exemplo de elucidação do papel das proteínas mitocondriais em fenótipos distintos de doenças cardiovasculares usando este método. Além disso, um modelo de aprendizagem profunda foi aplicado ao gráfico de conhecimento resultante para prever relações não relatadas anteriormente entre proteínas e doenças, resultando em 1.583 associações com probabilidades previstas >0,90 e com uma área sob a curva receiver operating characteristic (AUROC) de 0,91 no conjunto de teste. Este software possui um fluxo de trabalho altamente personalizável e automatizado, com um amplo escopo de dados brutos disponíveis para análise; portanto, usando esse método, associações proteína-doença podem ser identificadas com maior confiabilidade dentro de um corpus de texto.

Explore More Videos

Bioqu mica

Edi o 200

This article has been published

Video Coming Soon

Keep me updated: