Um protocolo computacional, CaseOLAP LIFT, e um caso de uso são apresentados para investigar proteínas mitocondriais e suas associações com doenças cardiovasculares, conforme descrito em relatórios biomédicos. Este protocolo pode ser facilmente adaptado para estudar componentes celulares e doenças selecionadas pelo usuário.
O rápido aumento e a grande quantidade de relatórios biomédicos, cada um contendo numerosas entidades e informações ricas, representam um rico recurso para aplicações de mineração de texto biomédico. Essas ferramentas permitem que os pesquisadores integrem, conceituam e traduzam essas descobertas para descobrir novos insights sobre patologia e terapêutica de doenças. Neste protocolo, apresentamos o CaseOLAP LIFT, um novo pipeline computacional para investigar componentes celulares e suas associações de doenças, extraindo informações selecionadas pelo usuário de conjuntos de dados de texto (por exemplo, literatura biomédica). O software identifica proteínas subcelulares e seus parceiros funcionais dentro de documentos relevantes para a doença. Documentos adicionais relevantes para doenças são identificados por meio do método de imputação de rótulos do software. Para contextualizar as associações proteína-doença resultantes e integrar informações de múltiplos recursos biomédicos relevantes, um gráfico de conhecimento é automaticamente construído para análises posteriores. Apresentamos um caso de uso com um corpus de ~34 milhões de documentos de texto baixados on-line para fornecer um exemplo de elucidação do papel das proteínas mitocondriais em fenótipos distintos de doenças cardiovasculares usando este método. Além disso, um modelo de aprendizagem profunda foi aplicado ao gráfico de conhecimento resultante para prever relações não relatadas anteriormente entre proteínas e doenças, resultando em 1.583 associações com probabilidades previstas >0,90 e com uma área sob a curva receiver operating characteristic (AUROC) de 0,91 no conjunto de teste. Este software possui um fluxo de trabalho altamente personalizável e automatizado, com um amplo escopo de dados brutos disponíveis para análise; portanto, usando esse método, associações proteína-doença podem ser identificadas com maior confiabilidade dentro de um corpus de texto.
O estudo de proteínas relacionadas a doenças aumenta o conhecimento científico da patogênese e ajuda a identificar potenciais terapêuticas. Vários grandes corpora de textos de publicações biomédicas, como os 34 milhões de artigos do PubMed contendo títulos de publicações, resumos e documentos de texto completo, relatam novas descobertas que ligam proteínas a doenças. No entanto, esses achados são fragmentados em várias fontes e devem ser integrados para gerar novos insights biomédicos. Existem vários recursos biomédicos para integrar as associações proteína-doença 1,2,3,4,5,6,7. No entanto, esses recursos selecionados são frequentemente incompletos e podem não abranger os resultados mais recentes da pesquisa. Abordagens de mineração de texto são essenciais para extrair e sintetizar associações proteína-doença em grandes corpora textuais, o que resultaria em uma compreensão mais abrangente desses conceitos biomédicos na literatura científica.
Existem múltiplas abordagens biomédicas de mineração de texto para descobrir relações proteína-doença 8,9,10,11,12,13,14, e outras contribuem em parte para determinar essas relações, identificando as proteínas, doenças ou outras entidades biomédicas mencionadas no texto 13,15,16,17, 18,19. No entanto, muitos desses instrumentos carecem de acesso à literatura mais atualizada, com exceção de alguns que são atualizados periodicamente8,11,13,15. Da mesma forma, muitos instrumentos também têm um escopo limitado de estudo, pois estão confinados a amplas doenças ou proteínas predefinidas 9,13. Várias abordagens também são propensas à identificação de falsos positivos dentro do texto; Outros abordaram essas questões com uma lista negra interpretável e global de nomes de proteínas 9,11 ou técnicas de reconhecimento de entidades de nomes menos interpretáveis15,20. Enquanto a maioria dos recursos apresenta apenas resultados pré-computados, algumas ferramentas oferecem interatividade via web apps ou código de software acessível 8,9,11.
Para abordar as limitações acima, apresentamos o seguinte protocolo, CaseOLAP com imputação de rótulo e texto completo (CaseOLAP LIFT), como uma plataforma flexível e personalizável para investigar associações entre proteínas (por exemplo, proteínas associadas a um componente celular) e doenças a partir de conjuntos de dados de texto. Essa plataforma apresenta curadoria automatizada de proteínas termo-específicas de ontologia gênica (GO) (por exemplo, proteínas específicas de organelas), imputação de rótulos de tópicos de documentos ausentes, análise de documentos de texto completo, bem como ferramentas de análise e ferramentas preditivas (Figura 1, Figura 2 e Tabela 1). O CaseOLAP LIFT seleciona proteínas específicas de organelas usando termos GO fornecidos pelo usuário (por exemplo, compartimento de organela) e proteínas funcionalmente relacionadas usando STRING21, Reactome 22 e GRNdb23. Os documentos que estudam doenças são identificados por seus rótulos de cabeçalho de assunto médico anotado no PubMed (MeSH). Para os ~15,1% de documentos sem rótulo, os rótulos são imputados se pelo menos um sinônimo de termo MeSH for encontrado no título ou pelo menos dois forem encontrados no resumo. Isso permite que publicações não categorizadas anteriormente sejam consideradas na análise de mineração de texto. O CaseOLAP LIFT também permite que o usuário selecione seções de publicações (por exemplo, apenas títulos e resumos, texto completo ou texto completo excluindo métodos) dentro de um período de tempo especificado (por exemplo, 2012-2022). O software também seleciona semi-automaticamente uma lista negra específica de casos de uso de nomes de proteínas, reduzindo vitalmente as associações de proteínas-doenças falso-positivas presentes em outras abordagens. No geral, essas melhorias permitem maior personalização e automação, expandem a quantidade de dados disponíveis para análise e produzem associações mais confiáveis de proteínas-doenças a partir de grandes corpora de texto biomédico.
CaseOLAP LIFT incorpora conhecimento biomédico e representa a relação de vários conceitos biomédicos usando um gráfico de conhecimento, que é aproveitado para prever relações ocultas no gráfico. Recentemente, métodos computacionais baseados em grafos têm sido aplicados em cenários biológicos, incluindo a integração e organização de conceitos biomédicos24,25, reaproveitamento e desenvolvimento de fármacos26,27,28, e para a tomada de decisão clínica a partir de dados proteômicos29.
Para demonstrar as utilidades do CaseOLAP LIFT no contexto da construção de um gráfico de conhecimento, destacamos um caso de uso na investigação das associações entre proteínas mitocondriais e oito categorias de doença cardiovascular. Evidências de ~362.000 documentos relevantes para doenças foram analisadas para identificar as principais proteínas mitocondriais e vias associadas às doenças. Em seguida, essas proteínas, suas proteínas funcionalmente relacionadas e seus resultados de mineração de texto foram incorporados em um gráfico de conhecimento. Este gráfico foi aproveitado em uma análise de predição de link baseada em aprendizado profundo para prever associações proteína-doença até agora não relatadas em publicações biomédicas.
A seção de introdução descreve as informações básicas e os objetivos do nosso protocolo. A seção a seguir descreve as etapas do protocolo computacional. Posteriormente, são descritos os resultados representativos desse protocolo. Finalmente, discutimos brevemente os casos de uso de protocolos computacionais, vantagens, desvantagens e aplicações futuras.
1. Executando o contêiner do docker
2. Preparação das doenças e proteínas
3. Mineração de texto
4. Análise dos resultados
5. Análise preditiva
Resultados representativos foram produzidos seguindo esse protocolo para estudar as associações entre proteínas mitocondriais (Tabela 2) e oito categorias de doenças cardiovasculares (Tabela 3). Nessas categorias, foram encontradas 363.567 publicações publicadas de 2012 a outubro de 2022 (362.878 categorizadas por metadados MeSH, 6.923 categorizadas por imputação de rótulo). Todas as publicações possuíam títulos, 276.524 tinham resumos e 51.065 tinham o texto completo disponível. No geral, 584 das 1.687 proteínas mitocondriais consultadas foram identificadas nas publicações, enquanto 3.284 de suas 8.026 proteínas funcionalmente relacionadas consultadas foram identificadas. No total, foram identificadas 14 proteínas únicas com escores significativos em todas as categorias de doenças, com limiar de escore z de 3,0 (Figura 5). A análise da via Reactome dessas proteínas revelou 12 vias significativas para todas as doenças (Figura 6). Todas as proteínas, vias, doenças e escores foram integrados em um gráfico de conhecimento (Tabela 4). Este gráfico de conhecimento foi aproveitado para prever 12.688 novas associações proteína-doença e filtrado com um escore de probabilidade de 0,90 para produzir 1.583 previsões de alta confiança. Um exemplo destacado de duas associações proteína-doença é mostrado na Figura 7, ilustrada no contexto de outras entidades biológicas relevantes funcionalmente relacionadas às proteínas. As métricas de avaliação do modelo estão relatadas na Tabela 5.
Figura 1: Visualização dinâmica do fluxo de trabalho. Esta figura representa as quatro etapas principais desse fluxo de trabalho. Primeiro, as proteínas relevantes são selecionadas com base nos termos de GO fornecidos pelo usuário (por exemplo, componentes celulares), e as categorias de doenças são preparadas com base nos identificadores MeSH de doença fornecidos pelo usuário. Em segundo lugar, as associações entre proteínas e doenças são calculadas na etapa de mineração de texto. As publicações dentro de um determinado intervalo de datas são baixadas e indexadas. As publicações que estudam doenças são identificadas (através de rótulos MeSH e, opcionalmente, através de rótulos imputados), e seus textos completos são baixados e indexados. Os nomes das proteínas são consultados nas publicações e usados para calcular os escores de associação proteína-doença. Em seguida, após a mineração de texto, essas pontuações ajudam a identificar as principais associações de proteínas e caminhos. Finalmente, constrói-se um gráfico de conhecimento englobando essas proteínas, doenças e suas relações dentro da base de conhecimento biomédico. Novas associações proteína-doença são previstas com base no gráfico de conhecimento construído. Essas etapas utilizam os dados mais recentes disponíveis nas bases de conhecimento biomédico e no PubMed. Clique aqui para ver uma versão maior desta figura.
Figura 2: Arquitetura técnica do fluxo de trabalho. Os detalhes técnicos desse fluxo de trabalho são ilustrados nesta figura. O usuário fornece os números da árvore MeSH das categorias de doenças e termo(s) GO. Os documentos de texto são baixados do PubMed, os documentos relevantes para doenças são identificados com base nos rótulos MeSH fornecidos e os documentos sem rótulos MeSH que indicam tópicos recebem rótulos de categoria imputados. As proteínas associadas ao(s) termo(s) GO fornecido(s) são adquiridas. Este conjunto de proteínas é expandido para incluir proteínas que são funcionalmente relacionadas através de interações proteína-proteína, vias biológicas compartilhadas, e dependência de fator de transcrição. Essas proteínas são consultadas em documentos relevantes para a doença e pontuadas pelo CaseOLAP. Clique aqui para ver uma versão maior desta figura.
Figura 3: Um exemplo de um documento processado. Um exemplo de um documento de texto analisado e indexado é apresentado aqui. Em ordem, os campos relevantes indicam o nome do índice (_index, _type), o ID do PubMed (_id, pmid), as subseções do documento (título, resumo, full_text, introdução, métodos, resultados, discussão) e outros metadados (ano, MeSH, local, periódico). Apenas para fins de exibição, as subseções do documento são truncadas com reticências. O campo MeSH contém os tópicos do documento, que às vezes podem ser fornecidos pela nossa etapa de imputação de rótulo. Clique aqui para ver uma versão maior desta figura.
Figura 4: Esquema gráfico de conhecimento e recursos biomédicos. Esta figura representa o esquema do gráfico de conhecimento. Cada nó e borda representa um tipo de nó ou borda, respectivamente. As bordas entre as doenças cardiovasculares (DCV) e as proteínas são ponderadas pelos escores de CaseOLAP. As bordas da interação proteína-proteína (IBP) são ponderadas pelos escores de confiança STRING. As bordas da TFD (transcription factor depended) derivada do GRNdb/GTEx, as bordas da árvore de doenças derivadas do MeSH e as bordas da via derivada do reactoma não são ponderadas. Clique aqui para ver uma versão maior desta figura.
Figura 5: Principais associações proteína-doença. Esta figura apresenta proteínas mitocondriais significativas para cada categoria de doença. A transformação do escore Z foi aplicada aos escores CaseOLAP dentro de cada categoria para identificar proteínas significativas usando um limiar de 3,0. (Topo) Número de proteínas mitocondriais significativas para cada doença: Estes gráficos de violino retratam a distribuição dos escores z para proteínas em cada categoria de doença. O número total de proteínas significativas para cada categoria de doença é mostrado acima de cada parcela de violino. Um total de 14 proteínas únicas foram identificadas como significativas em todas as doenças, e algumas proteínas foram significativas para várias doenças. (Parte inferior) Proteínas com melhor pontuação: O mapa de calor exibe as 10 principais proteínas que obtiveram os maiores escores z médios em todas as doenças. Os valores em branco não representam escore obtido entre a proteína e a doença. Clique aqui para ver uma versão maior desta figura.
Figura 6: Vias superiores-associações doença. Esta figura ilustra as principais vias biológicas associadas às categorias de doenças estudadas, determinadas através da análise da via do reatoma. Todas as análises de vias foram filtradas com p < 0,05. Os valores do mapa de calor representam o escore z médio de todas as proteínas dentro da via. (Topo) Vias conservadas entre todas as doenças: No geral, 14 proteínas foram identificadas com relevância para todas as categorias de doenças, e 12 vias conservadas entre todas as categorias de doenças foram reveladas. Um dendrograma foi construído com base na estrutura hierárquica da via para ligar as vias com funções biológicas semelhantes. A altura do dendrograma representa a profundidade relativa dentro da hierarquia da via; Funções biológicas amplas têm membros mais longos, e vias mais específicas têm membros mais curtos. (Parte inferior) Vias distintas para uma categoria de doença: A análise das vias foi realizada usando proteínas que alcançaram um escore z significativo em cada doença. As três principais vias com os menores valores de p associados a cada doença são mostradas e indicadas por asteriscos. Os caminhos podem estar entre os três primeiros em várias doenças. Clique aqui para ver uma versão maior desta figura.
Figura 7: Aplicação do deep learning para conclusão do gráfico de conhecimento. Um exemplo de aplicação do aprendizado profundo a um gráfico de conhecimento específico da doença é apresentado nesta figura. Relações ocultas entre proteínas e doenças são previstas, e estas são indicadas em azul. Probabilidades computadas para ambas as previsões são exibidas, com valores variando de 0,0 a 1,0 e com 1,0 indicando uma forte predição. Várias proteínas com interações conhecidas são incluídas, representando interações proteína-proteína, dependência de fator de transcrição e vias biológicas compartilhadas. Para visualização, um subgrafo de alguns nós com relevância para o exemplo destacado é mostrado. Chave: DIC = cardiopatia isquêmica; R-HSA-1430728 = metabolismo; O14949 = citocromo b-c1 complexo subunidade 8; P17568 = NADH desidrogenase (ubiquinona) 1 subunidade beta do subcomplexo 7; Q9NYF8 Bcl-2-associated transcription factor 1, escore: 7,24 x 10−7; P49821 = NADH desidrogenase (ubiquinona) flavoproteína 1, mitocondrial, escore: 1,06 x 10−5; P31930 = citocromo b-c1 complexo subunidade 1, mitocondrial, escore: 4,98 x 10−5; P99999 = citocromo c, escore: 0,399. Clique aqui para ver uma versão maior desta figura.
Tabela 1: Fluxo de trabalho e etapas de limitação de taxa. Esta tabela apresenta estimativas aproximadas do tempo computacional para cada estágio do fluxo de trabalho. As opções para incluir componentes do pipeline alterarão o tempo de execução total necessário para concluir a análise. A estimativa de tempo total varia de acordo com os recursos computacionais disponíveis, incluindo as especificações de hardware e configurações de software. Como uma estimativa aproximada, o protocolo levou 36 h de tempo de execução ativo para ser executado em nosso servidor computacional, com seis núcleos, 32 Gb de RAM e 2 Tb de armazenamento, mas isso pode ser mais rápido ou mais lento em outros dispositivos. Clique aqui para baixar esta tabela.
Tabela 2: Montagem automática das proteínas componentes celulares. Esta tabela mostra o número de proteínas associadas a um determinado componente celular (i.e., termo GO), proteínas funcionalmente relacionadas a eles via interações proteína-proteína (PPI), vias compartilhadas (PW) e dependência de fatores de transcrição (TFD). O número de proteínas totais é o número de proteínas de todas as categorias anteriores combinadas. Todas as proteínas funcionalmente relacionadas foram obtidas usando os parâmetros padrão do CaseOLAP LIFT. Clique aqui para baixar esta tabela.
Tabela 3: Estatísticas de imputação de rótulos MeSH. Esta tabela exibe as categorias de doenças, os números da árvore MeSH usados como o termo pai de todas as doenças incluídas na categoria, o número de artigos do PubMed encontrados em cada categoria de 2012 a 2022 e o número de artigos adicionais incluídos com base na etapa de imputação de rótulo. Clique aqui para baixar esta tabela.
Tabela 4: Estatísticas de construção de gráficos de conhecimento. Esta tabela descreve as estatísticas para o tamanho do gráfico de conhecimento construído, incluindo os vários nós e tipos de borda. Os escores CaseOLAP representam a relação entre uma proteína e uma categoria de doença cardiovascular (DCV). Clique aqui para baixar esta tabela.
Tabela 5: Estatísticas e validações de predição de gráficos de conhecimento. Esta tabela relata as métricas de avaliação para a predição de link do gráfico de conhecimento de associações novas/ocultas proteína-doença. As bordas do gráfico de conhecimento foram particionadas em conjuntos de dados de treinamento e teste 70/30, e a conectividade gráfica das bordas foi preservada em ambos os conjuntos de dados. A acurácia indica a proporção de predições corretamente classificadas, enquanto a acurácia balanceada corrige o desequilíbrio de classes. A especificidade indica a proporção de predições negativas corretamente classificadas. A precisão indica a proporção de predições positivas corretas de todas as previsões positivas, enquanto a recordação indica a proporção de predições positivas corretas de todas as arestas positivas (ou seja, associações proteína-doença identificadas via mineração de texto). O escore de F1 é a média harmônica da precisão e recordação. A área sob a curva receiver operating characteristic (AUROC) descreve quão bem o modelo distingue entre predições positivas e negativas, com 1,0 indicando um classificador perfeito. A área sob a curva de evocação de precisão (AUPRC) mede o trade-off entre precisão e evocação em limiares de probabilidade variados, com valores mais altos indicando melhor desempenho. Clique aqui para baixar esta tabela.
O CaseOLAP LIFT capacita os pesquisadores a investigar associações entre proteínas funcionais (por exemplo, proteínas associadas a um componente celular, processo biológico ou função molecular) e categorias biológicas (por exemplo, doenças). O protocolo descrito deve ser executado na sequência especificada, sendo a seção 2 do protocolo e a seção 3 do protocolo as etapas mais críticas, pois a seção 4 do protocolo e a seção 5 do protocolo dependem de seus resultados. Como alternativa à seção de protocolo 1, o código CaseOLAP LIFT pode ser clonado e acessado a partir do repositório GitHub (https://github.com/CaseOLAP/caseolap_lift). Deve-se notar que, apesar dos testes durante o desenvolvimento do software, bugs podem ocorrer. Em caso afirmativo, a etapa com falha deve ser repetida. Se o problema persistir, é recomendável repetir a seção 1 do protocolo para garantir que a versão mais recente do contêiner docker seja usada. Mais assistência está disponível criando um problema no repositório do GitHub para obter suporte adicional.
Esse método auxilia na geração de hipóteses, permitindo que os investigadores identifiquem entidades de interesse e revelem as potenciais associações entre elas, que podem não ser facilmente acessíveis nos recursos biomédicos existentes. As associações proteína-doença resultantes permitem que os pesquisadores obtenham novos insights por meio das métricas interpretáveis dos escores: os escores de popularidade indicam as proteínas mais estudadas em relação a uma doença, os escores de distinção indicam doenças mais exclusivas de uma proteína e o escore combinado CaseOLAP é uma combinação dos dois. Para evitar identificações falso-positivas (por exemplo, devido a homônimos), algumas ferramentas de mineração de texto utilizam uma lista negra de termos para evitar 9,11. Da mesma forma, o CaseOLAP LIFT também utiliza uma lista negra, mas permite que o usuário adapte a lista negra ao seu caso de uso. Por exemplo, ao estudar a doença arterial coronariana (DAC), "DAC" não deve ser considerado um nome para a proteína "desoxirribonuclease ativada por caspase". No entanto, ao estudar outros tópicos, "DAC" geralmente pode se referir à proteína.
CaseOLAP LIFT se adapta à quantidade de dados disponíveis para mineração de texto. A funcionalidade de intervalo de datas alivia a carga computacional e cria flexibilidade para a geração de hipóteses (por exemplo, estudar como o conhecimento científico sobre uma associação proteína-doença mudou ao longo do tempo). Enquanto isso, a imputação de rótulos e os componentes de texto completo aumentam o escopo de dados disponíveis para mineração de texto. Ambos os componentes são desabilitados por padrão para reduzir os custos computacionais, mas o usuário pode decidir incluir qualquer um dos componentes. A imputação de rótulos é conservadora e categoriza corretamente a maioria das publicações (87% de precisão), mas erra outros rótulos de categoria (2% lembram). Atualmente, esse método depende de uma heurística baseada em regras que corresponde às palavras-chave da doença, e há planos para melhorar o desempenho por meio do uso de técnicas de modelagem de tópicos de documentos. Como muitos relatórios não categorizados tendem a ser publicações recentes, estudos que investigam um intervalo de datas recente (por exemplo, todas as publicações nos últimos 3 anos) são mais bem atendidos pela desativação da imputação de rótulos. O componente de texto completo aumenta os requisitos de tempo de execução e armazenamento. Notavelmente, apenas uma minoria dos documentos tem o texto completo disponível (~14% dos documentos em nosso estudo). Supondo que os nomes de proteínas mencionados na seção de métodos das publicações são menos prováveis de estarem relacionados aos tópicos da doença, recomenda-se consultar artigos completos excluindo a seção de métodos.
Os escores de associação proteína-doença resultantes são úteis para análises tradicionais, como agrupamento, redução de dimensionalidade ou análises de enriquecimento (por exemplo, GO, vias), com alguma implementação incluída neste pacote de software. Para contextualizar esses escores dentro do conhecimento biomédico existente, um gráfico de conhecimento é construído automaticamente e pode ser explorado usando ferramentas de visualização de gráficos (por exemplo, Neo4j32, Cytoscape33). O gráfico de conhecimento também pode ser usado para análises preditivas (por exemplo, predição de link de relações proteína-doença não relatadas, detecção comunitária de redes de proteínas, métodos de caminhada por caminhos de coleta de prêmios).
Examinamos as métricas de avaliação do modelo para as associações prometidas-doença previstas (Tabela 5). O modelo atribui um escore de probabilidade entre 0,0 e 1,0 para cada associação proteína-doença, com escores mais próximos de 1,0 indicando maior nível de confiança na predição. A avaliação interna do desempenho do modelo, que foi baseada em várias métricas, incluindo o AUROC, precisão, precisão balanceada, especificidade e recall, indicou excelente desempenho geral em seu trabalho. No entanto, a avaliação também destacou uma pontuação bastante ruim para a precisão (0,15) do modelo, resultando em uma pontuação mais baixa de AUPRC e F1. Estudos futuros para melhorar essa métrica ajudarão a elevar o desempenho geral do modelo. Imaginamos que isso poderia ser alcançado implementando modelos mais sofisticados de incorporação de gráficos e previsão de gráficos. Com base na precisão do modelo de 0,15, os investigadores deveriam antecipar aproximadamente 15% de identificações positivas; Em particular, de todas as 12.688 associações proteína-doença previstas pelo modelo, aproximadamente 15% são associações verdadeiro-positivas. Isso pode ser atenuado considerando-se apenas associações proteína-doença com um alto escore de probabilidade (por exemplo, >0,90); Em nosso caso de uso, a filtragem com um limiar de probabilidade de 0,90 levou a predições de alta confiança de 1.583 associações. Os investigadores podem achar útil também inspecionar manualmente essas previsões para garantir alta validade (veja a Figura 7 como exemplo). Uma avaliação externa de nossas previsões determinou que das 310 associações proteína-doença de um extenso banco de dados curado DisGeNet19, 103 foram identificadas em nosso estudo de mineração de texto, e 88 associações adicionais foram previstas por nossa análise de gráfico de conhecimento com um escore de probabilidade >0,90.
No geral, o CaseOLAP LIFT apresenta maior flexibilidade e usabilidade na concepção de análises personalizadas das associações entre grupos de proteínas funcionais e múltiplas categorias de doenças em grandes corpora de texto. Este pacote é simplificado em uma nova interface de linha de comando amigável e é lançado como um contêiner docker, reduzindo assim os problemas associados à configuração dos ambientes de programação e dependências de software. O pipeline CaseOLAP LIFT para estudar proteínas mitocondriais em doenças cardiovasculares pode ser facilmente adaptado; por exemplo, futuras aplicações dessa técnica poderiam envolver a investigação das associações entre quaisquer proteínas associadas a quaisquer termos GO e qualquer categoria biomédica. Além disso, as associações de proteínas-doenças identificadas por esta plataforma de mineração de texto são importantes na preparação do conjunto de dados para o uso de técnicas avançadas de linguagem natural. O gráfico de conhecimento resultante permite que os investigadores convertam esses achados em conhecimento biologicamente informativo e estabelece as bases para análises baseadas em gráficos de acompanhamento.
Os autores não têm nada a revelar.
Este trabalho foi apoiado pelo National Institutes of Health (NIH) R35 HL135772 para P.P., NIH T32 HL13945 para A.R.P. e D.S., NIH T32 EB016640 para A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 para A.R.P. e D.S., NIH R01 HL146739 para I.A., J.R., A.V., K.B., e TC Laubisch Endowment para P.P. na UCLA.
Name | Company | Catalog Number | Comments |
Software - Docker | Docker | N/A | docker.com |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoExplore Mais Artigos
This article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados