Este protocolo computacional é significativo porque permite um trabalho investigar associações entre componentes celulares, por exemplo, proteínas mitocondriais e suas associações com doenças, como relatado em publicações biomédicas. O CaseOLAP LIFT capacita os investigadores a extrair e integrar informações de relatórios biomédicos e bases de conhecimento. Organizados como um gráfico de conhecimento, esses resultados podem ser aproveitados para prever novas relações.
Esses resultados de pesquisa apoiam a geração de hipóteses, destacando uma lista priorizada de associações de doenças proteicas identificadas e previstas, úteis para descobrir novos insights sobre a patologia e a terapêutica da doença. Este fluxo de trabalho altamente personalizável pode ser aplicado a qualquer componente celular através de seu termo GO para qualquer lista de doenças através de seu termo MeSH dentro de qualquer intervalo de data de publicação. Este protocolo fácil de usar minimiza o conhecimento computacional necessário para a análise.
O software é lançado como um contêiner docker, exigindo apenas armazenamento computacional e recursos suficientes para ser executado. Para começar, abra a janela do terminal para baixar o contêiner docker CaseOLAP LIFT e digite docker pull CaseOLAP slash CaseOLAP_LIFT mais recente. Crie um diretório que armazenará todos os dados e saída do programa.
Inicie o contêiner do docker com o comando mostrado na tela, substituindo-PATH_TO_FOLDER como o caminho completo do arquivo para a pasta. Para iniciar o Elasticsearch dentro do contêiner, abra uma nova janela de terminal e digite o comando mostrado na tela. Navegue até a pasta CaseOLAP_LIFT.
Certifique-se de que os links de download e a barra de configuração knowledge_base_links. JSON são atualizados e precisos para a versão mais recente de cada recurso da Base de Conhecimento. Para determinar a ontologia gênica ou o termo GO, acesse o site geneontologia.
org, e encontrar os identificadores para todos os termos GO. Da mesma forma, encontre as categorias de doenças por meio do Medical Subject Header ou identificadores MeSH no site mostrado na tela. Para executar o módulo de pré-processamento, indique os termos GO estudados definidos pelo usuário usando o sinalizador C do traço, os números da árvore MeSH da doença usando o sinalizador do traço D e especifique abreviações com um sinalizador do traço A.
Para executar o módulo de mineração de texto, digite Python, space CaseOLAP_LIFT. py, space, text_mining, e adicione o sinalizador de traço L para imputar os tópicos de documentos não categorizados, e o sinalizador de traço T para baixar o texto completo dos documentos relevantes da doença. Verifique se os resultados da mineração de texto estão na pasta de resultados.
Indique os resultados de mineração de texto a serem usados para a análise, especificando analisar todas as proteínas para incluir todas as proteínas funcionalmente relacionadas, ou analisar proteínas centrais para incluir apenas as proteínas relacionadas ao termo GO. Para identificar as principais proteínas e vias para cada doença, os escores CaseOLAP são Z-score transformados dentro de cada categoria de doença. Especifique o sinalizador Z do traço para indicar uma pontuação de limite especificada acima da qual as proteínas serão consideradas significativas.
Revise os resultados da análise e ajuste conforme necessário. Abra o arquivo z_score_cutoff_table. csv para visualizar a tabela Z-score gerada que contém o número de proteínas significativas para cada categoria de doença.
Isso ajuda a informar o usuário para selecionar um limite de pontuação Z apropriado. Abra a pasta de resultados e verifique se os arquivos necessários, incluindo a pasta gerada a partir do pré-processamento, estão na pasta. Verifique se há todas as proteínas nas pastas de proteínas principais.
Para projetar o gráfico de conhecimento, inclua a árvore de doenças MeSH com o sinalizador include MeSH. As interações proteína-proteína da cadeia com incluem o sinalizador PPI, os caminhos Reactome compartilhados com o sinalizador PW e a dependência do fator de transcrição do GRNdb GTEx com o sinalizador do TFD incluído. Execute o módulo de construção do gráfico de conhecimento especificando as proteínas do núcleo de análise para incluir apenas as proteínas relacionadas ao termo GO.
Para dimensionar os pesos de borda, use a escala Z-score para escores Z não negativos em vez dos escores CaseOLAP padrão. Verifique a saída e certifique-se de que os arquivos do gráfico de conhecimento merged_edges. TSV e merged_nodes.
Os arquivos TSV estão presentes. Finalmente, digite o comando mostrado na tela para executar o script de previsão do gráfico de conhecimento para prever as associações de doenças proteicas. Esta figura apresenta proteína mitocondrial significativa para cada categoria de doença.
A transformação Z-score foi aplicada aos escores CaseOLAP dentro de cada categoria para identificar proteínas significativas usando um limiar de três. O número total de proteínas significativas para cada categoria de doença é mostrado acima de cada parcela de violino. A análise da via Reactome dessas proteínas revelou 12 vias significativas para todas as doenças.
Um exemplo de aplicação do aprendizado profundo a um gráfico de conhecimento específico de uma doença é apresentado nesta figura. As relações ocultas entre as proteínas e a doença são previstas, e as probabilidades computadas para ambas as previsões são exibidas aqui com valores que variam de zero a um, onde um indica uma forte predição. A sequência especificada é crucial para a execução deste protocolo, particularmente os módulos de pré-processamento e mineração de texto.
Essas duas etapas influenciam diretamente na identificação das principais proteínas e vias para cada doença, bem como na construção do gráfico de conhecimento específico da doença. O gráfico de conhecimento resultante é efetivamente visualizado por ferramentas gráficas, como Neo4j e Cytoscape, e pode ser aproveitado para previsões avançadas de aprendizado profundo de novos relacionamentos. CaseOLAP LIFT permite o estudo de associações entre qualquer componente celular e categorias de doenças.
O gráfico de conhecimento resultante e as associações de doenças de proteínas classificadas suportam o processamento de linguagem natural e análises baseadas em gráficos de acompanhamento.