Nosso protocolo fornece uma medida passo a passo para a construção de uma plataforma de mineração de frases baseada em nuvem para associação de categorias de entidades definida pelo usuário, para avaliar a associação de proteínas, genomas ou produtos químicos com doenças específicas. As principais vantagens dessa técnica são sua maior eficiência sobre a avaliação da associação de categorias de entidades manuais, maior acessibilidade e uso de ferramentas de mineração de frases para aplicações de pesquisa biomédica generalizadas. Os usuários podem selecionar entidades e categorias de interesse dentro de publicações biomédicas ou dentro de documentos de texto associados a palavras-chave específicas.
Novos usuários podem seguir nosso protocolo e as referências fornecidas no manuscrito, e eles podem levantar questões técnicas dentro do nosso repositório GitHub. A demonstração visual desta matéria adiciona mais clareza à forma de executar o protocolo, e incentiva a implementação de novas ferramentas de mineração de texto. Para criar um cubo de texto, primeiro baixe os últimos títulos de assunto médico disponíveis ou árvore de malha.
O código para árvore de malha 2018 é MESHTree2018. bin, e deve ser inserido no diretório de entrada. Defina as categorias de interesse usando um ou mais descritores de malha e colete IDs de malha para uma categoria.
Salve os nomes das categorias no textcube_config. arquivo json no diretório de config, e adicione as categorias coletadas dos IDs de malha em uma linha separada por um espaço. Salve o arquivo de categoria como categorias.
txt no diretório de entrada. Este algoritmo seleciona automaticamente todos os descritores de malha descendentes. Certifique-se de que a malha2pmid.
Json está no diretório de dados. Se a árvore de malha tiver sido atualizada com um nome diferente no diretório de entrada, certifique-se de que isso esteja devidamente representado no caminho de dados de entrada no run_textcube. py arquivo.
Para criar uma estrutura de documento chamada text-cube, digite run_textcube python. py no terminal para criar uma coleção de documentos para cada categoria. Um único documento pode se enquadrar em várias categorias.
Uma vez concluída a etapa de criação do cubo de texto, certifique-se de que uma célula da tabela PMID seja salva no diretório de dados como textcube_cell2pmid.json. Um PMID na tabela de mapeamento celular é salvo no diretório de dados como textcube_pmid2cell.json. Uma coleção de todos os termos de malha descendente para uma célula é salva no diretório de dados como meshterms_per_cat.json.
E as estatísticas de dados do cubo de texto são salvas no diretório de dados como textcube_stat.txt. Em seguida, vá ao diretório de registro para ler as mensagens de registro em textcube_log. txt, no caso deste processo falhar.
Se o processo for concluído com sucesso, as mensagens de depuração da criação do cubo de texto serão impressas no arquivo de registro. Para uma contagem de entidades, crie entidades definidas pelo usuário, colocando uma entidade e suas abreviaturas em uma única linha, separadas pelo símbolo da linha vertical. Salve o arquivo da entidade como entidades.
txt no diretório de entrada e certifique-se de que o servidor Elasticsearch esteja em execução. Se um banco de dados indexado chamado PubMed estiver presente no servidor Elasticsearch, confirme a presença do textcube_pmid2cell. arquivo json no diretório de dados e digite python run_entitycount.
py no terminal para realizar uma operação de contagem de entidades. Quando todos os documentos da base de dados de índices e o número de entidades em cada documento foram contados, e os PMIDs em que as entidades foram encontradas foram coletados, salvo os resultados finais como contagem de entidades. txt e entityfound_pmid2cell.
json no diretório de dados. Em seguida, abra o diretório de registro para ler as mensagens de registro no entitycount_log. txt, no caso deste processo falhar.
Se o processo for concluído com sucesso, as mensagens de depuração da contagem da entidade serão impressas no arquivo de registro. Certifique-se de que todos os dados de entrada estão no diretório de dados. Estes são os dados de entrada para a atualização de metadados.
Para preparar uma coleção de metadados, digite run_metadata_update python. py no terminal para atualizar os metadados. Uma vez que a atualização de metadados esteja completa, certifique-se de que o metadata_pmid2pcount.
Json e metadata_cell2pmid. os arquivos json são salvos no diretório de dados. Vá ao diretório de registro para ler as mensagens de registro no metadata_update_log.
arquivo txt, caso este processo falhe. Se o processo for concluído com sucesso, as mensagens de depuração da atualização de metadados serão impressas no arquivo de registro. Para o cálculo do escore de processamento analítico on-line semântico, confirme a presença do metadata_pmid2pcount.
Json e metadata_cell2pmid. arquivos json no diretório de dados. Estes são os dados de entrada para o cálculo da pontuação.
Digite run_caseolap_score python. py no terminal para realizar um cálculo de pontuação de processamento analítico on-line semântico consciente do contexto das entidades com base em categorias definidas pelo usuário. A pontuação é o produto da integridade, popularidade e distinção.
Uma vez que o cálculo de pontuação esteja concluído, confirme se os resultados são salvos no diretório de resultados. Em seguida, acesse o diretório de registro para ler as mensagens de registro no caseolab_score_log. arquivo txt, caso este processo falhe.
Se o processo for concluído com sucesso, as mensagens de depuração do cálculo de pontuação do caseolab serão impressas no arquivo de registro. Utilizando-se os metadados e estatísticas obtidos das subcategorias de quatro idades infantis, crianças, adolescentes e adultos, pode-se exibir uma comparação do número de documentos entre as células text-cube. Aqui, a subcategoria adulta contém o maior número em todas as células, com as subcategorias adultos e adolescentes com o maior número de documentos compartilhados, e contendo a entidade de interesse para esta análise representativa.
A avaliação da associação da faixa etária proteica como um escore de processamento analítico semântico semântico consciente do contexto, as 10 principais proteínas associadas às subcategorias infantis, infantis, adolescentes e adultas puderam ser determinadas. Aqui, são mostrados metadados e estatísticas para as subcategorias de doenças nutricionais e metabólicas. A doença metabólica da subcategoria contém quase três vezes mais documentos do que a subcategoria de distúrbios nutricionais.
As subcategorias da doença metabólica e das doenças nutricionais têm 7.101 documentos compartilhados. Notavelmente, esses documentos incluíam a entidade de interesse para o estudo representativo. Mais da metade de todas as proteínas são compartilhadas entre as subcategorias, com quase metade de todas as proteínas associadas na subcategoria da doença metabólica única a essa subcategoria, e com a subcategoria de distúrbios nutricionais exibindo apenas algumas proteínas únicas.
Categorias independentes e distintas, e uma coleção de todos os sinônimos e abreviaturas de uma entidade proporcionarão os melhores resultados. Uma vez que a associação de categorias de entidades é apresentada como um valor numérico, isso abre as portas para a implementação de técnicas de aprendizagem ausentes, como clustering e análise de componentes de princípios. Essa técnica facilita a descoberta de relações ocultas ou não identificadas dentro dessas associações, abrindo caminho para uma compreensão mais profunda dos processos biológicos.