Il nostro protocollo fornisce una misura passo-passo per la creazione di una piattaforma di estrazione di frasi basata sul cloud per l'associazione di categorie di entità definite dall'utente, per valutare l'associazione di proteine, genomi o sostanze chimiche con malattie specifiche. I principali vantaggi di questa tecnica sono la sua migliore efficienza rispetto alla valutazione manuale dell'associazione delle categorie di entità, una maggiore accessibilità e l'uso di strumenti di estrazione di frasi per diffuse applicazioni di ricerca biomedica. Gli utenti possono selezionare entità e categorie di interesse all'interno di pubblicazioni biomediche o all'interno di documenti di testo associati a parole chiave specifiche.
I nuovi utenti possono seguire il nostro protocollo e i riferimenti forniti nel manoscritto e possono sollevare problemi tecnici all'interno del nostro repository GitHub. La dimostrazione visiva di questo argomento aggiunge maggiore chiarezza su come eseguire il protocollo e incoraggia l'implementazione di nuovi strumenti di estrazione del testo. Per creare un cubo di testo, scaricare innanzitutto le intestazioni dei soggetti medici disponibili più recenti o albero mesh.
Il codice per l'albero mesh 2018 è MESHTree2018. contenitore e deve essere immesso nella directory di input. Definire le categorie di interesse utilizzando uno o più descrittori mesh e raccogliere gli ID mesh per una categoria.
Salvare i nomi delle categorie nella textcube_config. json nella directory di configurazione e aggiungere le categorie raccolte degli ID mesh in una riga separata da uno spazio. Salvare il file di categoria come categorie.
txt nella directory di input. Questo algoritmo seleziona automaticamente tutti i descrittori mesh discendenti. Assicurarsi che mesh2pmid.
json si trova nella directory dei dati. Se l'albero mesh è stato aggiornato con un nome diverso nella directory di input, assicurarsi che sia rappresentato correttamente nel percorso dei dati di input nella run_textcube. py.
Per creare una struttura di documento denominata text-cube, immettere python run_textcube. py nel terminale per creare una raccolta di documenti per ogni categoria. Un singolo documento può rientrare in più categorie.
Una volta completato il passaggio di creazione del cubo di testo, assicurarsi che una cella della tabella PMID sia salvata nella directory dati come textcube_cell2pmid.json. Un PMID nella tabella di mapping delle celle viene salvato nella directory dati come textcube_pmid2cell.json. Una raccolta di tutti i termini mesh discendenti per una cella viene salvata nella directory dati come meshterms_per_cat.json.
E le statistiche dei dati del cubo di testo vengono salvate nella directory dei dati textcube_stat.txt. Passare quindi alla directory di registro per leggere i messaggi di registro in textcube_log. txt, nel caso in cui questo processo non riesca.
Se il processo viene completato correttamente, i messaggi di debug della creazione del cubo di testo verranno stampati nel file di registro. Per un conteggio delle entità, creare entità definite dall'utente, posizionando un'entità e le relative abbreviazioni in un'unica riga, separate dal simbolo della linea verticale. Salvare il file di entità come entità.
txt nella directory di input e assicurarsi che il server Elasticsearch sia in esecuzione. Se nel server Elasticsearch è presente un database indicizzato denominato PubMed, verificare la presenza del textcube_pmid2cell. json nella directory dei dati, e immettere python run_entitycount.
py nel terminale per eseguire un'operazione di conteggio delle entità. Quando tutti i documenti del database di indice e il numero di entità in ogni documento sono stati conteggiati e i PMID in cui sono state trovate entità sono stati raccolti, salvare i risultati finali come entitycount. txt e entityfound_pmid2cell.
json nella directory dei dati. Aprire quindi la directory di registro per leggere i messaggi di registro nel entitycount_log. txt, nel caso in cui questo processo non riesca.
Se il processo viene completato correttamente, i messaggi di debug del conteggio delle entità verranno stampati nel file di registro. Assicurarsi che tutti i dati di input si trovano nella directory dei dati. Questi sono i dati di input per l'aggiornamento dei metadati.
Per preparare una raccolta di metadati, inserisci python run_metadata_update. py nel terminale per aggiornare i metadati. Una volta completato l'aggiornamento dei metadati, assicurarsi che il metadata_pmid2pcount.
json e metadata_cell2pmid. i file json vengono salvati nella directory dei dati. Passare alla directory di registro per leggere i messaggi di registro nel metadata_update_log.
txt, nel caso in cui questo processo non riesca. Se il processo viene completato correttamente, i messaggi di debug dell'aggiornamento dei metadati verranno stampati nel file di registro. Per il calcolo del punteggio di elaborazione analitica online semantica in grado di riconoscere il contesto, confermare la presenza del metadata_pmid2pcount.
json e metadata_cell2pmid. json nella directory dei dati. Questi sono i dati di input per il calcolo del punteggio.
Immettere python run_caseolap_score. py nel terminale per eseguire un calcolo del punteggio di elaborazione analitica semantica online in grado di riconoscere il contesto delle entità in base a categorie definite dall'utente. Il punteggio è il prodotto di integrità, popolarità e distintività.
Una volta completato il calcolo del punteggio, verificare che i risultati siano stati salvati nella directory dei risultati. Accedere quindi alla directory di registro per leggere i messaggi di registro nel caseolab_score_log. txt, nel caso in cui questo processo non riesca.
Se il processo viene completato correttamente, i messaggi di debug del calcolo del punteggio caseolab verranno stampati nel file di registro. Utilizzando i metadati e le statistiche ottenuti dalle sottocategorie di quattro classi di età infantile, infantile, adolescenziale e adulta, è possibile visualizzare un confronto del numero di documenti tra le cellule del cubo di testo. Qui, la sottocategoria per adulti contiene il numero più alto in tutte le cellule, con le sottocategorie adulte e adolescenti che hanno il maggior numero di documenti condivisi e contengono l'entità di interesse per questa analisi rappresentativa.
Valutazione dell'associazione della fascia di età proteica come punteggio di elaborazione analitica semantica online consapevole del contesto, le prime 10 proteine associate alle sottocategorie infantili, infantili, adolescenti e adulte sono state in grado di essere determinate. Qui vengono mostrati i metadati ottenuti e le statistiche per le sottocategorie di malattie nutrizionali e metaboliche. La malattia metabolica della sottocategoria contiene quasi il triplicare i documenti della sottocategoria dei disturbi nutrizionali.
Le sottocategorie malattie metaboliche e disturbi nutrizionali hanno 7.101 documenti condivisi. In particolare, questi documenti includevano l'entità di interesse per lo studio rappresentativo. Più della metà di tutte le proteine sono condivise tra le sottocategorie, con quasi la metà di tutte le proteine associate nella sottocategoria della malattia metabolica unica in quella sottocategoria, e con la sottocategoria dei disturbi nutrizionali che esibisce solo poche proteine uniche.
Categorie indipendenti e distinte e una raccolta di tutti i sinonimi e le abbreviazioni di un'entità forniranno i migliori risultati. Poiché l'associazione delle categorie di entità è presentata come un valore numerico, ciò apre le porte all'implementazione di tecniche di apprendimento mancanti come il clustering e l'analisi dei componenti principali. Questa tecnica facilita la scoperta di relazioni nascoste o precedentemente non identificate all'interno di queste associazioni, spianando la strada a una comprensione più profonda dei processi biologici.