Questo protocollo computazionale è significativo perché consente di studiare le associazioni tra componenti cellulari, ad esempio le proteine dei mitocondri e le loro associazioni con le malattie, come riportato in pubblicazioni biomediche. CaseOLAP LIFT consente agli investigatori di estrarre e integrare informazioni da rapporti biomedici e basi di conoscenza. Organizzati come un grafo della conoscenza, questi risultati possono essere sfruttati per prevedere nuove relazioni.
Questi risultati della ricerca supportano la generazione di ipotesi evidenziando un elenco prioritario di associazioni di malattie proteiche identificate e previste, utili per scoprire nuove intuizioni sulla patologia della malattia e sulla terapia. Questo flusso di lavoro altamente personalizzabile può essere applicato a qualsiasi componente cellulare tramite il termine GO a qualsiasi elenco di malattie tramite il termine MeSH entro qualsiasi intervallo di date di pubblicazione. Questo protocollo di facile utilizzo riduce al minimo le competenze computazionali necessarie per l'analisi.
Il software viene rilasciato come contenitore docker, richiedendo solo spazio di archiviazione e risorse computazionali sufficienti per l'esecuzione. Per iniziare, aprire la finestra del terminale per scaricare il contenitore docker CaseOLAP LIFT e digitare docker pull CaseOLAP slash CaseOLAP_LIFT più recente. Creare una directory che memorizzi tutti i dati e l'output del programma.
Avviare il contenitore docker con il comando visualizzato sullo schermo, sostituendo PATH_TO_FOLDER come percorso completo del file per la cartella. Per avviare Elasticsearch all'interno del container, apri una nuova finestra di terminale e digita il comando mostrato sullo schermo. Passare alla cartella CaseOLAP_LIFT.
Assicurati che i link per il download e la barra di configurazione knowledge_base_links. JSON sono aggiornati e accurati per la versione più recente di ogni risorsa della Knowledge Base. Per determinare l'ontologia genica o il termine GO, vai al sito web di geneontologia.
org e trovare gli identificatori per tutti i termini GO. Allo stesso modo, trova le categorie di malattie tramite l'intestazione del soggetto medico o gli identificatori MeSH dal sito Web mostrato sullo schermo. Per eseguire il modulo di pre-elaborazione, indicare i termini GO studiati definiti dall'utente utilizzando il flag dash C, i numeri dell'albero MeSH della malattia utilizzando il flag dash D e specificare le abbreviazioni con un flag dash A.
Per eseguire il modulo di text mining, digitare Python, space, CaseOLAP_LIFT. py, space, text_mining e aggiungere il flag dash L per imputare gli argomenti dei documenti non categorizzati e il flag dash T per scaricare il testo completo dei documenti rilevanti per la malattia. Assicurarsi che i risultati del text mining si trovino nella cartella dei risultati.
Indicare i risultati del text mining da utilizzare per l'analisi specificando analizza tutte le proteine per includere tutte le proteine funzionalmente correlate oppure analizza le proteine core per includere solo le proteine correlate al termine GO. Per identificare le proteine e i percorsi principali per ciascuna malattia, i punteggi CaseOLAP sono Z-score trasformati all'interno di ciascuna categoria di malattia. Specificare il flag Z del trattino per indicare un punteggio di soglia specificato al di sopra del quale le proteine saranno considerate significative.
Esaminare i risultati dell'analisi e apportare le modifiche necessarie. Aprire il file z_score_cutoff_table. csv per visualizzare la tabella Z-score generata che contiene il numero di proteine significative per ciascuna categoria di malattia.
In questo modo è possibile informare l'utente di selezionare una soglia di punteggio Z appropriata. Aprire la cartella dei risultati e assicurarsi che i file richiesti, inclusa la cartella generata dalla pre-elaborazione, siano presenti nella cartella. Controlla tutte le proteine nelle cartelle delle proteine principali.
Per progettare il grafo della conoscenza, includere l'albero delle malattie MeSH con il flag di inclusione MeSH. Le interazioni proteina-proteina dalla stringa con il flag include PPI, le vie del reattomo condivise con il flag include PW e la dipendenza del fattore di trascrizione da GRNdb GTEx con il flag include TFD. Eseguire il modulo di costruzione del grafo della conoscenza specificando l'analisi delle proteine principali in modo da includere solo le proteine correlate al termine GO.
Per ridimensionare gli spessori dei bordi, utilizzare il punteggio Z della scala per i punteggi Z non negativi anziché i punteggi CaseOLAP predefiniti. Controlla l'output e assicurati che i file del Knowledge Graph merged_edges. TSV e merged_nodes.
TSV sono presenti. Infine, digitare il comando visualizzato sullo schermo per eseguire lo script di previsione del grafico della conoscenza per prevedere le associazioni di malattie proteiche. Questa figura presenta la proteina mitocondriale significativa per ciascuna categoria di malattia.
La trasformazione Z-score è stata applicata ai punteggi CaseOLAP all'interno di ciascuna categoria per identificare le proteine significative utilizzando una soglia di tre. Il numero totale di proteine significative per ciascuna categoria di malattia è mostrato sopra ogni grafico a violino. L'analisi del pathway Reactome di queste proteine ha rivelato 12 pathway significativi per tutte le malattie.
In questa figura viene presentato un esempio di applicazione del deep learning a un grafo della conoscenza specifico della malattia. Vengono previste le relazioni nascoste tra le proteine e la malattia e le probabilità calcolate per entrambe le previsioni vengono visualizzate qui con valori che vanno da zero a uno, dove uno indica una previsione forte. La sequenza specificata è fondamentale per l'esecuzione di questo protocollo, in particolare per i moduli di pre-elaborazione e text mining.
Questi due passaggi influenzano direttamente l'identificazione delle proteine e dei percorsi principali per ciascuna malattia, nonché la costruzione del grafo di conoscenza specifico della malattia. Il grafo della conoscenza risultante viene visualizzato in modo efficace da strumenti grafici, come Neo4j e Cytoscape, e può essere sfruttato per previsioni avanzate di deep learning di nuove relazioni. CaseOLAP LIFT consente lo studio delle associazioni tra qualsiasi componente cellulare e categorie di malattie.
Il grafo della conoscenza risultante e le associazioni classificate delle malattie proteiche supportano l'elaborazione del linguaggio naturale e le analisi basate su grafici di follow-up.