Vengono presentati un protocollo computazionale, CaseOLAP LIFT, e un caso d'uso per studiare le proteine mitocondriali e le loro associazioni con le malattie cardiovascolari come descritto nei rapporti biomedici. Questo protocollo può essere facilmente adattato per studiare i componenti cellulari e le malattie selezionate dall'utente.
Le grandi quantità di referti biomedici, in rapido aumento, ciascuno contenente numerose entità e ricche informazioni, rappresentano una ricca risorsa per le applicazioni di text-mining biomedico. Questi strumenti consentono ai ricercatori di integrare, concettualizzare e tradurre queste scoperte per scoprire nuove intuizioni sulla patologia e sulle terapie della malattia. In questo protocollo, presentiamo CaseOLAP LIFT, una nuova pipeline computazionale per studiare i componenti cellulari e le loro associazioni di malattie estraendo informazioni selezionate dall'utente da set di dati testuali (ad esempio, letteratura biomedica). Il software identifica le proteine subcellulari e i loro partner funzionali all'interno di documenti rilevanti per la malattia. Ulteriori documenti rilevanti per la malattia vengono identificati tramite il metodo di imputazione delle etichette del software. Per contestualizzare le associazioni proteina-malattia risultanti e per integrare le informazioni provenienti da più risorse biomediche rilevanti, viene costruito automaticamente un grafo di conoscenza per ulteriori analisi. Presentiamo un caso d'uso con un corpus di ~ 34 milioni di documenti di testo scaricati online per fornire un esempio di chiarimento del ruolo delle proteine mitocondriali in fenotipi distinti di malattie cardiovascolari utilizzando questo metodo. Inoltre, un modello di deep learning è stato applicato al grafo della conoscenza risultante per prevedere le relazioni precedentemente non riportate tra proteine e malattia, risultando in 1.583 associazioni con probabilità previste >0,90 e con un'area sotto la curva caratteristica operativa del ricevitore (AUROC) di 0,91 sul set di test. Questo software presenta un flusso di lavoro altamente personalizzabile e automatizzato, con un'ampia gamma di dati grezzi disponibili per l'analisi; Pertanto, utilizzando questo metodo, le associazioni proteina-malattia possono essere identificate con maggiore affidabilità all'interno di un corpus di testo.
Lo studio delle proteine correlate alla malattia migliora la conoscenza scientifica della patogenesi e aiuta a identificare potenziali terapie. Diversi grandi corpora testuali di pubblicazioni biomediche, come i 34 milioni di articoli di PubMed contenenti titoli di pubblicazioni, abstract e documenti full-text, riportano nuove scoperte che collegano le proteine alle malattie. Tuttavia, questi risultati sono frammentati in varie fonti e devono essere integrati per generare nuove intuizioni biomediche. Esistono diverse risorse biomediche per integrare le associazioni proteina-malattia 1,2,3,4,5,6,7. Tuttavia, queste risorse curate sono spesso incomplete e potrebbero non comprendere gli ultimi risultati della ricerca. Gli approcci di text-mining sono essenziali per estrarre e sintetizzare le associazioni proteina-malattia in corpora di testo di grandi dimensioni, il che si tradurrebbe in una comprensione più completa di questi concetti biomedici nella letteratura scientifica.
Esistono molteplici approcci biomedici di text-mining per scoprire le relazioni proteina-malattia 8,9,10,11,12,13,14, e altri contribuiscono in parte a determinare queste relazioni identificando le proteine, le malattie o altre entità biomediche menzionate nel testo 13,15,16,17, 18,19. Tuttavia, molti di questi strumenti non hanno accesso alla letteratura più aggiornata, ad eccezione di alcuni che vengono periodicamente aggiornati 8,11,13,15. Allo stesso modo, anche molti strumenti hanno un ambito di studio limitato, in quanto sono limitati a malattie o proteine predefinite 9,13. Diversi approcci sono anche inclini all'identificazione di falsi positivi all'interno del testo; Altri hanno affrontato questi problemi con una lista nera interpretabile e globale di nomi di proteine 9,11 o meno tecniche di riconoscimento delle entità dei nomi dei nomi15,20. Mentre la maggior parte delle risorse presenta solo risultati pre-calcolati, alcuni strumenti offrono interattività tramite app Web o codice software accessibile 8,9,11.
Per affrontare le limitazioni di cui sopra, presentiamo il seguente protocollo, CaseOLAP con imputazione dell'etichetta e full text (CaseOLAP LIFT), come piattaforma flessibile e personalizzabile per studiare le associazioni tra proteine (ad esempio, proteine associate a una componente cellulare) e malattie da set di dati di testo. Questa piattaforma offre la cura automatizzata di proteine specifiche per l'ontologia genica (GO) (ad esempio, proteine specifiche per organelli), l'imputazione delle etichette degli argomenti mancanti dei documenti, l'analisi di documenti full-text, nonché strumenti di analisi e strumenti predittivi (Figura 1, Figura 2 e Tabella 1). CaseOLAP LIFT cura le proteine organello-specifiche utilizzando termini GO forniti dall'utente (ad esempio, compartimento organello) e proteine funzionalmente correlate utilizzando STRING21, Reactome 22 e GRNdb23. I documenti relativi allo studio delle malattie sono identificati dalle etichette MeSH (Medical Subject Header) annotate da PubMed. Per il ~15,1% dei documenti non etichettati, le etichette sono imputate se almeno un sinonimo di termine MeSH si trova nel titolo o almeno due nell'abstract. In questo modo le pubblicazioni precedentemente non classificate possono essere prese in considerazione nell'analisi di text-mining. CaseOLAP LIFT consente inoltre all'utente di selezionare sezioni di pubblicazioni (ad esempio, solo titoli e abstract, testo completo o testo completo esclusi metodi) entro un determinato periodo di tempo (ad esempio, 2012-2022). Il software cura anche in modo semi-automatico una lista nera di nomi di proteine specifici per i casi d'uso, riducendo in modo vitale le associazioni di proteine false positive presenti in altri approcci. Nel complesso, questi miglioramenti consentono una maggiore personalizzazione e automazione, espandono la quantità di dati disponibili per l'analisi e producono associazioni proteine-malattie più sicure da grandi corpora di testo biomedico.
CaseOLAP LIFT incorpora le conoscenze biomediche e rappresenta la relazione di vari concetti biomedici utilizzando un grafo della conoscenza, che viene sfruttato per prevedere le relazioni nascoste nel grafo. Recentemente, metodi di calcolo basati su grafi sono stati applicati a contesti biologici, tra cui l'integrazione e l'organizzazione di concetti biomedici 24,25, il riposizionamento e lo sviluppo di farmaci 26,27,28 e per il processo decisionale clinico a partire da dati di proteomica 29.
Per dimostrare l'utilità di CaseOLAP LIFT nell'ambito della costruzione di un grafo della conoscenza, evidenziamo un caso d'uso sullo studio delle associazioni tra proteine mitocondriali e otto categorie di malattie cardiovascolari. Sono state analizzate le evidenze di ~362.000 documenti rilevanti per la malattia per identificare le principali proteine mitocondriali e i percorsi associati alle malattie. Successivamente, queste proteine, le loro proteine funzionalmente correlate e i loro risultati di text-mining sono stati incorporati in un grafo della conoscenza. Questo grafico è stato sfruttato in un'analisi predittiva dei collegamenti basata sul deep learning per prevedere le associazioni proteina-malattia finora non riportate all'interno delle pubblicazioni biomediche.
La sezione introduttiva descrive le informazioni di base e gli obiettivi del nostro protocollo. Nella sezione seguente vengono descritti i passaggi del protocollo computazionale. Di seguito, vengono descritti i risultati rappresentativi di questo protocollo. Infine, discutiamo brevemente i casi d'uso del protocollo computazionale, i vantaggi, gli svantaggi e le applicazioni future.
1. Esecuzione del contenitore docker
2. Preparazione delle malattie e delle proteine
3. Estrazione di testo
4. Analisi dei risultati
5. Analisi predittiva
Seguendo questo protocollo sono stati prodotti risultati rappresentativi per studiare le associazioni tra le proteine mitocondriali (Tabella 2) e otto categorie di malattie cardiovascolari (Tabella 3). In queste categorie, abbiamo trovato 363.567 pubblicazioni pubblicate dal 2012 all'ottobre 2022 (362.878 classificate in base ai metadati MeSH, 6.923 classificate in base all'imputazione dell'etichetta). Tutte le pubblicazioni avevano un titolo, 276.524 avevano un abstract e 51.065 avevano il testo completo disponibile. Complessivamente, 584 delle 1.687 proteine mitocondriali interrogate sono state identificate all'interno delle pubblicazioni, mentre 3.284 delle loro 8.026 proteine funzionalmente correlate sono state identificate. In totale, sono state identificate 14 proteine uniche con punteggi significativi in tutte le categorie di malattia, con una soglia di z-score di 3,0 (Figura 5). L'analisi del pathway Reactome di queste proteine ha rivelato 12 pathway significativi per tutte le malattie (Figura 6). Tutte le proteine, i percorsi, le malattie e i punteggi sono stati integrati in un grafo della conoscenza (Tabella 4). Questo grafico di conoscenza è stato sfruttato per prevedere 12.688 nuove associazioni proteina-malattia e filtrato con un punteggio di probabilità di 0,90 per produrre 1.583 previsioni ad alta confidenza. Un esempio evidenziato di due associazioni proteina-malattia è mostrato nella Figura 7, illustrata nel contesto di altre entità biologiche rilevanti funzionalmente correlate alle proteine. Le metriche di valutazione del modello sono riportate nella Tabella 5.
Figura 1: Visualizzazione dinamica del flusso di lavoro. Questa figura rappresenta i quattro passaggi principali di questo flusso di lavoro. In primo luogo, le proteine rilevanti vengono curate in base ai termini OB forniti dall'utente (ad esempio, i componenti cellulari) e le categorie di malattie vengono preparate in base agli identificatori MeSH della malattia forniti dall'utente. In secondo luogo, le associazioni tra proteine e malattie vengono calcolate nella fase di estrazione del testo. Le pubblicazioni all'interno di un determinato intervallo di date vengono scaricate e indicizzate. Le pubblicazioni che studiano le malattie vengono identificate (tramite etichette MeSH e, facoltativamente, tramite etichette imputate) e i loro testi integrali vengono scaricati e indicizzati. I nomi delle proteine vengono interrogati all'interno delle pubblicazioni e utilizzati per calcolare i punteggi di associazione proteina-malattia. Successivamente, dopo l'estrazione del testo, questi punteggi aiutano a identificare le principali associazioni di proteine e percorsi. Infine, viene costruito un grafo della conoscenza che comprende queste proteine, malattie e le loro relazioni all'interno della base di conoscenza biomedica. Le nuove associazioni proteina-malattia sono previste sulla base del grafo della conoscenza costruito. Questi passaggi utilizzano i dati più recenti disponibili provenienti dalle basi di conoscenza biomedica e da PubMed. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 2: Architettura tecnica del flusso di lavoro. I dettagli tecnici di questo flusso di lavoro sono illustrati in questa figura. L'utente fornisce i numeri dell'albero MeSH delle categorie di malattie e dei termini GO. I documenti di testo vengono scaricati da PubMed, i documenti rilevanti per la malattia vengono identificati in base alle etichette MeSH fornite e i documenti senza etichette MeSH che indicano l'argomento ricevono etichette di categoria imputate. Vengono acquisite le proteine associate al/ai termine/i OB fornito/i. Questo set di proteine è stato ampliato per includere proteine che sono funzionalmente correlate tramite interazioni proteina-proteina, percorsi biologici condivisi e dipendenza da fattori di trascrizione. Queste proteine vengono interrogate all'interno di documenti rilevanti per la malattia e valutate da CaseOLAP. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 3: Esempio di documento elaborato. Di seguito viene presentato un esempio di documento di testo analizzato e indicizzato. In ordine, i campi pertinenti indicano il nome dell'indice (_index, _type), l'ID PubMed (_id, pmid), le sottosezioni del documento (titolo, abstract, full_text, introduzione, metodi, risultati, discussione) e altri metadati (anno, MeSH, posizione, rivista). Solo a scopo di visualizzazione, le sottosezioni del documento vengono troncate con puntini di sospensione. Il campo MeSH contiene gli argomenti del documento, che a volte possono essere forniti dal passaggio di imputazione dell'etichetta. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 4: Schema del grafo della conoscenza e risorse biomediche. Questa figura illustra lo schema del Knowledge Graph. Ogni nodo e spigolo rappresenta rispettivamente un tipo di nodo o di spigolo. I margini tra le malattie cardiovascolari (CVD) e le proteine sono ponderati in base ai punteggi CaseOLAP. I bordi dell'interazione proteina-proteina (PPI) sono ponderati in base ai punteggi di confidenza STRING. I bordi di dipendenza dal fattore di trascrizione (TFD) derivati da GRNdb/GTEx, i bordi dell'albero della malattia derivati da MeSH e i bordi del percorso derivati dal reattoma non sono ponderati. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 5: Principali associazioni proteine-malattie. Questa figura presenta le proteine mitocondriali significative per ogni categoria di malattia. La trasformazione Z-score è stata applicata ai punteggi CaseOLAP all'interno di ciascuna categoria per identificare le proteine significative utilizzando una soglia di 3,0. (Torna su) Numero di proteine mitocondriali significative per ciascuna malattia: questi grafici a violino mostrano la distribuzione dei punteggi z per le proteine in ciascuna categoria di malattia. Il numero totale di proteine significative per ciascuna categoria di malattia è mostrato sopra ogni grafico a violino. Un totale di 14 proteine uniche sono state identificate come significative in tutte le malattie e alcune proteine erano significative per più malattie. (In basso) Proteine con il punteggio più alto: la mappa di calore mostra le prime 10 proteine che hanno ottenuto i punteggi z medi più alti in tutte le malattie. I valori vuoti non rappresentano alcun punteggio ottenuto tra la proteina e la malattia. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 6: Principali associazioni pathway-malattia. Questa figura illustra i principali percorsi biologici associati alle categorie di malattie studiate, come determinato tramite l'analisi del percorso del reattoma. Tutte le analisi del percorso sono state filtrate con p < 0,05. I valori della mappa di calore rappresentano lo z-score medio di tutte le proteine all'interno del percorso. (Torna su) Percorsi conservati tra tutte le malattie: Complessivamente, sono state identificate 14 proteine con rilevanza per tutte le categorie di malattia e sono stati rivelati 12 percorsi conservati tra tutte le categorie di malattia. È stato costruito un dendrogramma basato sulla struttura gerarchica del percorso per collegare i percorsi con funzioni biologiche simili. L'altezza del dendrogramma rappresenta la profondità relativa all'interno della gerarchia del percorso; Le funzioni biologiche più ampie hanno arti più lunghi e percorsi più specifici hanno arti più corti. (In basso) Percorsi distinti per una categoria di malattia: l'analisi del percorso è stata eseguita utilizzando proteine che hanno raggiunto un punteggio z significativo in ciascuna malattia. Le prime tre vie con i valori p più bassi associati a ciascuna malattia sono mostrate e indicate da asterischi. I percorsi potrebbero essere tra i primi tre in più malattie. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 7: Applicazione del deep learning per il completamento del knowledge graph. In questa figura viene presentato un esempio di applicazione del deep learning a un grafo della conoscenza specifico della malattia. Sono previste relazioni nascoste tra proteine e malattia, e queste sono indicate in blu. Vengono visualizzate le probabilità calcolate per entrambe le stime, con valori compresi tra 0,0 e 1,0 e con 1,0 che indica una previsione forte. Sono incluse diverse proteine con interazioni note, che rappresentano le interazioni proteina-proteina, la dipendenza dal fattore di trascrizione e i percorsi biologici condivisi. Per la visualizzazione, viene mostrato un sottografo di alcuni nodi con rilevanza per l'esempio evidenziato. Legenda: IHD = cardiopatia ischemica; R-HSA-1430728 = metabolismo; O14949 = subunità 8 del complesso del citocromo b-c1; P17568 = NADH deidrogenasi (ubichinone) 1 subunità 7 del sottocomplesso beta; Q9NYF8 Fattore di trascrizione associato a Bcl-2 1, punteggio: 7,24 x 10−7; P49821 = NADH deidrogenasi (ubichinone) flavoproteina 1, mitocondriale, punteggio: 1,06 x 10−5; P31930 = subunità 1 del complesso del citocromo b-c1, mitocondriale, punteggio: 4,98 x 10−5; P99999 = citocromo c, punteggio: 0,399. Fare clic qui per visualizzare una versione più grande di questa figura.
Tabella 1: Flusso di lavoro e passaggi di limitazione della velocità. Questa tabella presenta stime approssimative del tempo di calcolo per ogni fase del flusso di lavoro. Le opzioni per includere i componenti della pipeline modificheranno il tempo di esecuzione totale necessario per completare l'analisi. La stima del tempo totale varia a seconda delle risorse computazionali disponibili, comprese le specifiche hardware e le impostazioni software. Come stima approssimativa, il protocollo ha impiegato 36 ore di runtime attivo per essere eseguito sul nostro server di calcolo, con sei core, 32 Gb di RAM e 2 Tb di spazio di archiviazione, ma questo potrebbe essere più veloce o più lento su altri dispositivi. Clicca qui per scaricare questa tabella.
Tabella 2: Assemblaggio automatico delle proteine componenti cellulari. Questa tabella mostra il numero di proteine associate a un dato componente cellulare (cioè il termine GO), le proteine funzionalmente correlate ad esse tramite interazioni proteina-proteina (PPI), percorsi condivisi (PW) e dipendenza da fattori di trascrizione (TFD). Il numero di proteine totali è il numero di proteine di tutte le categorie precedenti combinate. Tutte le proteine funzionalmente correlate sono state ottenute utilizzando i parametri predefiniti di CaseOLAP LIFT. Clicca qui per scaricare questa tabella.
Tabella 3: Statistiche sull'imputazione delle etichette MeSH. Questa tabella mostra le categorie di malattie, i numeri dell'albero MeSH utilizzati come termine padre di tutte le malattie incluse nella categoria, il numero di articoli PubMed trovati in ciascuna categoria dal 2012 al 2022 e il numero di articoli aggiuntivi inclusi in base alla fase di imputazione dell'etichetta. Clicca qui per scaricare questa tabella.
Tabella 4: Statistiche sulla costruzione del grafo della conoscenza. Questa tabella descrive le statistiche per le dimensioni del Knowledge Graph costruito, inclusi i vari nodi e tipi di spigoli. I punteggi CaseOLAP rappresentano la relazione tra una proteina e una categoria di malattie cardiovascolari (CVD). Clicca qui per scaricare questa tabella.
Tabella 5: Statistiche e convalide di previsione del Knowledge Graph. Questa tabella riporta le metriche di valutazione per la previsione del collegamento del grafo della conoscenza di associazioni proteina-malattia nuove/nascoste. Gli archi del grafo della conoscenza sono stati partizionati in set di dati di training e test 70/30 e la connettività del grafo degli archi è stata mantenuta in entrambi i set di dati. L'accuratezza indica la proporzione di stime classificate correttamente, mentre l'accuratezza bilanciata corregge lo squilibrio di classe. La specificità indica la proporzione di previsioni negative correttamente classificate. La precisione indica la proporzione di previsioni positive corrette rispetto a tutte le previsioni positive, mentre il richiamo indica la proporzione di previsioni positive corrette tra tutti i bordi positivi (ad esempio, le associazioni proteina-malattia identificate tramite text-mining). Il punteggio F1 è la media armonica della precisione e del richiamo. L'area sotto la curva caratteristica operativa del ricevitore (AUROC) descrive quanto bene il modello distingue tra previsioni positive e negative, con 1,0 che indica un classificatore perfetto. L'area sotto la curva di precisione-richiamo (AUPRC) misura il compromesso tra precisione e richiamo a soglie di probabilità variabili, con valori più alti che indicano prestazioni migliori. Clicca qui per scaricare questa tabella.
CaseOLAP LIFT consente ai ricercatori di studiare le associazioni tra proteine funzionali (ad esempio, proteine associate a un componente cellulare, a un processo biologico o a una funzione molecolare) e categorie biologiche (ad esempio, malattie). Il protocollo descritto deve essere eseguito nella sequenza specificata, con la sezione 2 e la sezione 3 del protocollo che sono i passaggi più critici, poiché la sezione 4 e la sezione 5 del protocollo dipendono dai risultati. In alternativa alla sezione 1 del protocollo, è possibile clonare il codice CaseOLAP LIFT e accedervi dal repository GitHub (https://github.com/CaseOLAP/caseolap_lift). Va notato che, nonostante i test durante lo sviluppo del software, possono verificarsi bug. In tal caso, il passaggio non riuscito deve essere ripetuto. Se il problema persiste, si consiglia di ripetere la sezione 1 del protocollo per assicurarsi che venga usata la versione più recente del contenitore Docker. È disponibile ulteriore assistenza creando un problema nel repository GitHub per ulteriore supporto.
Questo metodo supporta la generazione di ipotesi consentendo ai ricercatori di identificare le entità di interesse e rivelare le potenziali associazioni tra di loro, che potrebbero non essere facilmente accessibili nelle risorse biomediche esistenti. Le risultanti associazioni proteina-malattia consentono ai ricercatori di ottenere nuove informazioni attraverso le metriche interpretabili dei punteggi: i punteggi di popolarità indicano le proteine più studiate in relazione a una malattia, i punteggi di distintività indicano le malattie più uniche per una proteina e il punteggio CaseOLAP combinato è una combinazione dei due. Per prevenire le identificazioni di falsi positivi (ad esempio, a causa di omonimi), alcuni strumenti di text-mining utilizzano una lista nera di termini per evitare 9,11. Allo stesso modo, anche CaseOLAP LIFT utilizza una lista nera, ma consente all'utente di adattare la lista nera al proprio caso d'uso. Ad esempio, quando si studia la malattia coronarica (CAD), "CAD" non dovrebbe essere considerato un nome per la proteina "desossiribonucleasi attivata dalla caspasi". Tuttavia, quando si studiano altri argomenti, "CAD" potrebbe di solito riferirsi alla proteina.
CaseOLAP LIFT si adatta alla quantità di dati disponibili per il text mining. La funzionalità dell'intervallo di date allevia il carico computazionale e crea flessibilità per la generazione di ipotesi (ad esempio, studiando come le conoscenze scientifiche su un'associazione proteina-malattia sono cambiate nel tempo). Nel frattempo, l'imputazione delle etichette e i componenti full-text migliorano l'ambito dei dati disponibili per il text-mining. Entrambi i componenti sono disabilitati per impostazione predefinita per ridurre i costi di calcolo, ma l'utente può decidere di includere uno dei due componenti. L'imputazione dell'etichetta è conservativa e categorizza correttamente la maggior parte delle pubblicazioni (precisione dell'87%) ma non tiene conto delle altre etichette di categoria (richiamo del 2%). Questo metodo attualmente si basa su un'euristica basata su regole che corrisponde alle parole chiave della malattia e ci sono piani per migliorare le prestazioni attraverso l'uso di tecniche di modellazione degli argomenti dei documenti. Poiché molti report non categorizzati tendono ad essere pubblicazioni recenti, gli studi che indagano su un intervallo di date recente (ad esempio, tutte le pubblicazioni negli ultimi 3 anni) sono meglio serviti disabilitando l'imputazione dell'etichetta. Il componente full-text aumenta i requisiti di runtime e di archiviazione. In particolare, solo una minoranza di documenti ha il testo completo disponibile (~14% dei documenti nel nostro studio). Supponendo che i nomi delle proteine menzionati nella sezione dei metodi delle pubblicazioni abbiano meno probabilità di essere correlati agli argomenti della malattia, si consiglia di interrogare gli articoli full-text escludendo la sezione dei metodi.
I punteggi di associazione proteina-malattia risultanti sono utili per le analisi tradizionali come il clustering, la riduzione della dimensionalità o le analisi di arricchimento (ad esempio, GO, percorsi), con alcune implementazioni incluse in questo pacchetto software. Per contestualizzare questi punteggi all'interno delle conoscenze biomediche esistenti, viene costruito automaticamente un grafo della conoscenza che può essere esplorato utilizzando strumenti di visualizzazione grafica (ad esempio, Neo4j32, Cytoscape33). Il grafo della conoscenza può essere utilizzato anche per analisi predittive (ad esempio, previsione di link di relazioni proteina-malattia non segnalate, rilevamento comunitario di reti proteiche, metodi di path-walking per la raccolta di premi).
Abbiamo esaminato le metriche di valutazione del modello per le associazioni proteina-malattia previste (Tabella 5). Il modello assegna un punteggio di probabilità compreso tra 0,0 e 1,0 a ciascuna associazione proteina-malattia, con punteggi più vicini a 1,0 che indicano un livello più elevato di confidenza nella previsione. La valutazione interna delle prestazioni del modello, che si basava su varie metriche tra cui l'AUROC, l'accuratezza, l'accuratezza bilanciata, la specificità e il richiamo, ha indicato eccellenti prestazioni complessive nel suo lavoro. Tuttavia, la valutazione ha anche evidenziato un punteggio piuttosto scarso per la precisione (0,15) del modello, con conseguente punteggio AUPRC e F1 più basso. Gli studi futuri per migliorare questa metrica contribuiranno a migliorare le prestazioni complessive del modello. Prevediamo che questo obiettivo potrebbe essere raggiunto implementando modelli più sofisticati di incorporamento del grafo della conoscenza e di previsione del grafo. Sulla base della precisione del modello di 0,15, i ricercatori dovrebbero prevedere circa il 15% di identificazioni positive; In particolare, di tutte le 12.688 associazioni proteina-malattia previste dal modello, circa il 15% sono associazioni vero-positive. Questo può essere mitigato considerando solo le associazioni proteina-malattia con un punteggio ad alta probabilità (ad esempio, >0,90); Nel nostro caso d'uso, il filtro con una soglia di probabilità di 0,90 ha portato a previsioni ad alta confidenza di 1.583 associazioni. Gli investigatori possono trovare utile ispezionare manualmente queste previsioni per garantire un'elevata validità (vedere la Figura 7 come esempio). Una valutazione esterna delle nostre previsioni ha determinato che delle 310 associazioni proteina-malattia da un ampio database curato, DisGeNet19, 103 sono state identificate nel nostro studio di text-mining e 88 associazioni aggiuntive sono state previste dalla nostra analisi del grafo della conoscenza con un punteggio di probabilità >0,90.
Nel complesso, CaseOLAP LIFT offre una maggiore flessibilità e usabilità nella progettazione di analisi personalizzate delle associazioni tra gruppi proteici funzionali e più categorie di malattie in corpora di testo di grandi dimensioni. Questo pacchetto è semplificato in una nuova interfaccia a riga di comando user-friendly e viene rilasciato come contenitore docker, riducendo così i problemi associati alla configurazione degli ambienti di programmazione e delle dipendenze software. La pipeline CaseOLAP LIFT per lo studio delle proteine mitocondriali nelle malattie cardiovascolari può essere facilmente adattata; ad esempio, le future applicazioni di questa tecnica potrebbero comportare lo studio delle associazioni tra qualsiasi proteina associata a qualsiasi termine OB e qualsiasi categoria biomedica. Inoltre, le associazioni classificate proteina-malattia identificate da questa piattaforma di text-mining sono importanti nella preparazione del set di dati per l'uso di tecniche avanzate di linguaggio naturale. Il grafo della conoscenza risultante consente ai ricercatori di convertire questi risultati in conoscenze biologicamente informative e getta le basi per analisi di follow-up basate su grafici.
Gli autori non hanno nulla da rivelare.
Questo lavoro è stato supportato dal National Institutes of Health (NIH) R35 HL135772 a P.P., NIH T32 HL13945 ad A.R.P. e DS, NIH T32 EB016640 ad A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 ad A.R.P. e DS, NIH R01 HL146739 per I.A., J.R., A.V., K.B. e il TC Laubisch Endowment a PP presso l'UCLA.
Name | Company | Catalog Number | Comments |
Software - Docker | Docker | N/A | docker.com |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneEsplora altri articoli
This article has been published
Video Coming Soon