Method Article
Introduciamo il portale web CorExplorer, una risorsa per l'esplorazione dei fattori di sequenziamento dell'RNA tumore trovati dall'algoritmo di apprendimento automatico CorEx (Spiegazione di correlazione), e mostriamo come i fattori possono essere analizzati rispetto alla sopravvivenza, alle annotazioni del database, proteine-proteine, e l'un l'altro per ottenere informazioni sulla biologia del tumore e gli interventi terapeutici.
L'analisi dell'espressione genica differenziale è una tecnica importante per comprendere gli stati della malattia. L'algoritmo di apprendimento automatico CorEx ha dimostrato utilità nell'analisi dell'espressione differenziale di gruppi di geni nel tumore RNA-seq in un modo che può essere utile per far progredire l'oncologia di precisione. Tuttavia, CorEx produce molti fattori che possono essere difficili da analizzare e connettersi alla comprensione esistente. Per facilitare tali connessioni, abbiamo costruito un sito web, CorExplorer, che consente agli utenti di esplorare in modo interattivo i dati e rispondere a domande comuni relative alla sua analisi. Abbiamo addestrato CorEx sui dati dell'espressione genica RNA-seq per quattro tipi di tumore: ovarico, polmone, melanoma e colorettale. Abbiamo quindi incorporato la sopravvivenza corrispondente, le interazioni proteina-proteina, l'ontologia genica (GO) e l'Enciclopedia Kyoto dei geni e dei genomi (KEGG) e le mappe di calore nel sito web per l'associazione con la visualizzazione del grafico dei fattori. Qui utilizziamo protocolli di esempio per illustrare l'uso del database per comprendere il significato dei fattori tumorali appresi nel contesto di questi dati esterni.
Dalla sua introduzione poco più di un decennio fa, RNA-seq è diventato uno strumento onnipresente per misurare l'espressione genica1. Questo perché consente una profilazione de novo rapida ed economica dell'intero trascrittoma di un campione. Tuttavia, i dati del tumore dell'RNA-seq riflettono una biologia sottostante intrinsecamente complessa e spesso sottocampionata, mentre i dati stessi sono ad alta dimensione e rumorosi. Questo rappresenta una sfida significativa per l'estrazione di segnali affidabili. L'algoritmo CorEx sfrutta le informazioni reciproche multivariate per trovare modelli sottili in tali situazioni2,3 . Questa tecnica è stata precedentemente adattata per analizzare campioni di RNA-seq del tumore ovarico dal The Cancer Genome Atlas (TCGA) e in questo contesto sembrava avere vantaggi significativi rispetto ai metodi di analisi più comunemente utilizzati4.
Anche se l'uso di RNA-seq è enormemente diffuso nelle applicazioni di ricerca, anche in oncologia, tali sforzi non hanno portato ad un ampio utilizzo ai fini degli interventi clinici5. Parte della ragione di questo è la mancanza di algoritmi user-friendly e software mirati a questi problemi specifici. Per contribuire a colmare questa lacuna, abbiamo progettato il portale web CorExplorer per consentire ai ricercatori provenienti da una varietà di background di studiare i fattori di espressione genica dei campioni tumorali di RNA-seq, come trovato dall'algoritmo di apprendimento automatico CorEx. Il portale CorExplorer supporta la visualizzazione interattiva e l'interrogazione di fattori provenienti da diversi tipi di tumore, tra cui polmone, colon, melanoma e ovarico6,7,8,9, 10, con l'intento di aiutare i ricercatori a vagliare le correlazioni dei dati e identificare i percorsi candidati per stratificare i pazienti a fini terapeutici.
Ci aspettiamo che il portale CorExplorer possa essere utile a diversi tipi di utenti. Il portale è stato progettato con l'utente in mente che desidera comprendere i grandi fattori che guidano le differenze di espressione genica tumorale nei database pubblici e possibilmente anche inserire profili di espressione genica individuali nel contesto di tumori con simili Caratteristiche. Oltre ai protocolli rappresentativi qui descritti, le indagini di CorExplorer possono servire come punto di partenza per suggerire ipotesi per ulteriori test, per confrontare e confrontare i risultati CorEx su set di dati al di fuori del CorExplorer e per collegare firme di espressione patologica di uno o pochi geni in un singolo tumore a gruppi più grandi che possono essere influenzati coordinamente. Infine, può servire come introduzione user-friendly all'applicazione dell'apprendimento automatico all'RNA-seq per coloro che hanno iniziato nel campo.
1. Esplorare i fattori contenenti un gene di interesse
2. Filtraggio e interpretazione dei fattori CorEx utilizzando i dati relativi al peso genico, alla sopravvivenza e all'annotazione
3. Utilizzo di sopravvivenza e annotazioni di database per cercare combinazioni terapeutiche promettenti
4. Trovare punti in comune e differenze di variazione dell'espressione genica tra i tipi di tumore utilizzando la pagina di ricerca
La ricerca del gene "BRCA1" nel set di dati sul cancro del polmone rivela che è più fortemente associato al fattore CorEx 26 (Figura 2). GO arricchimento termine per questo fattore è visto per essere estremamente elevato, con la riparazione del DNA che mostra un FDR di soli 1 x 10-19. La selezione richiama inoltre l'attenzione sul cluster di secondo livello L2_8 che ha sei fattori strettamente correlati come elementi figlio. Selezionando "Riparazione del DNA" nelle annotazioni del termine GO o nel menu a discesa arricchito GO del grafico del fattore, i geni associati evidenziano i geni associati in ciascuno dei fattori, con il fattore 26 che ha di gran lunga il più importante, come previsto11. La rete di interazione proteina-proteina è fortemente connessa, supportando ulteriormente la funzionalità strettamente collegata dei geni nel fattore 26. Il grafico di sopravvivenza associato suggerisce una possibile associazione con la sopravvivenza del paziente, ma questo dovrebbe essere confermato in un set di dati più grande.
Iniziare con la sopravvivenza può consentire la dissezione delle ragioni per una migliore sopravvivenza associate a particolari gruppi di espressione genica. Ad esempio, il fattore superiore che influenza la sopravvivenza del cancro ovarico è visto come il numero 39, che è fortemente arricchito per i geni associati al sistema immunitario (Figura 3). Sono indicati anche altri cinque fattori associati allo stesso nodo di livello 2, tuttavia l'impatto di sopravvivenza sembra essere fortemente variabile tra di loro, con 39 che sono il più alto e 52 il più basso. L'aggiunta di una finestra di interazione proteina-proteina per un fattore mostra la rete di interazione immediata e consente di collegarsi al sito Web StringDB12 per interrogare vari arricchimenti per i geni della rete PPI. In questo modo per ciascuno dei fattori L2_14 a sua volta, si scopre che gli arricchimenti StringDB per i geni di rete PPI suggeriscono la seguente possibile spiegazione per le associazioni con la sopravvivenza. Il fattore 32 contiene geni che costituiscono il complesso proteico di classe I del complesso di istocompatibilità principale (MHC), riconosciuto dai linfociti T citotossici. Il fattore 39 corrisponde alla segnalazione delle citochine e al legame del recettore CXCR3, relativo ai linfociti T CD8. Entrambi questi fattori sembrano conferire un significativo vantaggio di sopravvivenza per i pazienti che presentano un'espressione relativamente elevata dei geni corrispondenti. I linfociti citotossici CD8'T sono principalmente responsabili dell'immunità antitumorale. Il fattore 52, d'altra parte, è costituito da geni che codificano per le proteine nel complesso MHC di classe II, che sono riconosciuti principalmente dalle cellule helper T CD4, piuttosto che direttamente dai linfociti T citotossici. I restanti fattori L2_14 riflettono l'attivazione generalizzata del sistema immunitario che non differenzia i due tipi di popolazioni di linfociti. Un'associazione di sopravvivenza specifica per il riconoscimento citotossico dei linfociti T degli antigeni cellulari di classe I è coerente con la nostra comprensione dell'immunità antitumorale in generale e da altri tumori come il melanoma13,14.
Il portale web supporta la scoperta di coppie di fattori con funzioni complementari che possono suggerire terapie di combinazione efficaci specifiche per il tumore. La panoramica del set di dati può essere analizzata alla ricerca di fattori che mostrano una correlazione con la sopravvivenza ma hanno arricchiti GO distinti. Per melanoma (TCGA_SKCM; Figura 4), si è visto che il fattore di sopravvivenza superiore 171 è immune correlato, mentre fattore 88 in basso nell'elenco mostra l'arricchimento per i geni legati all'organizzazione del mitocondrio. Infatti, questo è stato suggerito come un obiettivo nel melanoma15. L'aggiunta di finestre di sopravvivenza alla pagina CorExplorer permette di confrontare la stratificazione usando la coppia di fattori con quella di ogni fattore individualmente, dimostrando che i modelli di espressione genica favorevoli di entrambi i gruppi mostrano una tendenza di sopravvivenza migliore di quella per entrambi solo fattore. Lo strato superiore non sembra essere migliorato tuttavia, suggerendo che solo l'immunoterapia può essere l'opzione migliore per alcuni pazienti.
I punti in comune e le differenze tra i tumori possono essere visti cercando geni o termini GO tra i set di dati (Figura 5). Ad esempio, FLT1 (noto anche come VEGFR1) è un indicatore pro-angiogenico ben studiato16,17. Quando viene messo nella barra di ricerca, tutti i tumori hanno fattori in cui FLT1 svolge un ruolo importante. Al contrario, quando il termine GO "angiogenesi" è inserito nella pagina di ricerca, 5 su 6 dei gruppi FLT1 appaiono con tale arricchimento. Tutti i fattori FLT1, ad eccezione di SKCM-195, sono elencati come arricchiti statisticamente per i geni dell'"angiogenesi". Il sesto fattore ha, infatti, l'annotazione, ma al di sotto della soglia di default 10-8. Quando la ponderazione all'interno dell'elenco dei fattori viene utilizzata in un calcolatore di arricchimento alternativo, ad esempio Gene Set Enrichment Analysis (GSEA)18, il sesto fattore risulta essere notevolmente arricchito anche per i geni di "angiogenesi".
È importante controllare le mappe di calore per assicurarsi che il modello di espressione genica sia di qualità adeguata per supportare le interpretazioni biologiche. Le mappe di calore che mostrano una forte variazione chiara possono mostrare un'espressione coordinata dei geni del fattore che vanno da modelli bassi a quelli alti o più complessi, con alcuni geni a bassa espressione correlati con altri che hanno alto(Figura 6). Un marcatore chiave di un raggruppamento di alta qualità è la presenza di diversi geni con una variazione uniforme nell'espressione in funzione del punteggio del fattore. Le mappe di calore del fattore mostrano campioni ordinati in base al punteggio del fattore, quindi dovrebbe esserci un gradiente uniforme che si muove da sinistra a destra. Tuttavia, questo può non accadere in almeno due modi diversi. Più comunemente, le correlazioni possono essere estremamente rumorose (Figura 5C), mettendo in discussione la robustezza e l'utilità di eventuali deduzioni riguardanti la sopravvivenza e/o la funzione biologica. Inoltre, i modelli che si verificano solo in una piccola minoranza di campioni potrebbero non essere conformi al modello di tre stati di espressione assunti dall'algoritmo CorEx, determinando una classificazione fuorviante dei campioni (lato destro della figura 5D).
Figura 1: pagina iniziale di CorExplorer. Dopo aver cliccato su - accanto a Cancro ovarico sotto Collegamenti rapidi, vengono visualizzati i dettagli del grafico dei fattori. Il modello gerarchico CorEx è costituito da variabili di input (espressione genica in questo caso) sullo strato inferiore e fattori latenti dedotti negli strati superiori. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 2: Utilizzo di un nome genetico per guidare l'esplorazione. La figura mostra una serie di screenshot che illustrano l'esplorazione dei fattori tumorali polmonari CorEx fortemente correlati al BRCA1. In primo luogo, selezionando 'BRCA1' nella casella di riepilogo a discesa Gene per il grafico dei fattori, la visualizzazione del grafico ingrandisce il fattore per il quale BRCA1 ha il peso maggiore. Lo zoom di un bit del livello a due nodi L2_8 che collega tale fattore ad altri elementi correlati. La sopravvivenza e le annotazioni possono essere confrontate: cliccando sul termine GO la riparazione del DNA evidenzia i geni annotati. Viene aggiunta una finestra PPI per mostrare le interazioni di rete per i geni nel fattore. L'uso del pulsante Aggiungi finestra per aggiungere una mappa termica mostra l'associazione dei modelli di espressione con la sopravvivenza, suggerendo che una maggiore espressione dei geni di riparazione del DNA può essere associata a una diminuzione della sopravvivenza. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 3: Utilizzo di dati clinici (sopravvivenza) per guidare l'esplorazione. Esplorare il fattore di sopravvivenza superiore (39) per il cancro ovarico rivela interessanti relazioni tra i fattori vicini. Dopo aver selezionato il fattore 39 nel grafico dei fattori e aver eseguito un po' lo zoom indietro, si ritiene che il fattore due legato al fattore 39 abbia altri cinque fattori associati. Una finestra di sopravvivenza aggiuntiva consente di confrontare direttamente i differenziali di sopravvivenza associati. I fattori 39 e 32 mostrano entrambi una correlazione di sopravvivenza positiva, a differenza del fattore 52, che non lo fa. Le reti di interazione proteina-proteina sono tutte ben definite. Il collegamento a StringDB consente il confronto delle annotazioni GO (non mostrato): il fattore 39 è associato a una rete di segnalazione citochina relativa all'attivazione citototocilata dei linfociti CD8 e T e il fattore 32 è dominato dall'antigene MHC di classe I che presenta proteine che presentano proteine che presentano proteine che innescare il riconoscimento da tali linfociti; i fattori vicini, tuttavia, sono dominati da altri componenti del sistema immunitario come le cellule T helper CD4 e non mostrano alcuna correlazione di sopravvivenza. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 4: Esplorare i principali fattori di sopravvivenza suggerisce potenziali combinazioni terapeutiche. Il collegamento "Set di dati" nella barra dei menu della home page porta a una tabella concisa dei fattori di sopravvivenza ordinati per valore p, insieme all'annotazione GO superiore (non mostrata). Utilizzando queste informazioni per il melanoma, la combinazione del fattore 171 per la funzione immunitaria con il fattore 88 per l'organizzazione dei mitocondri appare complementare. La figura mostra le finestre di annotazione per ognuno dei fattori affiancati per contrastarli. Le curve di sopravvivenza per i pazienti stratificate dai due fattori singolarmente o insieme indicano che la combinazione aumenta il differenziale di sopravvivenza rispetto a entrambi i fattori da solo. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 5: La pagina Di ricerca facilita l'analisi pan-cancro. I termini del processo biologico dei geni o del GO possono essere cercati in tutti i set di dati utilizzando il collegamento Cerca dalla home page. La figura mostra i risultati della ricerca per il gene FLT1 e il termine GO "angiogenesi". I risultati mostrano la presenza di FLT1 in fattori annotati con il termine "angiogenesi" tra i tumori. Fare clic qui per visualizzare una versione più grande di questa figura.
Figura 6: Le mappe di calore possono essere utilizzate per valutare qualitativamente le correlazioni tra geni e campioni in base al punteggio del fattore. Le relazioni di espressione genica di alta qualità sono mostrate dalla gradazione uniforme quando i pazienti sono ordinati in base al punteggio del fattore nelle mappe di calore. La mappa di calore più a sinistra per il fattore 18 è un esempio. I modelli possono anche comprendere firme complesse di espressione su e giù come nella mappa di calore di grandi dimensioni come nella mappa di calore di grandi dimensioni per il fattore 11. Modelli di qualità più bassi a volte mostrano bruschi cambiamenti di espressione per un sottogruppo di pazienti come nel fattore 9 heatmap a destra o semplici correlazioni molto rumorose come nel fattore 161 heatmap in basso a destra. Fare clic qui per visualizzare una versione più grande di questa figura.
Abbiamo presentato il sito CorExplorer, un server web accessibile pubblicamente per l'esplorazione interattiva dei fattori di espressione genica maggiormente correlati appresi dal tumore RNA-seq dall'algoritmo CorEx. Abbiamo dimostrato come il sito web può essere utilizzato per stratificare i pazienti secondo l'espressione genica del tumore, e come tale stratificazione corrisponde alla funzione biologica e alla sopravvivenza.
Sono stati costruiti altri webserver per l'analisi RNA-seq. L'analisi differenziale e co-espressione per i tumori può essere esaminata e integrata con altri tipi di dati in cbioPortal19,20. I server GenePattern21, Mev22e Morpheus23incorporano tecniche di clustering consolidate, ad esempio l'analisi dei componenti principali (PCA), i kmeans o le mappe auto-organizzanti (SOM). Gli sforzi più innovativi includono CamurWeb24, basato su un classificatore automatico di generazione di regole, e TACCO25, che implementa classificatori e lazo casuali di foreste. L'algoritmo CorEx qui utilizzato ottimizza le informazioni multivariate per trovare una gerarchia di fattori che spiegano i modelli nei dati. L'apprendimento dei fattori non lineari e gerarchici sembra produrre una migliore interpretabilità rispetto ai fattori lineari globali riscontrati tramite PCA4. Inoltre, l'analisi a grana fine della tecnica dei segnali campione consente confronti precisi del tumore nei sottotipi ampi più comunemente utilizzati. Questa combinazione di analisi dei fattori sovrapposti e gerarchici distingue CorExplorer dalla maggior parte degli altri approcci e richiede nuovi strumenti per la visualizzazione e il riepilogo.
Una parte fondamentale dell'analisi dei fattori di CorExplorer è la capacità di esplorare non solo diversi, ma oltre 100 fattori con modelli genici informativi che vengono posizionati all'interno di una gerarchia sovrapposta. Il CorExplorer facilita l'estrazione di queste miriadi di fattori per le associazioni biologiche e cliniche e consente una caratterizzazione eccezionalmente dettagliata dei singoli tumori. L'apprendimento senza supervisione di un numero così elevato di fattori significa che non tutti saranno rilevanti per la biologia della malattia. In tal caso, è essenziale utilizzare annotazioni o geni noti per estrarre i fattori di interesse o cercare fattori associati a dati clinici come la sopravvivenza. Pertanto, il CorExplorer consente agli utenti di implementare questo passaggio di filtro molto importante. La presenza di modelli genici fattoriali in un tumore può anche suggerire un approccio al trattamento oncologico personalizzato. Inoltre, la molteplicità dei punteggi dei fattori per ogni tumore che consente la scoperta di combinazioni terapeutiche potenzialmente utili.
A volte accade che non vengano presenti annotazioni GO significative per fattori altamente correlati alla sopravvivenza. Anche se ciò può verificarsi a causa di dati rumorosi o sottoposti a campioni, ci sono altre possibili cause come una dimensione del cluster che è troppo piccola per registrare punteggi significativi di arricchimento o il gruppo è un "carrello" di singoli geni da percorsi diversi senza linee biologiche coerenti associazione. Inoltre, una categoria di annotazione diversa dal processo biologico KEGG e GO, ad esempio il compartimento cellulare, può essere appropriata. È possibile accedervi mediante il collegamento a StringDB come illustrato nel protocollo. L'analisi dell'arricchimento dell'ontologia genica sul sito di CorExplorer attualmente non tiene conto della ponderazione genica in un fattore, anche se questo sarà probabilmente recuperato nel prossimo futuro. Si noti che un'opzione di elenco dei geni è disponibile in "Aggiungi finestra" che consente di scaricare l'elenco completo dei geni del fattore per un'ulteriore analisi con strumenti esterni.
Ai fini del sito Web, CorEx è stata eseguita su ciascuno dei set di dati cinque volte e l'esecuzione che ha comportato la massima correlazione globale della total correlazione è stata mantenuta. Avere una rappresentazione statistica dei risultati di più esecuzioni può essere più informativo ed è un obiettivo per il lavoro futuro. Inoltre, l'insieme di tipi di tumore disponibili sul server è piuttosto piccolo, ma ci aspettiamo che questo si espanda nel tempo in base all'interesse dell'utente.
Come descritto in precedenza, CorExplorer visualizza le relazioni del fattore RNA-seq CorEx insieme alle informazioni cliniche e di database, consentendo così una varietà di diverse modalità di interrogatorio. Siamo fiduciosi che questo strumento porterà a ulteriori lavori per utilizzare la potenza dell'analisi RNA-seq per la scoperta e l'applicazione clinica in oncologia.
Gli autori dichiarano di non avere interessi finanziari concorrenti.
GV è stato supportato dal premio DARPA W911NF-16-0575.
Name | Company | Catalog Number | Comments |
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon