ExCYT: Un'interfaccia utente grafica per semplificare l'analisi dei dati Cytometry alto-dimensionali

John-William Sidhom; Debebe Theodros; Benjamin Murter; Jelani C. Zarif; Sudipto Ganguly; Drew M. Pardoll; Alexander Baras

doi:10.3791/57473

È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.

In questo articolo

Riepilogo
Abstract
Introduzione
Protocollo
Risultati
Discussione
Divulgazioni
Riconoscimenti
Materiali
Riferimenti
Ristampe e Autorizzazioni

Riepilogo

ExCYT è una base di MATLAB utente interfaccia grafica (GUI) che consente agli utenti di analizzare i dati di cytometry di flusso tramite comunemente impiegate tecniche analitiche per alto-dimensionali dati compresa la riduzione della dimensionalità via t-SNE, una varietà di manuali e automatiche clustering di metodi, heatmaps e flusso alto-dimensionali romanzo trame.

Abstract

Con l'avvento dei citometri a flusso in grado di misurare un numero crescente di parametri, gli scienziati continuano a sviluppare pannelli più grandi per esplorare fenotipico caratteristiche dei loro campioni cellulari. Tuttavia, questi progressi tecnologici rendimento alto-dimensionali insiemi di dati che sono diventati sempre più difficili da analizzare obiettivamente all'interno dei tradizionali programmi gating basati su manuale. Al fine di meglio analizzare e presentare i dati, gli scienziati collaborano con bioinformatici con competenze in analisi dei dati alto-dimensionali per analizzare i dati di citometria a flusso. Mentre questi metodi hanno dimostrati di essere altamente utile nello studio della citometria a flusso, devono ancora essere incorporato in un pacchetto semplice e facile da usare per gli scienziati che non hanno competenze di programmazione o computazionale. Per soddisfare questa esigenza, abbiamo sviluppato ExCYT, una base di MATLAB utente interfaccia grafica (GUI) che semplifica l'analisi dei dati di cytometry di flusso alto-dimensionali implementando comunemente impiegate tecniche analitiche per l'inclusione di dati alto-dimensionali riduzione di dimensionalità di t-SNE, una varietà di metodi di clustering automatizzati e manuali, heatmaps e flusso alto-dimensionali romanzo trame. ExCYT fornisce inoltre opzioni Gate tradizionali delle popolazioni selezionate di interesse per ulteriore t-SNE e analisi, nonché la possibilità di applicare cancelli direttamente su t-SNE appezzamenti di clustering. Il software offre l'ulteriore vantaggio di lavorare con entrambi compensata o non compensata FCS file. Nel caso in cui è richiesta la compensazione post-acquisizione, l'utente può scegliere di fornire il programma in una directory di singole macchie e un campione senza macchia. Il programma rileva eventi positivi in tutti i canali e utilizza questi dati selezionare per calcolare più obiettivamente la matrice di compensazione. In sintesi, ExCYT fornisce una pipeline di analisi completa per prendere la citometria a flusso di dati sotto forma di file di FCS e consentire qualsiasi individuo, indipendentemente dalla formazione computazionale, di utilizzare i più recenti metodi algoritmici nella comprensione dei propri dati.

Introduzione

Progressi in citometria a flusso, nonché l'avvento di massa cytometry ha permesso ai medici e scienziati rapidamente identificare e caratterizzare fenotipicamente biologicamente e clinicamente interessanti campioni con nuovi livelli di risoluzione, creando grande insiemi di dati alto-dimensionali che sono informazioni ricchi¹^,²^,³. Mentre i metodi convenzionali per l'analisi dei dati di cytometry di flusso quali gating manuale sono stati più semplici per gli esperimenti dove ci sono alcuni indicatori che tali marcatori hanno popolazioni visivamente percepibile, questo approccio può non riuscire a generare riproducibilità dei risultati quando l'analisi di insiemi di dati più alto-dimensionali o quelli con marcatori che macchia su uno spettro. Ad esempio, in uno studio multi-istituzionale, dove intra-cellulare (ICS) la macchiatura saggi furono eseguiti per valutare la riproducibilità di quantificazione risposte di cellule T antigene-specifiche, nonostante la buona precisione interlaboratorio, analisi, particolarmente gating, presentare una significativa fonte di variabilità⁴. Inoltre, il processo di gating manualmente popolazione degli interessi, oltre ad essere altamente soggettiva è altamente in termini di tempo e di lavoro ad alta intensità. Tuttavia, il problema di analizzare set di dati di dimensioni elevate in maniera robusta, efficiente e tempestiva non è uno nuovo per la ricerca di scienze. Studi di espressione genica spesso generano insiemi di dati estremamente alto-dimensionali (spesso dell'ordine di centinaia di geni) dove forme manuale di analisi sarebbe semplicemente non fattibile. Al fine di affrontare l'analisi di questi insiemi di dati, c'è stato molto lavoro nello sviluppo di strumenti bioinformatici per analizzare l'espressione genica dei dati⁵. Questi approcci algoritmici appena sono state recentemente adottati nell'analisi di citometria a dati come il numero di parametri è aumentato e hanno dimostrato di essere prezioso per l'analisi di questi insiemi di dati dimensionali alta⁶^,⁷.

Nonostante la generazione e l'applicazione di una varietà di algoritmi e pacchetti software che permettono agli scienziati di applicare questi approcci bioinformatici alto-dimensionali ai loro dati di citometria a flusso, queste tecniche analitiche rimangono ancora in gran parte inutilizzate. Mentre ci può essere una varietà di fattori che hanno limitato l'adozione diffusa di questi approcci per citometria a dati⁸, l'ostacolo principale abbiamo il sospetto in uso di questi approcci dagli scienziati, è una mancanza di conoscenza computazionale. Infatti, molti di questi pacchetti software (cioè, flowCore, flowMeans e OpenCyto) sono scritti per essere implementato in linguaggi di programmazione quali R che ancora richiedono conoscenze di programmazione sostanziali. Pacchetti software come FlowJo hanno trovato il favore fra gli scienziati grazie alla semplicità di utilizzo e 'plug-n-play' natura, nonché la compatibilità con il sistema operativo del PC. Al fine di fornire la varietà di tecniche analitiche accettati e preziosi per la programmazione di sconosciuto scienziato, abbiamo sviluppato ExCYT, un'interfaccia utente grafica (GUI) che può essere facilmente installata su un PC/Mac che tira molte delle più recenti tecniche compresa la riduzione della dimensionalità per visualizzazione intuitiva, una varietà di metodi di clustering citati nella letteratura, con caratteristiche innovative per esplorare l'output di questi algoritmi con trame di alto-dimensionali/cassa d'afflusso heatmaps e romanzo di clustering.

ExCYT è un'interfaccia di utente grafica costruita in MATLAB e pertanto può sia essere eseguito all'interno di MATLAB direttamente o un programma di installazione viene fornito che può essere utilizzato per installare il software su qualsiasi PC/Mac. Il software è disponibile presso https://github.com/sidhomj/ExCYT. Vi presentiamo un protocollo dettagliato su come importare dati, pre-elaborarlo, condurre riduzione di dimensionalità t-SNE, dati del cluster, sorta e filtrare cluster in base alle preferenze dell'utente e visualizzare informazioni sui cluster di interesse via heatmaps e romanzo trame di alto-dimensionali flusso/scatola (Figura 1). Assi in t-SNE trame sono arbitrari e in unità arbitrarie e così come non sempre mostrato nelle figure per semplicità dell'utente dell'interfaccia. La colorazione dei punti dati nel "t-SNE Heatmaps" è dal blu al giallo basato sul segnale del marcatore indicato. In soluzioni di clustering, il colore del punto dati è basato arbitrario il numero di cluster. Tutte le parti del flusso di lavoro possono essere effettuate nel pannello singolo GUI (Figura 2 & tabella 1). Infine, verrà illustrato l'utilizzo di ExCYT sui dati precedentemente pubblicati, esplorare il paesaggio immune di carcinoma renale delle cellule nella letteratura, anche analizzato con metodi simili. Il set di dati campione che abbiamo usato per creare le figure in questo manoscritto unitamente al protocollo sottostante è reperibile in https://premium.cytobank.org/cytobank/projects/875, al momento della registrazione di un account.

Protocollo

1. raccolta e preparazione dei dati Cytometry

Inserire tutte le singole macchie in una cartella di se stessi e l'etichetta con il nome di canale (da fluoroforo, non marcatore).

2. pre-elaborazione & importazione dati

Per mettere in pausa o salvare in tutta questa pipeline di analisi, utilizzare il pulsante Salva area di lavoro in basso a sinistra del programma per salvare l'area di lavoro come un '. MAT' file che successivamente possa essere caricati tramite il pulsante di Carico dell'area di lavoro . Non eseguire più istanze del programma alla volta. Pertanto, quando si carica una nuova area di lavoro, assicurarsi di controllare non c'è nessun altra istanza di ExCYT in esecuzione.
Per iniziare la pipeline di analisi, selezionare prima il tipo di citometria (citometria a flusso o citometria di massa – CYTOF), sotto i Parametri di selezione del File selezionato numero di eventi a campione dal file (per questo esempio uso 2.000). Una volta che i dati sono stati importati con successo, una finestra di dialogo pop-up che informa l'utente che i dati sono stati importati correttamente.
Premere il pulsante di Auto-compensazione per condurre un passo opzionale auto-compensazione, come fatto da Bagwell & Adams⁹. Selezionare la directory contenente le singole macchie. Selezionare l'esempio non macchia all'interno del dialogo di interfaccia utente.
1. Posto un cancello laterale/forward-scatter su qualsiasi dei campioni in questa directory che verrà utilizzato per selezionare gli eventi per calcolare la matrice di compensazione. Si consiglia di utilizzare il sample non macchia per questo scopo. A questo punto, è stato implementato un algoritmo per impostare soglie coerente presso il 99^° percentile del campione non macchia per definire eventi positivi in ciascuna delle singole macchie per calcolare la matrice di compensazione. Quando questo è finito, una finestra di dialogo informerà l'utente che è stata eseguita la compensazione.
Successivamente, premere Gate popolazione e selezionare le popolazioni delle cellule di interesse, in quanto è la convenzione nel flusso cytometry analisi. Quando è selezionata la popolazione delle celle, immettere il numero di percentuale di eventi analisi a valle (in questa 10.000 eventi).
Successivamente, selezionare il numero di canali da utilizzare per l'analisi nella casella di riepilogo a destra della casella di pre-elaborazione (utilizzare gli specifici canali illustrati nell'esempio).

3. t-SNE analisi

Premere il pulsante t-SNE per avere il programma inizia inizio per calcolare il set di dati ridotta dimensionalità per la visualizzazione nella finestra sotto il pulsante t-SNE. Per salvare l'immagine di t-SNE, premere Salva immagine TSNE. Su un computer con 8 CPU @ 3.4 GHz ogni e GM 8 RAM questo passo dovrebbe prendere circa 2 minuti per 10.000 eventi, 10 minuti per 50.000 eventi e a 20 minuti per 100.000 eventi.
Per creare un heatmap ' t-SNE', come si è visto in parecchi CYTOF pubblicazioni¹⁰^,¹¹, selezionare un'opzione dal menu a comparsa Indicatore specifico t-SNE (utilizzare i marcatori specifici CD64 o CD3, come illustrato nell'esempio). Una figura si aprirà mostrando una rappresentazione heatmap della trama t-SNE che possa essere salvata per la generazione di figura.
Seleziona le aree di interesse per le trame di t-SNE dall'utente per ulteriori analisi successive utilizzando il pulsante Cancello t-SNE .

4. cluster Analysis

Per iniziare l'analisi di clustering, selezionare un'opzione nella casella di riepilogo Metodo di Clustering (in questo esempio ci DBSCAN con un fattore distanza 5 nel dialogo casella a destra del controllo listbox). Premere il pulsante di Cluster .
Per automatizzato algoritmi di clustering trovati nel pannello 'Parametri di Clustering automatizzato', utilizzare uno delle seguenti opzioni:
1. Hard KMEANS (il t-SNE): applicare k-means clustering di dati ridotta 2-dimensionale t-SNE e richiede il numero di cluster devono essere fornite per l' algoritmo¹².
2. Hard KMEANS (su dati HD): applicare k-means clustering per i dati originali di alto-dimensionali che è stato dato all'algoritmo t-SNE. Ancora una volta, il numero di cluster deve essere fornito per l'algoritmo.
3. DBSCAN: Applicare il metodo di clustering di clustering, chiamato Density-Based Spatial Clustering di applicazioni con rumore¹³ cluster i dati ridotta 2-dimensionale t-SNE e che richiede un fattore adimensionale distanza che determina la dimensione generale della cluster. Questo tipo di algoritmo di clustering è adatto a cluster la riduzione di t-SNE come è in grado di cluster di cluster non sferoidale che sono spesso presenti nella rappresentazione ridotta t-SNE. Inoltre, dovuto al fatto che opera sui dati 2-dimensionale, è uno degli algoritmi di clustering più velocemente.
4. Clustering gerarchico: Applicare il metodo convenzionale di clustering gerarchico ai dati alto-dimensionali dove viene calcolata la matrice di intera distanza euclidea tra tutti gli eventi prima di fornire l'algoritmo un fattore distanza che imposta la dimensione del cluster.
5. Grafico della rete- Base: Applicare un metodo di clustering che più recentemente è stato introdotto in analisi dati di citometria a flusso, quando esistono sottopopolazioni rare che l'utente desidera rilevare¹¹^,¹⁴. Questo metodo si basa sulla prima creazione di un grafico che determina le connessioni tra tutti gli eventi nei dati. Questo passaggio consiste nel fornire un parametro iniziale per creare il grafico, che è il numero di k-nearest vicini. Questo parametro determina generalmente le dimensioni dei cluster. A questo punto, un'altra finestra di dialogo si apre chiedendo all'utente di utilizzare uno dei 5 algoritmi di clustering che viene applicato al grafico. Questi includono 3 opzioni per massimizzare la modularità del grafico, il metodo di Danon e una spettrale clustering algoritmo¹⁴^,¹⁵^,¹⁶^,¹⁷^,¹⁸. Se uno vuole una soluzione di clustering generalmente più veloce, si consiglia di Spectral Clustering o la veloce massimizzazione avidi di modularità. Mentre i metodi di massimizzazione di modularità con il metodo di Danon determinano il numero ottimo di cluster, Spectral Clustering richiede il numero di cluster da attribuire al programma.
6. Autorganizzato mappa: Impiegare una rete neurale artificiale al cluster i dati alto-dimensionali.
7. GMM – Expectation Maximization: creare un modello di miscela gaussiana con tecnica Expectation Maximization (EM) per i dati di alto-dimensionali del cluster. ¹⁹ questo tipo di metodo di clustering richiede inoltre all'utente di inserire il numero di cluster.
8. Inferenza bayesiana variazionali per GMM: creare un modello gaussiano di miscela, ma a differenza di EM, esso può determinare automaticamente il numero della miscela componenti k.²⁰ mentre il programma richiede un numero di cluster da attribuire (più grande il previsto numero di cluster), l'algoritmo determina il numero ottimale sul proprio.
Per studiare una particolare area della trama t-SNE, premere il pulsante Seleziona manualmente il Cluster per disegnare una serie di cluster definito dall'utente. Di nota, i cluster non possono condividere membri (vale a dire, ogni evento può appartenere solo a 1 cluster).

5. cluster filtrazione

Set di cluster identificato sia manualmente o tramite uno dei metodi automatici descritti sopra possono essere filtraggio tramite come segue.
1. Per ordinare i cluster (nel pannello Filtro Cluster ) da uno qualsiasi degli indicatori misurati nell'esperimento, selezionare un'opzione dal menu a comparsa tipo . Per impostare se l'ordine è crescente o decrescente, premere il pulsante di Crescente/decrescente a destra del menu a comparsa tipo . Questo aggiornamento elenco dei cluster nella casella di riepilogo 'Cluster (filtrazione)' e cambiarne l'ordine in ordine decrescente di espressione mediana cluster di tale marcatore. La percentuale indicata nella casella di riepilogo 'Cluster (filtrazione)' indica la percentuale della popolazione che rappresenta questo cluster.
2. Per impostare un valore di soglia minima per un determinato cluster attraverso un canale, selezionare un'opzione dal menu a comparsa di soglia (in questo esempio noi il marcatore CD65 e impostare una soglia a 0,75). Digitare un valore nella casella numerica sotto il grafico oppure utilizzare la barra di scorrimento per impostare una soglia. Una volta che la soglia è impostata, premere Aggiungi sopra soglia o Aggiungi sotto soglia per specificare la direzione di soglia. Una volta che questa soglia è stata impostata, sarà elencato nella casella soglie accanto al pannello 'Cluster Filter' dove il marcatore, il valore di soglia e la direzione saranno elencati così l'utente è a conoscenza di quali soglie attualmente applicate. Infine, la trama di t-SNE aggiornerà sfocando fuori mazzi che non soddisfano i requisiti della filtrazione e 'Cluster (filtrazione)' listbox verrà aggiornato per visualizzare i cluster che soddisfano i requisiti di filtrazione.
3. Per impostare una soglia minima per la frequenza di un cluster, immettere un valore di soglia numerica della Soglia di frequenza di Cluster (%) casella nel pannello filtro Cluster (in questo esempio uso 1%).

6. cluster Analysis & visualizzazione

Per selezionare i cluster per ulteriori analisi e visualizzazione, selezionare cluster In cluster (filtrazione) listbox e premere il pulsante di à selezionare per spostarli al controllo listbox Cluster analizzare .
Per creare heatmaps dei cluster, selezionare i gruppi di interesse nella casella di riepilogo Cluster analizzare e premere il pulsante HeatMap dei cluster . Quando viene premuto questo pulsante, una figura pop-up contenente una mappa di calore insieme dendrogrammi sugli assi cluster e parametro. Il dendrogramma sull'asse verticale verrà raggruppati in cluster da coloro che sono strettamente correlati mentre il dendrogramma sull'orizzontale asse raggrupperà marcatori che sono co-associati. Per salvare heatmap, premere File | Installazione di esportazione | Esportare.
Per creare un 'Alta dimensionale Box Plot' o 'High Dimensional flusso Plot', selezionare i gruppi di interesse nella casella di riepilogo Cluster analizzare e premere il pulsante Alta dimensionale Box Plot o il pulsante Alto flusso dimensionale Plot . Queste trame possono essere utilizzate per valutare visivamente la distribuzione del dato canali dei vari cluster in tutte le dimensioni.
Per visualizzare i cluster in diagrammi di flusso 2D tradizionale, selezionare la trasformazione (lineare, log10, arcsinh) e canale il Plot di flusso convenzionale pannello e premere flusso convenzionale Plot.

Risultati

Al fine di testare l'usabilità di ExCYT, abbiamo analizzato un set di dati a cura pubblicato da Chevrier et al. , intitolato 'An Immune Atlas di chiaro Carcinoma delle cellule renali' dove il gruppo ha condotto analisi CyTOF con un vasto pannello immune su campioni di tumore prelevati da 73 pazienti¹¹. Due pannelli separati, un pannello mieloide e linfoide, sono stati usati per caratterizzare fenotipicamente il microambiente tumorale. L'obiettivo del nost...

Discussione

Qui vi presentiamo ExCYT, un'interfaccia di utente grafica romanzo che esegue algoritmi basati su MATLAB, per semplificare l'analisi dei dati di alto-dimensionali cytometry, permettendo che gli individui senza sfondo di programmazione per implementare le ultime in alto-dimensionali dati algoritmi di analisi. La disponibilità di questo software per la più ampia comunità scientifica permetterà agli scienziati di esplorare i dati di cytometry di flusso in un flusso di lavoro intuitivo e semplice. Attraverso lo svolgimen...

Divulgazioni

Gli autori non hanno nulla a rivelare.

Riconoscimenti

Gli autori non hanno nessun ringraziamenti.

Materiali

Name	Company	Catalog Number	Comments
Desktop	SuperMicro	Custom Build	Computer used to run analysis
MATLAB	Mathworks	N/A	Software used to develop ExCYT

Riferimenti

Benoist, C., Hacohen, N. Flow cytometry, amped up. Science. 332 (6030), 677-678 (2011).
Ornatsky, O., et al. Highly multiparametric analysis by mass cytometry. Journal of immunological methods. 361 (1), 1-20 (2010).
Tanner, S. D., et al. Flow cytometer with mass spectrometer detection for massively multiplexed single-cell biomarker assay. Pure and Applied Chemistry. 80 (12), 2627-2641 (2008).
Maecker, H. T., et al. Standardization of cytokine flow cytometry assays. BMC immunology. 6 (1), 13 (2005).
Brazma, A., Vilo, J. Gene expression data analysis. FEBS letters. 480 (1), 17-24 (2000).
Pyne, S., et al. Automated high-dimensional flow cytometric data analysis. Proceedings of the National Academy of Sciences. 106 (21), 8519-8524 (2009).
Ge, Y., Sealfon, S. C. flowPeaks: a fast unsupervised clustering for flow cytometry data via K-means and density peak finding. Bioinformatics. 28 (15), 2052-2058 (2012).
Venkatesh, V. Determinants of perceived ease of use: Integrating control, intrinsic motivation, and emotion into the technology acceptance model. Information systems research. 11 (4), 342-365 (2000).
Bagwell, C. B., Adams, E. G. Fluorescence spectral overlap compensation for any number of flow cytometry parameters. Annals of the New York Academy of Sciences. 677 (1), 167-184 (1993).
Lavin, Y., et al. Innate immune landscape in early lung adenocarcinoma by paired single-cell analyses. Cell. 169 (4), 750-765 (2017).
Chevrier, S., et al. An immune atlas of clear cell renal cell carcinoma. Cell. 169 (4), 736-749 (2017).
Hartigan, J. A., Wong, M. A. Algorithm AS 136: A k-means clustering algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics). 28 (1), 100-108 (1979).
Ester, M., Kriegel, H. P., Sander, J., Xu, X. Density-based spatial clustering of applications with noise. International Conference Knowledge Discovery and Data Mining. 240, (1996).
Levine, J. H., et al. Data-driven phenotypic dissection of AML reveals progenitor-like cells that correlate with prognosis. Cell. 162 (1), 184-197 (2015).
Blondel, V. D., Guillaume, J. L., Lambiotte, R., Lefebvre, E. Fast unfolding of communities in large networks. Journal of statistical mechanics: theory and experiment. 2008 (10), P10008 (2008).
Le Martelot, E., Hankin, C. Fast multi-scale detection of relevant communities in large-scale networks. The Computer Journal. 56 (9), 1136-1150 (2013).
Newman, M. E. Fast algorithm for detecting community structure in networks. Physical review E. 69 (6), 066133 (2004).
Hespanha, J. P. . An efficient matlab algorithm for graph partitioning. , 1-8 (2004).
Moon, T. K. The expectation-maximization algorithm. IEEE Signal processing. 13 (6), 47-60 (1996).
Bishop, C. M. . Pattern recognition and machine learning. , (2006).

Ristampe e Autorizzazioni

Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE

Richiedi Autorizzazione

Esplora altri articoli

Ritrazione numero 143 citometria a flusso analisi alto dimensionali t SNE clustering mappe riduzione della dimensionalit di calore

This article has been published

Video Coming Soon

Keep me updated: