ExCYT : Une Interface graphique pour simplifier Analysis of High-Dimensional Data de cytométrie en flux

John-William Sidhom; Debebe Theodros; Benjamin Murter; Jelani C. Zarif; Sudipto Ganguly; Drew M. Pardoll; Alexander Baras

doi:10.3791/57473

Auteurs

Contactez-nous

S'identifier

Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.

Dans cet article

Résumé
Résumé
Introduction
Protocole
Résultats
Discussion
Déclarations de divulgation
Remerciements
matériels
Références
Réimpressions et Autorisations

Résumé

ExCYT est une base MATLAB utilisateur Interface graphique (GUI) qui permet aux utilisateurs d’analyser leurs données de cytométrie de flux via couramment employé des techniques d’analyse de données grande dimension, y compris la réduction de dimensionnalité via t-SNE, une variété d’automatisés et manuels parcelles de nouveaux flux de grande dimension, heatmaps et méthodes de clustering.

Résumé

Avec l’avènement des cytomètres capable de mesurer un nombre croissant de paramètres, les scientifiques continuent à développer de grands panneaux pour explorer phénotypiquement caractéristiques de leurs échantillons cellulaires. Toutefois, ces progrès technologiques donnent des ensembles de données grande dimension qui sont devenus de plus en plus difficiles d’analyser objectivement au sein de programmes blocage manuel traditionnels. Afin de mieux analyser et présenter des données, les scientifiques en partenariat avec bioinformaticiens ayant une expertise dans l’analyse des données de grande dimension pour analyser leurs données de cytométrie de flux. Ces méthodes ont été montré pour être très utiles dans l’étude de cytométrie en flux, ils doivent encore être intégré dans un paquet simple et facile à utiliser pour les scientifiques qui manquent d’expertise informatique ou programmation. Pour répondre à ce besoin, nous avons développé ExCYT, une base MATLAB utilisateur Interface graphique (GUI) qui simplifie l’analyse des données de cytométrie en flux de grande dimension en mettant en œuvre des techniques d’analyse couramment utilisés pour les données de grande dimension, y compris parcelles de réduction dimensionnelle par t-end, une variété de méthodes de clustering automatisés et manuels, heatmaps et nouveaux flux de grande dimension. En outre, ExCYT fournit des options de blocage traditionnelles des populations choisies d’intérêt pour les autres t-end et le clustering analyse ainsi que la possibilité d’appliquer des portes directement sur des parcelles de t-end. Le logiciel offre l’avantage supplémentaire de travailler avec soit compensée ou des fichiers de FCS sans compensation. Dans le cas où la compensation après l’acquisition est nécessaire, l’utilisateur peut choisir de fournir le programme, un répertoire des taches simples et un échantillon non coloré. Le programme détecte les événements positifs dans tous les canaux et utilise ces données select plus objectivement calculer la matrice de compensation. En résumé, ExCYT fournit un pipeline d’analyse complète pour prendre des données de cytométrie de flux sous la forme de fichiers FCS et permettre à toute personne, quelle que soit la formation informatique, d’utiliser les dernières approches algorithmiques dans la compréhension de leurs données.

Introduction

Avances en cytométrie de flux ainsi que l’avènement de la cytométrie en flux massique a permis de cliniciens et chercheurs pour rapidement identifier et caractériser phénotypiquement échantillons intéressants sur le plan clinique et biologique avec nouveaux niveaux de résolution, créant de grandes ensembles de données grande dimension qui sont information riche¹^,²^,³. Alors que les méthodes conventionnelles pour l’analyse des données de cytométrie en flux tels que déclenchement manuel ont été plus simples pour des expériences où il y a quelques marqueurs et ces marqueurs ont une population identifiable visuellement, cette approche peut ne pas générer résultats reproductibles lors de l’analyse des ensembles de données plus grande dimension ou ceux avec des marqueurs de coloration sur un spectre. Par exemple, dans une étude multi-établissements, où intra-cellulaire coloration (ICS) essais étaient exécutés afin d’évaluer la reproductibilité de la quantification des réponses spécifiques à l’antigène des lymphocytes T, malgré la bonne précision, analyse, en particulier Gate, a présenté une importante source de variabilité⁴. En outre, le processus de blocage manuellement des intérêts, en plus d’être très subjective, la population est très chronophage et labor intensive. Toutefois, le problème de l’analyse de grande dimension des ensembles de données de manière fiable, efficace et en temps opportun n’est pas une nouvelle pour la recherche en sciences. Études d’expression de gène génèrent souvent de très grande dimension des ensembles de données (souvent de l’ordre des centaines de gènes) où manuels formes d’analyse serait tout simplement impossible. Afin de s’attaquer à l’analyse de ces ensembles de données, il y a eu beaucoup de travail à concevoir des outils bioinformatiques pour analyser l’expression de gène données⁵. Ces approches algorithmiques viennent d’être récemment adoptés dans l’analyse de cytométrie de flux de données comme le nombre de paramètres a augmenté et s’est avérés pour être précieux dans l’analyse de ces ensembles de données dimensionnelles élevées⁶^,⁷.

Malgré la génération et l’application d’une variété d’algorithmes et de logiciels qui permettent aux scientifiques d’appliquer ces approches bioinformatiques de grande dimension à leurs données de cytométrie de flux, ces techniques d’analyse restent encore peu utilisés. Alors qu’il peut y avoir une variété de facteurs qui ont limité l’adoption généralisée de ces approches de la cytométrie de flux de données⁸, l’obstacle majeur, nous croyons en l’utilisation de ces approches par les scientifiques, est un manque de connaissances informatiques. En fait, beaucoup de ces logiciels (c.-à-d., flowCore, flowMeans et OpenCyto) sont écrites en langages de programmation tels que R qui nécessitent encore des connaissances en programmation fond. Paquets de logiciels tels que FlowJo ont trouvé faveur parmi les scientifiques en raison de la simplicité d’utilisation et nature « plug-n-play », ainsi que la compatibilité avec le système d’exploitation de PC. Afin d’assurer la variété des techniques analytiques reconnues et précieux à la programmation non familiers du scientifique, nous avons développé ExCYT, une interface utilisateur graphique (GUI) qui peut être facilement installée sur un PC/Mac qui tire beaucoup de techniques les plus récentes y compris réduction dimensionnelle pour une visualisation intuitive, une variété de méthodes de clustering citée dans la littérature, ainsi que de nouvelles fonctionnalités à explorer la sortie de ces algorithmes à des parcelles de grande dimension flux/BTE heatmaps et roman de clustering.

ExCYT est une interface graphique construite en MATLAB et par conséquent peut soit être exécuté au sein de MATLAB directement ou un programme d’installation est fournie qui peut être utilisé pour installer le logiciel sur n’importe quel PC/Mac. Le logiciel est disponible à https://github.com/sidhomj/ExCYT. Nous présentons un protocole détaillé pour savoir comment importer des données, pré-traiter, effectuer la réduction dimensionnelle t-SNE, de données de cluster, de sorte et filtrer les grappes basés sur les préférences de l’utilisateur et afficher des informations sur les groupes d’intérêt via heatmaps et roman emplacements de grande dimension flux/boîte ()Figure 1). Axes dans les parcelles de t-SNE sont arbitraires et en unités arbitraires et comme tel, comme le ne montre pas toujours les chiffres pour la simplicité de l’utilisateur de l’interface. La coloration des points de données dans le « t-SNE Heatmaps » est du bleu au jaune fondée sur le signal du marqueur indiqué. Dans les solutions de clustering, la couleur du point de données est issue des arbitraires numéro de cluster. Toutes les parties du flux de travail peuvent être effectués dans le seul panneau GUI ()Figure 2 & tableau 1). Enfin, nous allons démontrer l’utilisation de ExCYT sur les données publiées antérieurement explorant le paysage immunitaire du carcinome à cellules rénales dans la littérature, également analysée avec des méthodes similaires. L’exemple de dataset que nous permet de créer les chiffres dans ce manuscrit, ainsi que le protocole ci-dessous se trouvent à https://premium.cytobank.org/cytobank/projects/875, lors de leur inscription à un compte.

Protocole

1. collecte et préparation des données de la cytométrie en flux

Placez toutes les taches simples dans un dossier par eux-mêmes et étiquette sous le nom de canal (par un fluorophore, pas de marqueur).

2. pré-Processing & Importation de données

Pour mettre en pause ou enregistrer tout au long de ce pipeline d’analyse, utilisez le bouton Save Workspace en bas à gauche du programme pour économiser l’espace de travail comme un '. MAT' fichier qui peut plus tard être chargé via le bouton Load Workspace . N’exécutez pas plusieurs instances du programme à la fois. Par conséquent, lors du chargement d’un nouvel espace de travail, assurez-vous de vérifier il n’y a aucune autre instance de ExCYT en cours d’exécution.
Pour commencer le pipeline de l’analyse, tout d’abord sélectionner le type de cytométrie en flux (Flow Cytometry ou masse Cytometry – CYTOF), sous le numéro de certains Paramètres de sélection de fichier d’événements pour échantillonner à partir du fichier (pour cet exemple d’utilisation 2 000). Une fois que les données a été importées avec succès, une boîte de dialogue s’affiche pour informer l’utilisateur que les données ont été importées avec succès.
Appuyez sur le bouton de Correction automatique pour effectuer une étape de correction automatique en option, comme fait par Bagwell & Adams⁹. Sélectionnez le répertoire contenant les taches simples. Sélectionnez l’échantillon sans coloration dans le dialogue d’interface utilisateur.
1. Placer une porte vers l’avant/côté-scatter sur n’importe lequel des échantillons dans ce répertoire qui sera utilisé pour sélectionner des événements pour calculer la matrice de compensation. Il est recommandé d’utiliser l’échantillon non colorée à cet effet. À ce stade, un algorithme a été mis en œuvre pour définir des seuils conformément au 99^ème percentile de l’échantillon non coloré pour définir les événements positifs dans chacune des taches simples pour calculer la matrice de compensation. Lorsque cela est terminé, une boîte de dialogue informe l’utilisateur que l’indemnité a été effectuée.
Ensuite, appuyez sur la Porte de la Population et sélectionnez les populations de cellules d’intérêt, comme c’est la convention en écoulement cytometry analyses. Lorsque la population de cellules est sélectionnée, tapez le nombre de pourcentage d’analyse en aval des événements (en ce 10 000 événements).
Ensuite, sélectionnez les chaînes numéros à utiliser pour l’analyse dans le contrôle listbox à l’extrême droite de la boîte de pré-traitement (utiliser les voies particulières indiquées dans l’exemple).

3. t-SNE analyse

Appuyez sur la touche T-end pour que le programme commence début pour calculer l’ensemble de données dimensionnalité réduite pour la visualisation dans la fenêtre en dessous du bouton t-end. Pour enregistrer l’image de t-end, appuyez sur Enregistrer l’Image TSNE. Sur une machine avec 8 CPU @ 3.4 GHz chacun et 8 GM RAM cette étape devrait prendre environ 2 minutes pour 10 000 événements, 10 minutes pour 50 000 événements et à 20 minutes pour 100 000 événements.
Pour créer un heatmap ' t-end ', comme on le voit dans plusieurs CYTOF publications¹⁰^,¹¹, sélectionnez une option dans le menu contextuel de Marqueur spécifique t-SNE (utiliser les marqueurs spécifiques CD64 ou CD3 tel qu’illustré dans l’exemple). Un chiffre s’affiche montrant une représentation heatmap de l’intrigue de t-SNE qui peut être sauvegardé pour la génération de la figure.
Sélectionner des zones d’intérêt dans les parcelles de t-SNE par l’utilisateur pour approfondir les analyses en aval en utilisant le bouton de Porte t-end .

4. l’analyse

Pour commencer l’analyse de cluster, sélectionnez une option dans la Méthode de Clustering listbox (dans cet exemple, nous DBSCAN avec un facteur de la distance de 5 dialogue box à droite de la zone de liste). Appuyez sur le bouton de Cluster .
Utilisez l’une des options suivantes pour les algorithmes de regroupement automatisés trouvés dans le panneau « Paramètres automatisés de Clustering » :
1. KMEANS dur (sur t-end): appliquer les nuées aux données réduite 2 dimensions t-SNE k-means et exige que le nombre de clusters à fournir à l' algorithme¹².
2. KMEANS dur (sur des données HD): appliquer clustering pour les données originales de grande dimension qui a été données à l’algorithme de t-SNE k-means. Une fois de plus, le nombre de clusters doit être fourni à l’algorithme.
3. DBSCAN : Appliquer la méthode de clustering de clustering, appelée Clustering Spatial axée sur la densité des Applications avec bruit¹³ clusters de données réduite 2 dimensions t-SNE, qui nécessite un facteur distance sans dimension qui détermine la taille générale de la clusters. Ce type d’algorithme de clustering est bien adapté au groupe la réduction t-end car il est capable de cluster non-sphéroïdal de cluster qui sont souvent présents dans la représentation réduite t-end. En outre, dû au fait qu’elle opère sur les données de dimension 2, il est l’un des algorithmes de regroupement plus rapidement.
4. Hiérarchique : Appliquer la méthode de clustering hiérarchique conventionnelle aux données haute dimension où la matrice de toute distance euclidienne est calculée entre tous les événements avant de fournir l’algorithme un facteur de distance qui définit la taille du cluster.
5. Graphique de réseau- Base : Appliquer une méthode de clustering qui a été récemment introduite en analysant les données de cytométrie de flux lorsqu’il y a des sous-populations rares que l’utilisateur veut détecter¹¹^,¹⁴. Cette méthode s’appuie sur la première création d’un graphique qui détermine les connexions entre tous les événements dans les données. Cette étape consiste à fournir un paramètre initial pour créer le graphique, ce qui correspond au nombre de k plus proches voisins. Ce paramètre définit généralement la taille des clusters. À ce stade, une autre boîte de dialogue s’affiche demandant à l’utilisateur d’employer une des 5 algorithmes de clustering qui s’applique à la courbe. Il s’agit de 3 options pour maximiser la modularité de la graphique, la méthode Danon et un spectrale algorithme clusters¹⁴^,¹⁵^,¹⁶^,¹⁷^,¹⁸. Si l'on veut une solution de clustering généralement plus rapidement, nous vous recommandons Spectral Clustering ou la maximisation de modularité rapide gourmand. Alors que les méthodes de maximisation de la modularité ainsi que la méthode Danon déterminer le nombre optimal de grappes, Spectral Clustering requiert le nombre de clusters à donner au programme.
6. Carte organise : Employer un réseau neuronal artificiel pour regrouper les données de grande dimension.
7. GMM – Expectation Maximization: créer un modèle gaussien de mélange à l’aide technique de l’EM (Expectation Maximization) pour regrouper les données de grande dimension. ¹⁹ ce type de méthode de clustering requiert également l’utilisateur d’entrer le nombre de clusters.
8. Variationnelle inférence bayésienne pour MGM: créer un modèle de mélange gaussien, mais contrairement à EM, il peut déterminer automatiquement le nombre des composants mélange k.²⁰ alors que le programme n’exige pas un nombre de grappes à donner (plus grand que le prévu pour nombre de clusters), l’algorithme détermine le nombre optimal sur ses propres.
Afin d’étudier un secteur particulier de l’intrigue de t-SNE, appuyez sur le bouton Sélectionner manuellement les Cluster dessiner un ensemble de groupes définis par l’utilisateur. À noter, grappes ne peuvent pas partager des membres (c'est-à-dire, chaque événement ne peut appartenir qu’à 1 cluster).

5. groupe de Filtration

Ensemble des grappes identifié soit manuellement ou via une des méthodes automatiques décrits ci-dessus peut être par l’intermédiaire du filtre comme suit.
1. Pour trier les grappes (dans le panneau Filtre Cluster ) par l’un des marqueurs mesurées dans l’expérience, sélectionnez une option dans le menu contextuel de la sorte . Pour définir si la commande est croissant ou décroissant, appuyez sur le bouton Croissant/décroissant vers la droite de la liste déroulante Trier . Cette mise à jour de la liste des regroupements dans la zone de liste « Clusters (Filtration) » et les réorganiser dans l’ordre décroissant de l’expression de groupe médian de ce marqueur. Le pourcentage indiqué dans la liste déroulante « Clusters (Filtration) » indique le pourcentage de la population qui représente ce cluster.
2. Pour définir une valeur de seuil minimum pour un cluster donné dans un certain canal, sélectionnez une option dans le menu contextuel de seuil (dans cet exemple nous le marqueur CD65 et un seuil à 0,75). Tapez une valeur dans la zone numérique au-dessous du graphique ou utilisez le curseur pour définir un seuil. Une fois que le seuil est défini, appuyez sur Ajouter au-dessus de seuil ou Ajouter ci-dessous seuil pour spécifier le sens du seuil. Une fois ce seuil a été fixé, il apparaît dans la boîte de seuils à côté du panneau « Cluster Filter » où le marqueur, la valeur de seuil et la direction apparaît si l’utilisateur est au courant de quels seuils sont actuellement appliquées. Enfin, l’intrigue de t-SNE mettra à jour par brouiller les clusters qui ne satisfont pas aux exigences de la filtration et la zone de liste « Clusters (Filtration) » mettra à jour pour afficher les groupes qui répondent aux exigences de filtration.
3. Pour définir un seuil minimum pour la fréquence d’un cluster, entrez un seuil numérique du Cluster seuil de fréquence (%) boîte dans le panneau filtre Cluster (dans cet exemple d’utilisation 1 %).

6. analyse et visualisation de cluster

Pour sélectionner des groupes pour une analyse et de visualisation, sélectionnez clusters dans listbox de Clusters (Filtration) et appuyez sur le bouton à sélectionner pour les déplacer vers le Cluster analyser listbox.
Pour créer heatmaps des grappes, sélectionnez les groupes d’intérêt dans la listbox Cluster analyser et appuyez sur le bouton HeatMap de Clusters . Lorsque cette touche est enfoncée, un chiffre s’affiche contenant une carte de chaleur ainsi que des dendrogrammes sur les axes de cluster et de paramètre. Le dendrogramme sur l’axe vertical regroupera les grappes par ceux qui sont proches tout en le dendrogramme sur l’horizontale axe regroupera les marqueurs qui résultent de la collaboration. Pour enregistrer le heatmap, appuyez sur fichier | Exporter la configuration | Export.
Pour créer une « Haute dimensions Box Plot » ou « Haute dimensions Flow Plot », sélectionnez les groupes d’intérêt dans la listbox Cluster analyser et appuyez sur le bouton Haut dimensions Box Plot ou le bouton Haut dimensionnelle Flow Plot . Ces emplacements peuvent servir à évaluer visuellement la distribution de donné des canaux de différents groupes à travers toutes les dimensions.
Pour afficher les grappes dans les parcelles de flux 2D traditionnel, sélectionnez la transformation (linéaire, log10, arcsinh) et canal dans le panneau de Tracer des flux classiques et appuyez sur classiques flux Plot.

Résultats

Afin de tester la facilité d’utilisation de ExCYT, nous avons analysé un ensemble de données curated publié par Chevrier et al. , intitulé « An Immune Atlas de claire cellule carcinome rénal » où le groupe a effectué CyTOF analyse avec un vaste panneau immunitaire sur des échantillons de tumeur provenant de 73 les patients¹¹. Deux panneaux séparés, un panneau myéloïde et lymphoïde, ont servi à caractériser phénotypiquement le microen...

Discussion

Nous présentons ici ExCYT, une nouvelle interface graphique exécute des algorithmes MATLAB pour simplifier l’analyse des données de grande dimension de cytométrie en flux, permettant aux individus avec aucune expérience en programmation pour mettre en œuvre plus tard dans des données de grande dimension algorithmes d’analyse. La disponibilité de ce logiciel à l’ensemble de la communauté scientifique permettra aux chercheurs d’explorer leurs données de cytométrie en flux dans un flux de travail intuiti...

Déclarations de divulgation

Les auteurs n’ont rien à divulguer.

Remerciements

Les auteurs n’ont aucun remerciements.

matériels

Name	Company	Catalog Number	Comments
Desktop	SuperMicro	Custom Build	Computer used to run analysis
MATLAB	Mathworks	N/A	Software used to develop ExCYT

Références

Benoist, C., Hacohen, N. Flow cytometry, amped up. Science. 332 (6030), 677-678 (2011).
Ornatsky, O., et al. Highly multiparametric analysis by mass cytometry. Journal of immunological methods. 361 (1), 1-20 (2010).
Tanner, S. D., et al. Flow cytometer with mass spectrometer detection for massively multiplexed single-cell biomarker assay. Pure and Applied Chemistry. 80 (12), 2627-2641 (2008).
Maecker, H. T., et al. Standardization of cytokine flow cytometry assays. BMC immunology. 6 (1), 13 (2005).
Brazma, A., Vilo, J. Gene expression data analysis. FEBS letters. 480 (1), 17-24 (2000).
Pyne, S., et al. Automated high-dimensional flow cytometric data analysis. Proceedings of the National Academy of Sciences. 106 (21), 8519-8524 (2009).
Ge, Y., Sealfon, S. C. flowPeaks: a fast unsupervised clustering for flow cytometry data via K-means and density peak finding. Bioinformatics. 28 (15), 2052-2058 (2012).
Venkatesh, V. Determinants of perceived ease of use: Integrating control, intrinsic motivation, and emotion into the technology acceptance model. Information systems research. 11 (4), 342-365 (2000).
Bagwell, C. B., Adams, E. G. Fluorescence spectral overlap compensation for any number of flow cytometry parameters. Annals of the New York Academy of Sciences. 677 (1), 167-184 (1993).
Lavin, Y., et al. Innate immune landscape in early lung adenocarcinoma by paired single-cell analyses. Cell. 169 (4), 750-765 (2017).
Chevrier, S., et al. An immune atlas of clear cell renal cell carcinoma. Cell. 169 (4), 736-749 (2017).
Hartigan, J. A., Wong, M. A. Algorithm AS 136: A k-means clustering algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics). 28 (1), 100-108 (1979).
Ester, M., Kriegel, H. P., Sander, J., Xu, X. Density-based spatial clustering of applications with noise. International Conference Knowledge Discovery and Data Mining. 240, (1996).
Levine, J. H., et al. Data-driven phenotypic dissection of AML reveals progenitor-like cells that correlate with prognosis. Cell. 162 (1), 184-197 (2015).
Blondel, V. D., Guillaume, J. L., Lambiotte, R., Lefebvre, E. Fast unfolding of communities in large networks. Journal of statistical mechanics: theory and experiment. 2008 (10), P10008 (2008).
Le Martelot, E., Hankin, C. Fast multi-scale detection of relevant communities in large-scale networks. The Computer Journal. 56 (9), 1136-1150 (2013).
Newman, M. E. Fast algorithm for detecting community structure in networks. Physical review E. 69 (6), 066133 (2004).
Hespanha, J. P. . An efficient matlab algorithm for graph partitioning. , 1-8 (2004).
Moon, T. K. The expectation-maximization algorithm. IEEE Signal processing. 13 (6), 47-60 (1996).
Bishop, C. M. . Pattern recognition and machine learning. , (2006).

Réimpressions et Autorisations

Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE

Demande d’autorisation

Explorer plus d’articles

Num ro 143 cytom trie High Dimensional Analysis r traction t SNE clustering cartes r duction dimensionnelle de la chaleur

This article has been published

Video Coming Soon

Keep me updated: