JoVE Logo

Iniciar sesión

Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.

En este artículo

  • Resumen
  • Resumen
  • Introducción
  • Protocolo
  • Resultados
  • Discusión
  • Divulgaciones
  • Agradecimientos
  • Materiales
  • Referencias
  • Reimpresiones y Permisos

Resumen

ExCYT es una basada en MATLAB usuario interfaz gráfica (GUI) que permite a los usuarios analizar sus datos de citometría de flujo mediante comúnmente empleado técnicas de análisis de datos multidimensional, incluyendo la reducción de la dimensionalidad mediante t-SNE, una variedad de automatizados y manuales métodos de clustering, heatmaps, novela flujo multidimensional parcelas.

Resumen

Con el advenimiento de los citómetros de flujo capaz de medir un número cada vez mayor de parámetros, los científicos siguen a desarrollar paneles más grandes para explorar fenotípicamente las características de sus muestras celulares. Sin embargo, estos avances tecnológicos rendimiento multidimensional modems que se han vuelto cada vez más difíciles de analizar objetivamente dentro bloquea los programas tradicionales basados en el manual. Para mejor analizar y presentar datos, los científicos asocian bioinformáticos con experiencia en análisis de datos multidimensional para analizar los datos de la citometría de flujo. Mientras que estos métodos han demostrado ser muy valiosa en el estudio de citometría de flujo, tienen todavía que ser incorporado en un paquete sencillo y fácil de usar para los científicos que carecen de conocimientos de programación o computacional. Para abordar esta necesidad, hemos desarrollado ExCYT, una basada en MATLAB usuario interfaz gráfica (GUI) que optimiza el análisis de datos de citometría de flujo multidimensional mediante la aplicación de técnicas analíticas comúnmente empleadas para la inclusión de datos multidimensional reducción de la dimensionalidad por t-SNE, una variedad de métodos de agrupamiento automatizados y manuales, heatmaps y novela flujo multidimensional parcelas. Además, ExCYT ofrece tradicionales bloquea opciones de seleccionadas poblaciones de interés para más t-SNE y clustering análisis así como la capacidad de aplicar puertas directamente en parcelas t-SNE. El software proporciona la ventaja adicional de trabajar con ya sea compensado o archivos FCS no compensados. En caso de que después de la adquisición indemnización se requiere, el usuario puede elegir proporcionar el programa de un directorio de manchas únicos y una muestra sin manchas. El programa detecta eventos positivos en todos los canales y utiliza estos datos seleccionarlos objetivamente más calcular la matriz de compensación. En Resumen, ExCYT ofrece una tubería de análisis completo para tomar datos de citometría de flujo en forma de archivos de FCS y permitir que a cualquier persona, independientemente de la capacitación computacional, con los últimos enfoques algorítmicos en la comprensión de sus datos.

Introducción

Avances en citometría de flujo, así como el advenimiento de la citometría de masas ha permitido a los médicos y científicos para rápidamente identificar y caracterizar fenotípicamente las muestras biológica y clínicamente interesantes con nuevos niveles de resolución, creando grandes conjuntos de datos multidimensional que son información rica1,2,3. Mientras que los métodos convencionales para el análisis de datos de citometría de flujo como compuerta manual han sido más sencillos para los experimentos donde hay pocos marcadores y los marcadores tienen poblaciones visualmente discernibles, este enfoque puede no generar resultados reproducibles cuando se analizan conjuntos de datos de mayor dimensión o aquellos con marcadores de tinción en un espectro. Por ejemplo, en un estudio multi-institucional, donde intracelular tinción (ICS) ensayos se realizaron para evaluar la reproducibilidad de la cuantificación de las respuestas de células de T específicas de antígeno, a pesar de buena precisión entre laboratorios, análisis, particularmente sincronización, introdujo una importante fuente de variabilidad4. Además, el proceso de bloquear manualmente la población de interés, además de ser muy subjetivo es muy desperdiciador de tiempo y mano de obra intensiva. Sin embargo, el problema de analizar conjuntos de datos multidimensional de una manera robusta, eficiente y oportuna no es uno nuevo para la investigación en Ciencias. Estudios de expresión génica generan a menudo extremadamente multidimensional modems (a menudo del orden de cientos de genes) en formas manual de análisis sería simplemente imposible. Para abordar el análisis de estos datos, ha habido mucho trabajo en el desarrollo de herramientas bioinformáticas para analizar datos de expresión génica5. Estos enfoques algorítmicos se sólo han recientemente adoptados en el análisis de datos de citometría como el número de parámetros ha aumentado y ha demostrado para ser invaluables en el análisis de estos conjuntos de datos dimensional alta6,7.

A pesar de la generación y aplicación de una variedad de algoritmos y paquetes de software que permiten a los científicos a aplicar estos enfoques bioinformáticas multidimensional a los datos de la citometría de flujo, estas técnicas analíticas siguen siendo en gran parte inusitadas. Aunque puede haber una variedad de factores que han limitado la adopción generalizada de estos enfoques para citometría datos8, el obstáculo principal que sospechamos en el uso de estos enfoques por los científicos, es una falta de conocimiento computacional. De hecho, muchos de estos paquetes de software (es decir, flowCore, flowMeans y OpenCyto) están escritos en lenguajes como R que todavía requieren conocimientos de programación sustantiva de programación. Paquetes de software como FlowJo han encontrado favor entre los científicos por la sencillez de uso y naturaleza 'plug-n-play', así como compatibilidad con el sistema operativo de PC. Para proporcionar la variedad de técnicas analíticas aceptadas y valiosas para la programación desconocido científico, hemos desarrollado ExCYT, una interfaz gráfica de usuario (GUI) que puede ser fácilmente instalada en un PC/Mac que tira muchas de las técnicas más recientes incluyendo reducción de dimensionalidad para visualización intuitiva, una variedad de métodos de agrupamiento citado en la literatura, junto con características nuevas para explorar la producción de estos clústeres de algoritmos con diagramas de flujo/caja multidimensional heatmaps y novela.

ExCYT es una interfaz gráfica de usuario en MATLAB y por lo tanto puede tanto ejecutar dentro de MATLAB directamente o un instalador siempre puede utilizarse para instalar el software en cualquier PC/Mac. El software está disponible en https://github.com/sidhomj/ExCYT. Presentamos un protocolo detallado de cómo importar datos, pre-procesarlo, realizar reducción de dimensionalidad t-SNE, cluster de datos, tipo y filtro clusters basados en las preferencias del usuario y muestra información sobre los grupos de interés vía heatmaps y novela cuadro de flujo de alta dimensión parcelas ()figura 1). Los ejes en parcelas t-SNE son arbitrarias y en unidades arbitrarias y así como no siempre se muestra en las figuras para simplicidad del usuario interfaz. El color de los puntos de datos en el "t-SNE Heatmaps" es de azul a amarillo basado en la señal del marcador indicado. En soluciones de clustering, el color del punto de datos se basa arbitraria en número de clúster. Todas las partes del flujo de trabajo pueden llevarse a cabo en el panel solo GUI ()figura 2 y 1 mesa). Finalmente, demostraremos el uso de ExCYT en datos previamente publicados, explorando el paisaje inmune de carcinoma de células renales en la literatura, que también se analizaron con métodos similares. El conjunto de datos de muestra que se utilizó para crear las figuras en este manuscrito con el siguiente protocolo puede encontrarse en https://premium.cytobank.org/cytobank/projects/875, al registrar una cuenta.

Protocolo

1. recolección y preparación de datos de citometría de

  1. Colocar todas las manchas solo en una carpeta propia y sello por el nombre del canal (fluoróforo, no de marcador).

2. los datos importación y pre-procesamiento

  1. Para pausar o guardar a lo largo de esta tubería de análisis, utilice el botón Guardar espacio de trabajo en la parte inferior izquierda del programa para guardar el espacio de trabajo como un '. ESTERA ' archivo que puede ser cargada más adelante mediante la tecla de Espacio de carga de trabajo . No ejecute más de una instancia del programa a la vez. Por lo tanto, al cargar un nuevo espacio de trabajo, asegúrese de que compruebe que no hay ninguna otra instancia de ExCYT funcionando.
  2. Para comenzar a tubería de análisis, en primer lugar Seleccione tipo de citometría citometría de flujo o citometría de masas – CYTOF, bajo el número seleccione Parámetros de selección de archivo de eventos a la muestra del archivo (para este ejemplo uso 2.000). Una vez que los datos se ha importado con éxito, aparecerá un cuadro de diálogo informándole al usuario que los datos han sido importados con éxito.
  3. Presione el botón de Compensación automática para llevar a cabo un paso de compensación automática opcional, como hecho por Bagwell & Adams9. Seleccione el directorio que contiene solo manchas. Seleccionar la muestra sin manchas en el diálogo de la interfaz de usuario.
    1. Colocar una puerta del lado/transhorizonte en cualquiera de las muestras en este directorio que se utilizará para seleccionar eventos para calcular la matriz de compensación. Se recomienda utilizar la muestra sin manchas para este propósito. En este punto, se ha implementado un algoritmo para establecer umbrales consistentes enel percentil 99 de la muestra sin mancha para definir sucesos positivos en cada una de las manchas solo para calcular la matriz de compensación . Cuando esto haya terminado, un cuadro de diálogo informará al usuario que la compensación se ha realizado.
  4. A continuación, presione La puerta población y seleccionar las poblaciones de células de interés, como es la Convención en el flujo cytometry análisis. Cuando se selecciona la población de células, introduzca número de porcentaje de análisis posteriores eventos (en este tipo de eventos 10.000).
  5. A continuación, seleccione el número canales que se utilizarán para el análisis en el cuadro de lista a la derecha de la caja de preprocesamiento (utilizar los canales específicos que se muestra en el ejemplo).

3. t-SNE análisis

  1. Pulse el botón t-SNE para tener el programa comenzar comienzo a calcular el conjunto de datos de dimensionalidad reducida para la visualización en la ventana debajo del botón t-SNE. Para guardar la imagen de t-SNE, pulsa Guardar imagen de TSNE. En una máquina con 8 CPU @ 3,4 GHz y 8 GM RAM este paso debe tomar aproximadamente 2 minutos para 10.000 eventos, 10 minutos para 50.000 eventos y a 20 minutos de 100.000 eventos.
  2. Para crear un heatmap de SNE ' t ', como se ve en varios CYTOF publicaciones10,11, seleccione una opción del menú Marcador específico t-SNE (usar los marcadores específicos CD64 o CD3 como se muestra en el ejemplo). Una figura se abrirá mostrando una representación de mapa de calor de la parcela t-SNE que puede guardarse para la generación de la figura.
  3. Seleccionar áreas de interés en las parcelas t-SNE por parte del usuario más abajo análisis utilizando el botón de la Puerta t-SNE .

4. cluster Analysis

  1. Para comenzar el análisis de clustering, seleccione una opción en el Método de Clustering listbox (en este ejemplo nos DBSCAN con un factor de la distancia de 5 en el diálogo de la caja a la derecha del cuadro de lista). Presione el botón de Cluster .
  2. Utilice uno de las siguientes opciones para algoritmos de clustering automatizados encontradas en el panel de 'Parámetros automatizado de Clustering':
    1. Duro KMEANS (en t-SNE): aplicar k-means clustering para los datos de 2 dimensiones reducido t-SNE y requiere el número de clusters para el algoritmo12.
    2. Duro KMEANS (sobre datos de HD): aplicar k-significa arracimar de los datos multidimensional originales que fue dado al algoritmo t-SNE. Una vez más, el número de clusters debe ser proporcionado para el algoritmo.
    3. DBSCAN: Aplicar el método de agrupamiento de clustering, llamado basado en densidad espacial Clustering de aplicaciones con ruido13 que grupos de los datos de 2 dimensiones reducido t-SNE y requiere un factor de distancia adimensional que determina el tamaño general de la racimos. Este tipo de algoritmo de agrupamiento es idóneo para cluster la reducción de la t-SNE como es capaz de cluster no esferoidales de cluster que a menudo están presentes en la representación de t reducido-SNE. Además, debido a que opera sobre los datos de 2 dimensiones, es uno de los algoritmos de agrupamiento más rápido.
    4. Clustering jerárquico: Aplicar el método de agrupamiento jerárquico convencional los datos multidimensional donde se calcula la matriz de distancia euclidiana entera entre todos los eventos antes de proporcionar el algoritmo de un factor de distancia que establece el tamaño del cluster.
    5. Gráfico de la red- Base: Aplicar un método de agrupamiento que se ha introducido recientemente en análisis de datos de citometría de flujo cuando hay subpoblaciones raras que el usuario quiere detectar11,14. Este método se basa en la primera creación de un gráfico que determina las conexiones entre todos los eventos en los datos. Este paso consiste en proporcionar un parámetro inicial para crear el gráfico, que es el número de vecinos k-más cercano. Este parámetro generalmente regula el tamaño de los clusters. En este punto, otro cuadro de diálogo aparece preguntando al usuario para emplear uno de 5 algoritmos de clustering que se aplica al gráfico. Estos incluyen 3 opciones para maximizar la modularidad de la gráfica, el método de Danon y un espectral clustering algoritmo14,15,16,17,18. Si uno desea una solución de clustering generalmente más rápidamente, recomendamos arracimar espectral o la maximización de modularidad codiciosos rápido. Mientras que los métodos de maximización de modularidad junto con el método de Danon determinan el número óptimo de clusters, agrupamiento espectral requiere el número de racimos que se dará al programa.
    6. Auto-organizados mapa: Emplear una red neuronal artificial para agrupar los datos multidimensional.
    7. MGM-maximización de la expectativa: crear un modelo gaussiano de mezcla usando técnica de maximización de la expectativa (EM) a los datos multidimensional. 19 este tipo de agrupamiento también requiere que el usuario introducir el número de racimos.
    8. Variacionales inferencia bayesiana para MGM: crear un modelo Gaussian de la mezcla, pero a diferencia de la EM, automáticamente puede determinar el número de la mezcla componentes k.20 mientras que el programa requiere un número de racimos que se dará (más grande que el se esperaba número de clusters), el algoritmo va a determinar el número óptimo.
  3. Para estudiar un área particular de la parcela t-SNE, pulse el botón Seleccionar Cluster manualmente para dibujar un conjunto de clusters definidos por el usuario. De nota, los racimos no pueden compartir a los miembros (es decir, cada evento sólo puede pertenecer al 1 cluster).

5. cluster de filtración

  1. Conjuntos de clusters identificaron ya sea manualmente o a través de uno de los métodos automáticos descritos anteriormente pueden filtrar a través de los siguientes.
    1. Para ordenar los grupos (en el panel Filtro ecualizador ) por cualquiera de los marcadores medidos en el experimento, seleccione una opción en el menú emergente tipo . Para establecer si el orden es ascendente o descendente, presione el botón Ascendente/descendente a la derecha del menú emergente tipo . Esto actualiza la lista de grupos en el listbox 'Racimos (filtración)' y volver a ordenarlos en orden descendente de expresión racimo mediano de ese marcador. El porcentaje que se indica en el cuadro de lista 'Racimos (filtración)' denota el porcentaje de la población que representa este grupo.
    2. Para establecer un umbral mínimo para un grupo dado en un determinado canal, seleccione una opción en el menú emergente de umbral (en este ejemplo nosotros el marcador CD65 y un umbral, a 0.75). Escriba un valor en el cuadro numérico a continuación el gráfico o utilice la barra deslizante para establecer un umbral. Una vez que se establece el umbral, pulse Añadir por encima de umbral o Añadir por debajo de umbral para especificar la dirección del umbral. Una vez que este umbral se ha establecido, se mostrará en el cuadro de umbrales junto al panel de 'Filtro ecualizador' en el marcador, el valor de umbral y la dirección se mostrará por lo que el usuario es consciente de que los umbrales se aplican actualmente. Por último, la parcela t-SNE se actualizará desenfocando racimos que no cumplen los requisitos de la filtración y el listbox 'Racimos (filtración)' se actualizará para mostrar los racimos que cumplan con los requisitos de filtración.
    3. Para establecer un umbral mínimo de frecuencia de un cluster, introduzca un límite numérico en el Grupo umbral de frecuencia (%) la caja en el panel filtro ecualizador (en este ejemplo uso 1%).

6. cluster análisis y visualización

  1. Para seleccionar los racimos para posterior análisis y visualización, seleccione grupos en el cuadro de lista de Clusters (filtración) y pulse el botón de à Seleccione mover al cuadro de lista Grupo analizar .
  2. Para crear heatmaps de racimos, seleccione los grupos de interés en el cuadro de lista Grupo analizar y pulse el botón de Mapa de calor de los racimos . Cuando se presiona este botón, aparecerá una figura que contiene un mapa de calor junto con los dendrogramas de los ejes del racimo y parámetro. El dendrograma en el eje vertical grupo de grupos por los que están estrechamente relacionados y el dendrograma en horizontal eje agrupará marcadores co asociados. Para guardar el mapa de calor, pulse archivo | Configuración de exportación | Exportación.
  3. Para crear un 'Alta trama Dimensional de la caja' o 'Alta dimensiones flujo parcela', seleccione los grupos de interés en el cuadro de lista Grupo analizar y pulse el botón Alta trama Dimensional de la caja o el botón de Alto flujo trama Dimensional . Estas parcelas se pueden utilizar para evaluar visualmente la distribución de dado canales de distintos clusters en todas las dimensiones.
  4. Para mostrar grupos de diagramas de flujo 2D tradicional, seleccione la transformación (lineal, log10, arcsinh) y del canal en el panel Diagrama de flujo convencional y prensa Diagrama de flujo convencional.

Resultados

Para probar la usabilidad de los ExCYT, hemos analizado un conjunto de datos curado publicado por Chevrier et al. , titulado 'Un inmune Atlas de clara célula Carcinoma Renal' donde el grupo llevó a cabo análisis CyTOF con un amplio panel inmune en muestras tumorales de 73 pacientes11. Dos paneles separados, un panel mieloide y linfoide, se utilizaron para caracterizar fenotípicamente el microambiente tumoral. El objetivo de nuestro estudio fue recapitu...

Discusión

Aquí os presentamos ExCYT, una interfaz de usuario gráfica novela ejecutando algoritmos basados en MATLAB para simplificar el análisis de datos de citometría de alta dimensión, permitiendo que a las personas con ninguna experiencia en programación para implementar lo último en datos multidimensional algoritmos de análisis. La disponibilidad de este software a la comunidad científica permitirá a los científicos a explorar sus datos de citometría de flujo en un flujo de trabajo intuitivo y sencillo. A través d...

Divulgaciones

Los autores no tienen nada que revelar.

Agradecimientos

Los autores no tienen ninguna agradecimientos.

Materiales

NameCompanyCatalog NumberComments
DesktopSuperMicroCustom BuildComputer used to run analysis
MATLABMathworksN/ASoftware used to develop ExCYT

Referencias

  1. Benoist, C., Hacohen, N. Flow cytometry, amped up. Science. 332 (6030), 677-678 (2011).
  2. Ornatsky, O., et al. Highly multiparametric analysis by mass cytometry. Journal of immunological methods. 361 (1), 1-20 (2010).
  3. Tanner, S. D., et al. Flow cytometer with mass spectrometer detection for massively multiplexed single-cell biomarker assay. Pure and Applied Chemistry. 80 (12), 2627-2641 (2008).
  4. Maecker, H. T., et al. Standardization of cytokine flow cytometry assays. BMC immunology. 6 (1), 13 (2005).
  5. Brazma, A., Vilo, J. Gene expression data analysis. FEBS letters. 480 (1), 17-24 (2000).
  6. Pyne, S., et al. Automated high-dimensional flow cytometric data analysis. Proceedings of the National Academy of Sciences. 106 (21), 8519-8524 (2009).
  7. Ge, Y., Sealfon, S. C. flowPeaks: a fast unsupervised clustering for flow cytometry data via K-means and density peak finding. Bioinformatics. 28 (15), 2052-2058 (2012).
  8. Venkatesh, V. Determinants of perceived ease of use: Integrating control, intrinsic motivation, and emotion into the technology acceptance model. Information systems research. 11 (4), 342-365 (2000).
  9. Bagwell, C. B., Adams, E. G. Fluorescence spectral overlap compensation for any number of flow cytometry parameters. Annals of the New York Academy of Sciences. 677 (1), 167-184 (1993).
  10. Lavin, Y., et al. Innate immune landscape in early lung adenocarcinoma by paired single-cell analyses. Cell. 169 (4), 750-765 (2017).
  11. Chevrier, S., et al. An immune atlas of clear cell renal cell carcinoma. Cell. 169 (4), 736-749 (2017).
  12. Hartigan, J. A., Wong, M. A. Algorithm AS 136: A k-means clustering algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics). 28 (1), 100-108 (1979).
  13. Ester, M., Kriegel, H. P., Sander, J., Xu, X. Density-based spatial clustering of applications with noise. International Conference Knowledge Discovery and Data Mining. 240, (1996).
  14. Levine, J. H., et al. Data-driven phenotypic dissection of AML reveals progenitor-like cells that correlate with prognosis. Cell. 162 (1), 184-197 (2015).
  15. Blondel, V. D., Guillaume, J. L., Lambiotte, R., Lefebvre, E. Fast unfolding of communities in large networks. Journal of statistical mechanics: theory and experiment. 2008 (10), P10008 (2008).
  16. Le Martelot, E., Hankin, C. Fast multi-scale detection of relevant communities in large-scale networks. The Computer Journal. 56 (9), 1136-1150 (2013).
  17. Newman, M. E. Fast algorithm for detecting community structure in networks. Physical review E. 69 (6), 066133 (2004).
  18. Hespanha, J. P. . An efficient matlab algorithm for graph partitioning. , 1-8 (2004).
  19. Moon, T. K. The expectation-maximization algorithm. IEEE Signal processing. 13 (6), 47-60 (1996).
  20. Bishop, C. M. . Pattern recognition and machine learning. , (2006).

Reimpresiones y Permisos

Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos

Solicitar permiso

Explorar más artículos

Retracci nn mero 143citometr a de flujoan lisis de la multidimensionalt SNEclusteringmapasreducci n de la dimensionalidad del calor

This article has been published

Video Coming Soon

JoVE Logo

Privacidad

Condiciones de uso

Políticas

Investigación

Educación

ACERCA DE JoVE

Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados