Method Article
Presentamos el portal web CorExplorer, un recurso para la exploración de los factores de secuenciación de ARN tumoral encontrado según el algoritmo de aprendizaje automático CorEx (Correlation Explanation), y mostramos cómo se pueden analizar los factores en relación con la supervivencia, las anotaciones de la base de datos, interacciones proteína-proteína, y entre sí para obtener información sobre la biología tumoral y las intervenciones terapéuticas.
El análisis diferencial de la expresión génica es una técnica importante para entender los estados de la enfermedad. El algoritmo de aprendizaje automático CorEx ha mostrado utilidad en el análisis de la expresión diferencial de grupos de genes en el ARN-seq tumoral de una manera que puede ser útil para avanzar en la oncología de precisión. Sin embargo, CorEx produce muchos factores que pueden ser difíciles de analizar y conectar con la comprensión existente. Para facilitar este tipo de conexiones, hemos creado un sitio web, CorExplorer, que permite a los usuarios explorar interactivamente los datos y responder a preguntas comunes relacionadas con su análisis. Capacitamos a CorEx en datos de expresión génica ARN-seq para cuatro tipos de tumores: ovario, pulmón, melanoma y colorrectal. A continuación, incorporamos los correspondientes enriquecimientos de vías de supervivencia, proteínas y proteínas, Gene Ontology (GO) y Kyoto Encyclopedia of Genes and Genomes (KEGG), y mapas de calor en el sitio web para su asociación con la visualización de gráficos de factores. Aquí empleamos protocolos de ejemplo para ilustrar el uso de la base de datos para comprender la importancia de los factores tumorales aprendidos en el contexto de estos datos externos.
Desde su introducción hace poco más de una década, el ARN-seq se ha convertido en una herramienta omnipresente para medir la expresión génica1. Esto se debe a que permite una elaboración rápida y barata de novo de todo el transcriptoma de una muestra. Sin embargo, los datos del tumor ARN-seq reflejan una biología subyacente que es intrínsecamente compleja y a menudo submuestreada, mientras que los datos en sí son altos dimensiones y ruidosos. Esto presenta un desafío significativo para extraer señales confiables. El algoritmo CorEx aprovecha la información mutua multivariada para encontrar patrones sutiles en tales situaciones2,3 . Esta técnica fue adaptada previamente para analizar muestras de ARN-seq tumoral de ovario del Atlas del Genoma del Cáncer (TCGA) y en este contexto parecía tener ventajas significativas sobre los métodos de análisis más utilizados4.
Aunque el uso de ARN-seq está enormemente extendido en aplicaciones de investigación, incluso en oncología, esos esfuerzos no han llevado a una amplia utilización a los efectos de las intervenciones clínicas5. Parte de la razón de esto es la falta de algoritmos fáciles de usar y software dirigido a estos problemas específicos. Para ayudar a salvar esta brecha, hemos diseñado el portal web CorExplorer para permitir a los investigadores de una variedad de orígenes estudiar los factores de expresión génica de las muestras de ARN-seq tumoral según lo encontrado por el algoritmo de aprendizaje automático De CorEx. El portal CorExplorer admite la visualización interactiva y la consulta de factores de varios tipos de tumores diferentes, incluyendo pulmón, colon, melanoma y ovario6,7,8,9, 10, con la intención de ayudar a los investigadores a tamificar las correlaciones de datos e identificar las vías candidatas para estratificar a los pacientes con fines terapéuticos.
Esperamos que el portal CorExplorer pueda ser útil para varios tipos de usuarios. El portal fue diseñado pensando en el usuario que desea comprender los amplios factores que impulsan las diferencias de expresión génica tumoral en las bases de datos públicas y posiblemente también colocar perfiles de expresión génica individuales en el contexto de tumores con similares Características. Además de los protocolos representativos descritos aquí, las investigaciones de CorExplorer pueden servir como punto de partida para sugerir hipótesis para pruebas adicionales, comparar y contrastar los hallazgos de CorEx en conjuntos de datos fuera de CorExplorer, y para conectarse firmas de expresión patológica de uno o algunos genes en un tumor individual a grupos más grandes que pueden verse afectados de forma coordinada. Por último, puede servir como una introducción fácil de usar a la aplicación de aprendizaje automático a RNA-seq para aquellos que comienzan en el campo.
1. Explorar factores que contienen un gen de interés
2. Filtrar e interpretar los factores CorEx utilizando datos de peso genético, supervivencia y anotación
3. Uso de anotaciones de supervivencia y bases de datos para buscar combinaciones terapéuticas prometedoras
4. Encontrar puntos en común y diferencias de variación de la expresión génica entre los tipos de tumores utilizando la página de búsqueda
La búsqueda del gen 'BRCA1' en el conjunto de datos de cáncer de pulmón revela que está fuertemente asociado con el factor 26 de CorEx(Figura 2). GO término enriquecimiento para este factor se ve que es extremadamente alto, con la reparación de ADN exhibiendo un FDR de sólo 1 x 10-19. La selección también llama la atención sobre el clúster de segundo nivel L2_8 que tiene seis factores estrechamente relacionados como niños. La selección de la "reparación del ADN" en las anotaciones del término GO o en la lista desplegable GO enriquecida del gráfico de factores resalta los genes asociados en cada uno de los factores, y el factor 26 tiene más, como se esperaba11. La red de interacción proteína-proteína está fuertemente conectada, apoyando aún más la funcionalidad estrechamente vinculada de los genes en el factor 26. El gráfico de supervivencia asociado sugiere una posible asociación con la supervivencia del paciente, pero esto tendría que ser confirmado en un conjunto de datos más grande.
Comenzar con la supervivencia puede permitir la disección de razones para mejorar la supervivencia asociada con grupos de expresión génica particulares. Por ejemplo, el principal factor que influye en la supervivencia del cáncer de ovario se considera el número 39, que está fuertemente enriquecido para los genes asociados con el sistema inmunitario(Figura 3). Otros cinco factores asociados con el mismo nodo de nivel 2 también están indicados para ser inmunes, sin embargo, el impacto de supervivencia parece ser fuertemente variable entre ellos, siendo 39 el más alto y 52 el más bajo. La adición de una ventana de interacción proteína-proteína para un factor muestra la red de interacción inmediata y permite enlazar con el sitio web stringDB12 para consultar varios enriquecimientos para los genes de la red PPI. Al hacer esto para cada uno de los factores L2_14 a su vez, uno encuentra que los enriquecimientos de StringDB para los genes de la red PPI sugieren la siguiente explicación posible para las asociaciones con la supervivencia. El factor 32 contiene genes que conforman el principal complejo proteico de clase I del complejo de histocompatibilidad (MHC), reconocido por los linfocitos T citotóxicos. El factor 39 corresponde a la señalización de citoquinas y la unión del receptor CXCR3, relacionada con los linfocitos T CD8+. Ambos factores parecen conferir una ventaja significativa de supervivencia para los pacientes que presentan una expresión relativamente alta de los genes correspondientes. Los linfocitos T CD8+ citotóxicos son los principales responsables de la inmunidad antitumoral. El factor 52, por otro lado, se compone de genes que codifican proteínas en el complejo MHC clase II que son reconocidos principalmente por las células auxiliares CD4+ T en lugar de directamente por linfocitos T citotóxicos. Los factores L2_14 restantes reflejan la activación generalizada del sistema inmunitario que no diferencia los dos tipos de poblaciones de linfocitos. Una asociación de supervivencia específica para el reconocimiento citotóxico de linfocitos T de antígenos celulares MCH clase I es coherente con nuestra comprensión de la inmunidad antitumoral en general y de otros tipos de cáncer como el melanoma13,14.
El portal web apoya el descubrimiento de pares de factores con funciones complementarias que pueden sugerir terapias combinadas efectivas de tumores específicos. La descripción general del conjunto de datos se puede analizar en busca de factores que muestren una correlación con la supervivencia pero que tengan distintos enriquecimientos de GO. Para el melanoma (TCGA_SKCM; Figura 4),se ve que el factor de supervivencia 171 principal está relacionado con el inmune, mientras que el factor 88 en la lista muestra el enriquecimiento de genes relacionados con la organización de la mitocondción. De hecho, esto ha sido sugerido como un objetivo en el melanoma15. La adición de ventanas de supervivencia a la página CorExplorer permite comparar la estratificación utilizando el par de factores con el de cada factor individualmente, mostrando que los patrones de expresión génica favorable de ambos grupos muestran una tendencia de supervivencia mejor que la de cualquiera de los dos solo factor. El estrato superior no parece mejorars sin embargo, lo que sugiere inmunoterapia sólo puede ser la mejor opción para algunos pacientes.
Los puntos en común y las diferencias entre los tumores se pueden ver buscando genes en conjuntos de datos o términos GO (Figura 5). Por ejemplo, FLT1 (también conocido como VEGFR1) es un marcador pro-angiogénico bien estudiado16,17. Cuando se coloca en la barra de búsqueda, todos los tumores tienen factores en los que FLT1 juega un papel importante. Por el contrario, cuando se introduce el término GO «angiogénesis» en la página de búsqueda, 5 de cada 6 grupos FLT1 aparecen con ese enriquecimiento. Todos los factores FLT1, con la excepción de SKCM-195, están catalogados como enriquecidos estadísticamente para genes de "angiogénesis". El sexto factor, de hecho, tiene la anotación, pero por debajo del umbral predeterminado 10-8. Cuando la ponderación dentro de la lista de factores se utiliza en una calculadora de enriquecimiento alternativo, por ejemplo, Gene Set Enrichment Analysis (GSEA)18, el sexto factor se encuentra significativamente enriquecido para los genes de 'angiogénesis', así.
Es importante comprobar los mapas de calor para asegurarse de que el patrón de expresión génica es de calidad adecuada para apoyar las interpretaciones biológicas. Los mapas de calor que muestran una fuerte variación clara pueden presentar una expresión coordinada de los genes factores que van desde patrones bajos a altos o más complejos con algunos genes con baja expresión correlacionados con otros que tienen alta(Figura 6). Un marcador clave de una agrupación de alta calidad es la presencia de varios genes con una variación suave en la expresión en función de la puntuación de factor. Los mapas de calor de factor muestran muestras ordenadas según la puntuación del factor, por lo que debe haber un degradado suave moviéndose de izquierda a derecha. Sin embargo, esto puede no suceder de al menos dos maneras diferentes. Más comúnmente, las correlaciones pueden ser extremadamente ruidosas(Figura 5C),lo que pone en tela de juicio la robustez y utilidad de cualquier inferencia con respecto a la supervivencia y/ o función biológica. Además, los patrones que ocurren sólo en una pequeña minoría de muestras pueden no ajustarse al modelo de tres estados de expresión asumidos por el algoritmo CorEx, lo que resulta en una clasificación engañosa de las muestras (lado derecho de la Figura 5D).
Figura 1: Página principal de CorExplorer. Después de hacer clic en + junto a Cáncer de ovario en Enlaces rápidos, se muestran los detalles del gráfico de factores. El modelo jerárquico CorEx se compone de variables de entrada (expresión genética en este caso) en la capa inferior y factores latentes inferidos en las capas superiores. Haga clic aquí para ver una versión más grande de esta figura.
Figura 2: Uso de un nombre genético para guiar la exploración. La figura muestra una serie de capturas de pantalla que ilustran la exploración de los factores del cáncer de pulmón CorEx fuertemente relacionados con BRCA1. En primer lugar, al seleccionar 'BRCA1' en el cuadro desplegable Gene para el gráfico de factores, la vista de gráfico hace que la vista del gráfico se acerque al factor para el que BRCA1 tiene el mayor peso. Al alejar un bit, el nodo L2_8 de la capa dos conecta ese factor a otros relacionados. La supervivencia y las anotaciones se pueden comparar: al hacer clic en el término GO, la reparación del ADN resalta los genes anotados. Se agrega una ventana de PPI para mostrar las interacciones de red de los genes en el factor. El uso del botón Añadir ventana para agregar un mapa de calor muestra la asociación de patrones de expresión con la supervivencia, lo que sugiere que una mayor expresión de genes de reparación del ADN puede estar asociada con una disminución de la supervivencia. Haga clic aquí para ver una versión más grande de esta figura.
Figura 3: Uso de datos clínicos (supervivencia) para guiar la exploración. Explorar el principal factor asociado a la supervivencia (39) para el cáncer de ovario revela relaciones interesantes entre los factores vecinos. Después de seleccionar el factor 39 en el gráfico de factores y alejar un poco, se considera que la capa dos factor vinculado al factor 39 tiene otros cinco factores asociados. Una ventana de supervivencia adicional permite la comparación directa de los diferenciales de supervivencia asociados. Los factores 39 y 32 muestran una correlación positiva de supervivencia, en contraste con el factor 52, que no lo hace. Las redes de interacción proteína-proteína están bien definidas. La vinculación a StringDB permite la comparación de las anotaciones GO (no se muestra): Factor 39 está asociado con una red de señalización de citoquinas relacionada con la activación del linfocitos T CD8+ citotóxico y el factor 32 está dominado por el antígeno MHC clase I que presenta proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan proteínas que presentan desencadenar el reconocimiento por tales linfocitos; los factores vecinos, sin embargo, están dominados por otros componentes del sistema inmunitario como los linfocitos T auxiliares CD4+ y no muestran correlación de supervivencia. Haga clic aquí para ver una versión más grande de esta figura.
Figura 4: Explorar los principales factores de supervivencia sugiere posibles combinaciones terapéuticas. El enlace "Conjuntos de datos" en la barra de menús de la página principal conduce a una tabla concisa de factores de supervivencia ordenados por valor p, junto con la anotación GO superior (no se muestra). Usando esta información para el melanoma, la combinación del factor 171 para la función inmune con el factor 88 para la organización de los mitocondriones parece complementaria. La figura muestra ventanas de anotación para cada uno de los factores uno al lado del otro para contrastarlos. Las curvas de supervivencia para pacientes estratificadas por los dos factores individualmente o juntos indican que la combinación aumenta el diferencial de supervivencia en comparación con cualquiera de los factores solos. Haga clic aquí para ver una versión más grande de esta figura.
Figura 5: La página de búsqueda facilita el análisis del pancáncer. Los genes o los términos del proceso biológico GO se pueden buscar en todos los conjuntos de datos mediante el enlace Buscar de la página principal. La figura muestra los resultados de búsqueda del gen FLT1 y el término GO «angiogénesis». Los resultados muestran la presencia de FLT1 en factores anotados con el término "angiogénesis" entre los cánceres. Haga clic aquí para ver una versión más grande de esta figura.
Figura 6: Los mapas de calor se pueden utilizar para evaluar cualitativamente las correlaciones entre genes y muestras según la puntuación del factor. Las relaciones de expresión génica de alta calidad se muestran mediante una gradación suave cuando los pacientes se ordenan por puntuación de factor en los mapas de calor. El mapa de calor más a la izquierda para el factor 18 es un ejemplo. Los patrones también pueden abarcar firmas complejas de expresión arriba y abajo como en el mapa de calor grande medio para el factor 11. Los patrones de menor calidad a veces muestran cambios abruptos en la expresión para un subgrupo de pacientes como en el mapa de calor del factor 9 a la derecha o correlaciones muy ruidosos simples como en el mapa de calor del factor 161 en la parte inferior derecha. Haga clic aquí para ver una versión más grande de esta figura.
Hemos presentado el sitio CorExplorer, un servidor web de acceso público para la exploración interactiva de factores de expresión génica correlacionados al máximo aprendidos del ARN-seq tumoral por el algoritmo CorEx. Hemos demostrado cómo el sitio web puede ser utilizado para estratificar a los pacientes de acuerdo con la expresión del gen tumoral, y cómo dicha estratificación corresponde a la función biológica y la supervivencia.
Se han creado otros servidores web para el análisis de ARN-seq. El análisis diferencial y de coexpresión de tumores puede ser examinado e integrado con otros tipos de datos en cbioPortal19,20. Los servidores GenePattern21, Mev22y Morpheus23,incorporan técnicas de agrupación en clústeres establecidas, como el análisis de componentes principales (PCA), kmeans o mapas autoorganizativos (SOM). Los esfuerzos más innovadores incluyen CamurWeb24,basado en un clasificador automatizado generador de reglas, y TACCO25, que implementa clasificadores y lazos forestales aleatorios. El algoritmo CorEx utilizado aquí optimiza la información multivariada para encontrar una jerarquía de factores que expliquen los patrones en los datos. El aprendizaje de factores no lineales y jerárquicos parece producir una mejor interpretabilidad en relación con los factores globales lineales encontrados a través de PCA4. Además, el análisis fino de las señales de muestra de la técnica permite comparaciones precisas de tumores con respecto a los subtipos anchos más utilizados. Esta combinación de análisis de factores jerárquicos y superpuestos distingue el CorExplorer de la mayoría de los otros enfoques y requiere nuevas herramientas para la visualización y el resumen.
Una parte crítica del análisis del factor CorExplorer es la capacidad de explorar no solo varios, sino más de 100 factores con patrones genéticos informativos que se colocan dentro de una jerarquía superpuesta. El CorExplorer facilita la minería de estos innumerables factores para las asociaciones biológicas y clínicas y permite una caracterización excepcionalmente detallada de tumores individuales. El aprendizaje no supervisado de un número tan grande de factores significa que no todos serán relevantes para la biología de la enfermedad. En tal caso, es esencial utilizar anotaciones o genes conocidos para extraer factores de interés o buscar factores asociados con datos clínicos como la supervivencia. Por lo tanto, el CorExplorer permite a los usuarios implementar este paso de filtrado muy importante. La presencia de patrones genéticos de factor en un tumor puede incluso sugerir un enfoque para el tratamiento oncológico personalizado. Además, la multiplicidad de puntuaciones de factores para cada tumor que permite el descubrimiento de combinaciones terapéuticas potencialmente útiles.
A veces es el caso de que no aparecen anotaciones GO significativas para factores altamente correlacionados con la supervivencia. Si bien esto puede ocurrir debido a datos ruidosos o bajo muestras, hay otras causas posibles, como un tamaño de racimo que es demasiado pequeño para registrar puntuaciones de enriquecimiento significativas o el grupo es una "cesta" de genes únicos de diversas vías sin vías biológicas coherentes Asociación. Además, una categoría de anotación diferente del proceso biológico KEGG y GO, por ejemplo, el compartimento celular, puede ser apropiada. Se puede tener acceso a ellos mediante la vinculación a StringDB como se muestra en el protocolo. El análisis de enriquecimiento de Gene Ontology en el sitio CorExplorer actualmente no tiene en cuenta la ponderación del gen en un factor, aunque esto probablemente se remediará en un futuro próximo. Tenga en cuenta que una opción de lista de genes está disponible en "Agregar ventana" que permite descargar la lista completa de genes de factores para su posterior análisis con herramientas externas.
Para los fines del sitio web, CorEx se ejecutó en cada uno de los conjuntos de datos cinco veces y se retuvo la ejecución que dio lugar a la mayor correlación total general. Tener una representación estadística de los resultados de múltiples corridas puede ser más informativo y es un objetivo para el trabajo futuro. Además, el conjunto de tipos de tumores disponibles en el servidor es bastante pequeño, pero esperamos que esto se expanda con el tiempo de acuerdo con el interés del usuario.
Como se describió anteriormente, el CorExplorer visualiza las relaciones entre el factor ARN-seq de CorEx junto con la información clínica y de la base de datos, lo que permite una variedad de diferentes modos de interrogación. Esperamos que esta herramienta conduzca a un mayor trabajo para utilizar el poder del análisis de ARN-seq para el descubrimiento y la aplicación clínica en oncología.
Los autores declaran que no tienen intereses financieros en competencia.
GV fue apoyado por el premio DARPA W911NF-16-0575.
Name | Company | Catalog Number | Comments |
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados