Method Article
Nous introduisons le portail Web CorExplorer, une ressource pour l'exploration des facteurs de séquençage de l'ARN tumoral trouvés par l'algorithme d'apprentissage automatique CorEx (Correlation Explication), et montrons comment les facteurs peuvent être analysés par rapport à la survie, les annotations de base de données, interactions protéines-protéines, et les uns les autres pour obtenir un aperçu de la biologie tumorale et des interventions thérapeutiques.
L'analyse différentielle d'expression de gène est une technique importante pour comprendre des états de la maladie. L'algorithme d'apprentissage automatique CorEx a montré l'utilité dans l'analyse de l'expression différentielle des groupes de gènes dans la tumeur RNA-seq d'une manière qui peut être utile pour faire progresser l'oncologie de précision. Cependant, CorEx produit de nombreux facteurs qui peuvent être difficiles à analyser et à se connecter à la compréhension existante. Pour faciliter de telles connexions, nous avons construit un site Web, CorExplorer, qui permet aux utilisateurs d'explorer les données de manière interactive et de répondre à des questions communes liées à son analyse. Nous avons formé CorEx sur les données d'expression de gène d'ARN-seq pour quatre types de tumeur : ovaire, poumon, mélanome, et côlorectal. Nous avons ensuite incorporé les éléments de survie correspondants, les interactions protéines-protéines, l'entologie génique (GO) et l'encyclopédie des gènes et des génomes de Kyoto (KEGG) et les cartes thermiques dans le site Web pour association avec la visualisation du graphique de facteur. Ici nous employons des protocoles d'exemple pour illustrer l'utilisation de la base de données pour comprendre l'importance des facteurs de tumeur appriss dans le contexte de ces données externes.
Depuis son introduction il y a un peu plus d'une décennie, l'ARN-seq est devenu un outil omniprésent pour mesurer l'expression des gènes1. C'est parce qu'il permet un profilage rapide et bon marché de novo de l'ensemble transcriptome d'un échantillon. Cependant, les données de tumeur d'ARN-seq reflètent une biologie fondamentale qui est intrinsèquement complexe et souvent sous-échantillonnée, alors que les données elles-mêmes sont de haute dimension et bruyantes. Cela présente un défi important pour l'extraction de signaux fiables. L'algorithme CorEx tire parti de l'information mutuelle multivariée pour trouver des modèles subtils dans de telles situations2,3 . Cette technique a été précédemment adaptée pour analyser des échantillons d'ARN-seq de tumeur ovarienne de l'Atlas de génome de cancer (TCGA) et dans ce contexte elle a semblé avoir des avantages significatifs au-dessus des méthodes plus couramment employées d'analyse4.
Bien que l'utilisation de l'ARN-seq soit extrêmement répandue dans les applications de recherche, y compris en oncologie, ces efforts n'ont pas conduit à une large utilisation aux fins des interventions cliniques5. Cela s'explique en partie par le manque d'algorithmes et de logiciels conviviaux ciblés sur ces problèmes spécifiques. Pour aider à combler cette lacune, nous avons conçu le portail Web CorExplorer pour permettre aux chercheurs de divers milieux d'étudier les facteurs d'expression génique des échantillons d'ARN-seq tumoraux tels que trouvés par l'algorithme d'apprentissage automatique CorEx. Le portail CorExplorer prend en charge la visualisation interactive et l'interrogation des facteurs de plusieurs types de tumeurs différentes, y compris le poumon, le côlon, le mélanome, et l'ovaire6,7,8,9, 10, dans le but d'aider les chercheurs à passer au crible les corrélations de données et à identifier les voies des candidats pour stratifier les patients à des fins thérapeutiques.
Nous nous attendons à ce que le portail CorExplorer soit utile à plusieurs types d'utilisateurs. Le portail a été conçu avec l'utilisateur à l'esprit qui souhaite comprendre les grands facteurs qui conduisent les différences d'expression des gènes tumoraux dans les bases de données publiques et peut-être aussi placer des profils individuels d'expression des gènes dans le contexte de tumeurs avec des Caractéristiques. En plus des protocoles représentatifs décrits ici, les enquêtes CorExplorer peuvent servir de point de départ pour suggérer des hypothèses pour d'autres tests, pour comparer et contraster les résultats de CorEx sur les ensembles de données à l'extérieur du CorExplorer, et pour se connecter signatures d'expression pathologique d'un ou quelques gènes dans une tumeur individuelle à de plus grands groupes qui peuvent être coordonnés affectés. Enfin, il peut servir d'introduction conviviale à l'application de l'apprentissage automatique à l'ARN-seq pour ceux qui commencent dans le domaine.
1. Explorer les facteurs contenant un gène d'intérêt
2. Filtrer et interpréter les facteurs CorEx à l'aide de données sur le poids, la survie et l'annotation des gènes
3. Utilisation des annotations de survie et de base de données pour rechercher des combinaisons thérapeutiques prometteuses
4. Trouver des points communs et des différences de variation d'expression génique entre les types de tumeurs à l'aide de la page de recherche
La recherche du gène 'BRCA1' dans l'ensemble de données sur le cancer du poumon révèle qu'il est le plus fortement associé au facteur CorEx 26 (figure 2). L'enrichissement à terme GO pour ce facteur est considéré comme extrêmement élevé, avec la réparation d'ADN présentant un FDR de seulement 1 x 10-19. La sélection attire également l'attention sur le groupe de deuxième niveau L2-8 qui a six facteurs étroitement liés comme les enfants. La sélection de la « réparation de l'ADN » dans les annotations du terme GO ou dans le graphique de facteur GO enrichi déroulant met en évidence les gènes associés dans chacun des facteurs, le facteur 26 ayant de loin le plus, comme prévu11. Le réseau d'interaction protéine-protéine est fortement relié, soutenant davantage la fonctionnalité étroitement liée des gènes dans le facteur 26. Le graphique de survie associé suggère une association possible avec la survie du patient, mais ceci devrait être confirmé dans un ensemble de données plus large.
Commencer par la survie peut permettre la dissection des raisons de l'amélioration de la survie associée à des groupes d'expression génétique particuliers. À titre d'exemple, le principal facteur influençant la survie du cancer de l'ovaire est le numéro 39, qui est fortement enrichi pour les gènes associés au système immunitaire (figure 3). Cinq autres facteurs associés au même nœud de niveau 2 sont également indiqués comme étant liés au système immunitaire, mais l'impact sur la survie semble être fortement variable parmi eux, 39 étant le plus élevé et 52 étant le plus faible. L'ajout d'une fenêtre d'interaction protéine-protéine pour un facteur montre le réseau d'interaction immédiat et permet de se connecter au site Web StringDB12 pour interroger divers enrichissements pour les gènes du réseau PPI. En faisant cela pour chacun des facteurs L2-14 à son tour, on constate que les enrichissements de StringDB pour les gènes du réseau PPI suggèrent l'explication possible suivante pour les associations avec la survie. Le facteur 32 contient des gènes qui constituent le complexe protéique majeur de classe I du complexe d'histocompatibilité (MHC), qui est reconnu par les lymphocytes T cytotoxiques. Le facteur 39 correspond à la signalisation cytokine et à la liaison des récepteurs CXCR3, liées aux lymphocytes T CD8MD. Ces deux facteurs semblent conférer un avantage significatif de survie pour les patients présentant l'expression relativement élevée des gènes correspondants. Les lymphocytes Cytotoxic CD8MD T sont principalement responsables de l'immunité antitumorale. Le facteur 52, d'autre part, est composé de gènes codant pour les protéines dans le complexe de classe II de MHC qui sont reconnus principalement par les cellules d'aide de CD4 MD plutôt que directement par les lymphocytes T cytotoxiques. Les autres facteurs De L2-14 reflètent l'activation généralisée du système immunitaire qui ne différencie pas les deux types de populations de lymphocytes. Une association de survie spécifique à la reconnaissance cytotoxique de lymphocyte de T des antigènes cellulaires de classe I de MCH est compatible avec notre compréhension de l'immunité antitumorale en général et d'autres cancers tels que le mélanome13,14.
Le portail Web soutient la découverte de paires de facteurs avec des fonctions complémentaires qui peuvent suggérer des thérapies combinées tumeur-spécifiques efficaces. La vue d'ensemble de données peut être numérisée pour les facteurs qui montrent une corrélation avec la survie tout en ayant des enrichissements GO distincts. Pour le mélanome (TCGA-SKCM; Figure 4), on voit que le principal facteur de survie 171 est lié au système immunitaire, tandis que le facteur 88 en bas de la liste montre l'enrichissement des gènes liés à l'organisation de la mitochondrie. En effet, cela a été suggéré comme une cible dans le mélanome15. L'ajout de fenêtres de survie à la page CorExplorer permet de comparer la stratification en utilisant la paire de facteurs à celle de chaque facteur individuellement, montrant que les modèles d'expression génique favorables des deux groupes présentent une tendance de survie meilleure que celle de l'un ou l'autre facteur seul. La strate supérieure ne semble pas être améliorée cependant, suggérant l'immunothérapie seulement peut être la meilleure option pour quelques patients.
Les points communs et les différences entre les tumeurs peuvent être observés en cherchant des gènes ou des termes GO dans tous les ensembles de données(figure 5). À titre d'exemple, FLT1 (alias VEGFR1) est un marqueur pro-angiogénique bien étudié16,17. Quand il est mis dans la barre de recherche, toutes les tumeurs ont des facteurs dans lesquels FLT1 joue un rôle majeur. Inversement, lorsque le terme GO «angiogenèse» est entré sur la page de recherche, 5 des 6 groupes FLT1 apparaissent avec cet enrichissement. Tous les facteurs FLT1, à l'exception de SKCM-195, sont répertoriés comme statistiquement enrichis pour les gènes d'angiogenèse. Le sixième facteur a, en fait, l'annotation, mais en dessous du seuil par défaut de 10-8. Lorsque la pondération dans la liste des facteurs est utilisée dans une calculatrice d'enrichissement alternative, par exemple, Gene Set Enrichment Analysis (GSEA)18, le sixième facteur s'est avéré être considérablement enrichi pour les gènes d'angiogenèse ainsi.
Il est important de vérifier les cartes thermiques pour s'assurer que le modèle d'expression génique est de qualité suffisante pour soutenir les interprétations biologiques. Les cartes thermiques qui présentent une forte variation claire peuvent présenter une expression coordonnée des gènes du facteur allant de modèles faibles à élevés ou plus complexes, certains gènes ayant une faible expression étant corrélés avec d'autres ayant des facteurs élevés(figure 6). Un marqueur clé d'un groupement de haute qualité est la présence de plusieurs gènes avec une variation lisse de l'expression en fonction du score de facteur. Les cartes thermiques de facteur montrent des échantillons commandés selon le score de facteur, ainsi il devrait y avoir un gradient lisse se déplaçant de gauche à droite. Cependant, cela peut ne pas se produire d'au moins deux façons différentes. Le plus souvent, les corrélations peuvent être extrêmement bruyantes (Figure 5C), remettant en question la robustesse et l'utilité de toute inférence concernant la survie et/ou la fonction biologique. En outre, les modèles qui ne se produisent que dans une petite minorité d'échantillons peuvent ne pas se conformer au modèle de trois états d'expression supposés par l'algorithme CorEx, ce qui entraîne une classification trompeuse des échantillons (côté droit de la figure 5D).
Figure 1 : Première page CorExplorer. Après avoir cliqué sur le cancer de l'ovaire sous Quick Links,les détails du graphique de facteur sont affichés. Le modèle hiérarchique CorEx est composé de variables d'entrée (expression génique dans ce cas) sur la couche inférieure et de facteurs latents inférés dans les couches supérieures. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.
Figure 2 : Utilisation d'un nom de gène pour guider l'exploration. La figure montre une série de captures d'écran illustrant l'exploration des facteurs de cancer du poumon CorEx fortement liés à BRCA1. Tout d'abord, la sélection de «BRCA1» dans la boîte de dépôt de gènes pour le graphique facteur provoque la vue graphique de zoomer sur le facteur pour lequel BRCA1 a le plus de poids. Zoom sur un peu encadre la couche deux nœuds L2-8 reliant ce facteur à d'autres connexes. La survie et les annotations peuvent être comparées : en cliquant sur le terme GO, la réparation de l'ADN met en évidence les gènes annotés. Une fenêtre PPI est ajoutée pour afficher les interactions réseau pour les gènes dans le facteur. L'utilisation du bouton Add Window pour ajouter une carte thermique montre l'association des modèles d'expression avec la survie, suggérant une expression accrue des gènes de réparation de l'ADN peut être associée à une diminution de la survie. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.
Figure 3 : Utilisation de données cliniques (survie) pour guider l'exploration. L'exploration du facteur associé à la survie (39) pour le cancer de l'ovaire révèle des relations intéressantes entre les facteurs voisins. Après avoir sélectionné le facteur 39 dans le graphique de facteur et zoom sur un peu, le facteur de la couche deux lié au facteur 39 est considéré comme ayant cinq autres facteurs associés. Une fenêtre de survie supplémentaire permet une comparaison directe des différentiels de survie associés. Les facteurs 39 et 32 montrent tous deux une corrélation de survie positive, contrairement au facteur 52, ce qui n'est pas le cas. Les réseaux d'interaction protéines-protéines sont tous bien définis. Lier à StringDB permet de comparer les annotations GO (non montrées) : le facteur 39 est associé à un réseau de signalisation cytokine lié à l'activation cytotoxique des lymphocytes T CD8MD et le facteur 32 est dominé par les protéines présentant des protéines de classe I du MHC qui présentent des protéines qui déclencher la reconnaissance par ces lymphocytes; les facteurs voisins, cependant, sont dominés par d'autres composants du système immunitaire tels que les lymphocytes T d'aide CD4 MD et ne montrent aucune corrélation de survie. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.
Figure 4 : L'exploration des principaux facteurs de survie suggère des combinaisons thérapeutiques potentielles. Le lien 'Datasets' sur la barre de menu de la page d'accueil conduit à une table concise des facteurs de survie classés par p-valeur, avec l'annotation GO haut (non montré). Utilisant cette information pour le mélanome, la combinaison du facteur 171 pour la fonction immunisée avec le facteur 88 pour l'organisation de mitochondndrion semble complémentaire. La figure montre des fenêtres d'annotation pour chacun des facteurs côte à côte pour les contraster. Les courbes de survie pour les patients stratifiés par les deux facteurs individuellement ou ensemble indiquent que la combinaison augmente le différentiel de survie par rapport à l'un ou l'autre facteur seul. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.
Figure 5 : La page de recherche facilite l'analyse pancancéreuse. Les gènes ou les termes de processus biologique GO peuvent être recherchés dans tous les ensembles de données à l'aide du lien de recherche à partir de la page d'accueil. La figure montre les résultats de recherche pour le gène FLT1 et le terme GO 'angiogenesis'. Les résultats montrent la présence de FLT1 dans les facteurs annotés avec le terme «angiogenèse» à travers les cancers. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.
Figure 6 : Les cartes thermiques peuvent être utilisées pour évaluer qualitativement les corrélations entre les gènes et les échantillons en fonction du score des facteurs. Les relations d'expression génique de haute qualité sont montrées par gradation lisse quand les patients sont commandés par le score de facteur dans les cartes thermiques. La carte thermique la plus à gauche pour le facteur 18 en est un exemple. Les modèles peuvent également englober des signatures complexes d'expression de haut en bas comme dans la carte thermique moyenne grande pour le facteur 11. Des modèles de qualité inférieure montrent parfois des changements brusques dans l'expression pour un sous-groupe de patients comme dans le facteur 9 heatmap sur les corrélations droites ou simples très bruyantes comme dans le facteur 161 heatmap en bas à droite. Veuillez cliquer ici pour voir une version plus grande de ce chiffre.
Nous avons présenté le site CorExplorer, un serveur Web accessible au public pour l'exploration interactive des facteurs d'expression génique au maximum corrélés appris de l'ARN-seq tumoral par l'algorithme CorEx. Nous avons montré comment le site Web peut être employé pour stratifier des patients selon l'expression de gène de tumeur, et comment une telle stratification correspond à la fonction et à la survie biologiques.
D'autres serveurs Web pour l'analyse RNA-seq ont été construits. L'analyse différentielle et de co-expression pour des tumeurs peut être examinée et intégrée avec d'autres types de données dans cbioPortal19,20. Les serveurs GenePattern21, Mev22, et Morpheus23, intègrent des techniques de clustering établies telles que l'analyse des composants principaux (PCA), kmeans, ou des cartes auto-organisées (SOMs). Les efforts plus novateurs incluent CamurWeb24, basé sur un classificateur automatisé génératrice de règles, et TACCO25, qui met en œuvre des classificateurs et des lassos aléatoires de forêt. L'algorithme CorEx utilisé ici optimise les informations multivariées afin de trouver une hiérarchie de facteurs qui expliquent les modèles dans les données. L'apprentissage des facteurs non linéaires et hiérarchiques semble permettre d'améliorer l'interprétabilité par rapport aux facteurs globaux linéaires trouvés par l'intermédiaire de PCA4. En outre, l'analyse fine de la technique des signaux d'échantillon permet des comparaisons précises de tumeur vis-à-vis des sous-types larges plus couramment utilisés. Cette combinaison d'analyse des chevauchements et des facteurs hiérarchiques distingue le CorExplorer de la plupart des autres approches et nécessite de nouveaux outils de visualisation et de synthèse.
Une partie essentielle de l'analyse des facteurs CorExplorer est la capacité d'explorer non seulement plusieurs, mais plus de 100 facteurs avec des modèles de gènes informatifs qui sont placés dans une hiérarchie qui se chevauche. Le CorExplorer facilite l'extraction de ces innombrables facteurs pour les associations biologiques et cliniques et permet une caractérisation exceptionnellement détaillée des tumeurs individuelles. L'apprentissage non supervisé d'un si grand nombre de facteurs signifie que tous ne seront pas pertinents pour la biologie des maladies. Dans un tel cas, il est essentiel d'utiliser des annotations ou des gènes connus pour éliminer les facteurs d'intérêt ou rechercher des facteurs associés à des données cliniques telles que la survie. Ainsi, le CorExplorer permet aux utilisateurs d'implémenter cette étape de filtrage très importante. La présence des modèles de gène de facteur dans une tumeur peut même suggérer une approche au traitement personnalisé d'oncologie. En outre, la multiplicité des scores de facteur pour chaque tumeur qui permet la découverte des combinaisons thérapeutiques potentiellement utiles.
Il arrive parfois qu'aucune annotation GO significative n'apparaisse pour des facteurs fortement corrélés avec la survie. Bien que cela puisse se produire en raison de données bruyantes ou sous échantillonnées, il existe d'autres causes possibles telles qu'une taille de grappe qui est trop petite pour enregistrer des scores d'enrichissement significatifs ou le groupe étant un « panier » de gènes uniques provenant de diverses voies sans association. En outre, une catégorie d'annotation différente du processus biologique KEGG et GO, par exemple compartiment cellulaire, peut être appropriée. Ceux-ci peuvent être consultés en liant à StringDB comme démontré dans le protocole. L'analyse de l'enrichissement en généologie sur le site de CorExplorer ne tient pas compte de la pondération génétique dans un facteur, bien que cela sera probablement corrigé dans un proche avenir. Notez qu'une option de liste de gènes est disponible sous 'Add Window' qui permet le téléchargement de la liste complète des gènes facteurs pour une analyse plus approfondie avec des outils externes.
Aux fins du site Web, CorEx a été exécuté sur chacun des jeux de données cinq fois et l'exécution qui a abouti à la plus grande corrélation totale totale a été conservée. Avoir une représentation statistique des résultats de plusieurs séries peut être plus instructif et est un objectif pour les travaux futurs. En outre, l'ensemble des types de tumeurs disponibles sur le serveur est plutôt faible, mais nous nous attendons à ce que cela se développe au fil du temps en fonction de l'intérêt des utilisateurs.
Comme indiqué ci-dessus, le CorExplorer visualise les relations corEx ARN-seq facteur avec des informations cliniques et de base de données, permettant ainsi une variété de différents modes d'interrogatoire. Nous espérons que cet outil mènera à d'autres travaux pour utiliser la puissance de l'analyse ARN-seq pour la découverte et l'application clinique en oncologie.
Les auteurs déclarent qu'ils n'ont pas d'intérêts financiers concurrents.
GV a été soutenu par DARPA prix W911NF-16-0575.
Name | Company | Catalog Number | Comments |
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon