Trois méthodes d’analyse d’expression différentielle pour le séquençage de l’ARN : limma, EdgeR et DESeq2. Ouvrez le programme RStudio, puis chargez le fichier R, DEGs. Le fichier peut être acquis à partir de fichiers supplémentaires. Un.
Téléchargement et prétraitement des données.1.1. Téléchargez les données de séquençage à haut débit du cholangiocarcinome à partir de l’Atlas du génome du cancer. Cet onglet peut facilement être réalisé par le code suivant.
Cliquez sur Exécuter pour installer le package R. Cliquez sur Exécuter pour charger le package R. Définissez le répertoire de travail.
Choisissez le type de cancer. Exécutez le code R à partir du fichier GDCquery pour télécharger les données. Le fichier GDCquery peut être acquis à partir de fichiers/scripts supplémentaires.
Après l’exécution, les données de comptage du séquençage de l’ARN du cholangiocarcinome peuvent être téléchargées et nommées CNT, où les lignes représentent les ID de gènes d’ensemble et les colonnes représentent les ID de symboles. Veuillez noter les chiffres aux positions 14 à 15 dans les ID des symboles. Les nombres vont de 01 à 09 indiquent des tumeurs et 10 à 19 indiquent des tissus normaux.1.2.
Conversation entre les ID de gènes d’ensemble et les symboles de gènes. Importez le fichier d’annotation dans R, en fonction de son chemin de stockage. Le fichier d’annotation peut être acquis à partir de fichiers supplémentaires.
Exécutez le code R à partir du fichier gtf v22. Qui peuvent être acquis à partir de fichiers / scripts supplémentaires. Appliquer la fonction inn et convertir les ID de gènes d’ensemble en symboles de gènes.1.3.
Filtrer les gènes faiblement exprimés. Cliquez sur Exécuter pour installer le package edgeR"Cliquez sur Exécuter pour charger le package R edgeR"Exécutez le code R suivant pour conserver les gènes dont le nombre par million de valeurs est supérieur à un sur au moins deux échantillons. Deux. Analyse d’expression différentielle via limma"Cliquez sur Exécuter pour installer le package R limma"Cliquez sur Exécuter pour charger le package R limma"edgeR"Exécutez le code R suivant pour créer une matrice de conception.
Extraire les informations de groupe. Réglez 01 « comme tissu tumoral. Réglez 11 « comme tissu normal.
Créez une matrice de conception. Créez l’objet DGEList. Normalisez les données.
Exécutez le code R suivant pour effectuer l’analyse d’expression différentielle basée sur la méthode limma-trend. Calculez la valeur CPM. Cliquez sur Exécuter pour ajuster un modèle linéaire afin de prédire les données ou de déduire la relation entre les variables.
Calculez la valeur T, la valeur F et les cotes logarithmées en fonction du bayésien. Extrayez le tableau des résultats. Les résultats de l’analyse d’expression différentielle sont enregistrés dans res_limma » qui inclut la valeur de changement de pli log2.
Niveau d’expression log2 moyen du gène dans l’expérience. La statistique T modifiée, la valeur P, la fausse valeur p corrigée du taux de découverte et les cotes logarithmées des gènes exprimés différentiellement. Identifier les gènes exprimés différemment.
Ainsi, la valeur P ajustée inférieure à 0,05 et la valeur absolue du faux changement logarithmaire supérieur ou égal à deux sont des seuils pour filtrer les gènes exprimés différemment. Les résultats res limma montrent qu’en comparaison avec les tissus normaux, 1 443 gènes sont régulés à la hausse et 1 880 gènes sont régulés à la baisse dans les tissus du cholangiocarcinome. Sortie de la table de résultats dans un fichier.
Cliquez sur Exécuter pour installer le package R ggplot2"Cliquez sur Exécuter pour charger le package R ggplot2"Exécutez le code R à partir du fichier volcano pour créer le tracé volcano et le fichier volcano peut être acquis à partir de fichiers supplémentaires. Les gènes peuvent être mappés à différentes positions en fonction de leur changement de pli log2 et des valeurs P ajustées. Ainsi, les gènes exprimés différentiellement régulés à la hausse sont colorés en rouge.
et les gènes exprimés différentiellement régulés à la baisse sont colorés en vert. Cliquez sur exporter pour enregistrer le tracé du volcan. Trois. Analyse d’expression différentielle via edgeR"Cliquez sur Exécuter pour charger le package R edgeR"Exécutez le code R suivant pour créer une matrice de conception.
Cliquez sur Exécuter pour créer l’objet DGEList et normaliser les données. Cliquez sur Exécuter pour estimer la dispersion de la valeur d’expression des gènes. Cliquez sur Exécuter pour ajuster le modèle afin de compter les données.
Effectuer un test statistique. Extrayez la table des résultats. Le résultat est enregistré dans res edgeR"qui inclut la valeur de changement de pli de journal, logCPM, F, valeur p et la valeur p corrigée du taux de fausse découverte.
Identifier les gènes exprimés différemment. Le résultat res edgeR"montre qu’en comparaison avec les tissus normaux, 3 121 gènes sont régulés à la hausse et 1 578 gènes sont régulés à la baisse dans les tissus du cholangiocarcinome. Sortie de la table de résultats dans un fichier.
Créez le tracé du volcan. Cliquez sur Exporter pour enregistrer le tracé du volcan. Quatre. Analyse de l’expression différentielle via DESeq2.
Cliquez sur Exécuter pour installer le package R DESeq2"Cliquez sur Exécuter pour charger le package R DESeq2"Exécutez le code R suivant pour déterminer le facteur de tâtonnement. Créez l’objet d’ensemble de données DESeq2. Effectuer une analyse.
Générez la table des résultats. Le résultat est enregistré dans la res DESeq2, qui comprend la moyenne du nombre de lectures normalisées, la valeur de changement de pli de journal, la flèche standard de changement de pli de log, la statistique de soudure, la valeur P d’origine et la valeur P corrigée. Identifiez les DEG.
Le résultat de DESeq2 montre qu’en comparaison avec les tissus normaux, deux mille neuf cent trente-huit gènes sont régulés à la hausse, et mille six cent seize gènes sont régulés à la baisse dans les tissus du cholangiocarcinome. Sortie de la table de résultats dans un fichier. Créez le tracé du volcan.
Cliquez sur Exporter pour enregistrer le tracé du volcan. Cinq. Diagramme de Venn. Cliquez sur Exécuter pour installer le diagramme venn du package R.
Cliquez sur Exécuter pour charger le diagramme venn du package R. Faites un diagramme de Venn des gènes exprimés différentiellement régulés à la hausse. Cliquez sur exporter pour enregistrer le diagramme de van, Créer un diagramme de Venn des gènes exprimés différentiellement régulés à la baisse.
Cliquez sur Exporter pour enregistrer le diagramme de Venn. Six. Résultats représentatifs. La première figure montre les diagrammes volcaniques de tous les gènes acquis par limma, edgeR et DESeq2.
La valeur p du log négatif est tracée par rapport au changement de pli du journal. Les points rouges représentent les gènes exprimés différentiellement régulés vers le haut, et les points verts représentent les gènes exprimés différentiellement régulés vers le bas. Limma identifie les mille huit cent quatre-vingts gènes exprimés différentiellement à la baisse, et les mille quatre cent quarante-trois gènes exprimés différentiellement régulés à la hausse dans les tissus du cholangiocarcinome.
EdgeR identifie les mille cinq cent soixante-dix-huit gènes exprimés différentiellement régulés à la baisse, et trois mille cent vingt et un gènes exprimés différentiellement régulés à la hausse. DESeq2 identifie mille six cent seize gènes exprimés différentiellement régulés à la baisse, et deux mille neuf cent trente huit gènes exprimés différentiellement régulés à la hausse. Figure deux, les diagrammes de Venn montrent le chevauchement entre les résultats divisés entre limma edgeR et DESeq2.
Comparez les résultats de ces trois méthodes, mille quatre cent trente et un gènes exprimés différentiellement régulés à la hausse, et mille cinq cent trente et un gènes exprimés différentiellement régulés à la baisse se chevauchent. Dans ce protocole, nous avons fourni ici un protocole détaillé de différents types d’analyse de mesure pour une séquence élevée de données de comptage en utilisant des packages R, limma, edgeR et DESeq2. Trois méthodes ont des méthodes similaires et des membres du personnel dans leur processus d’analyse.
Et puis leurs trois médicaments se chevauchent en partie. Les trois médicaments ont leurs propres avantages. Et le choix dépend simplement de l’heure de vos données.
S’il y a mes données actuelles, limma devrait être donné en priorité, mais les données de séquençage de génération, dans edgeR, et DESeq2 sont préférables.