Analyse du transcriptome à haut débit pour l’étude des interactions hôte-pathogène

André Nicolau Aquime Gonçalves; Vanessa Escolano Maso; Ícaro Maia Santos de Castro; Amanda Pereira Vasconcelos; Rodrigo Luiz Tomio Ogava; Helder I Nakaya

doi:10.3791/62324

Auteurs

Contactez-nous

S'identifier

Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.

Dans cet article

Résumé
Résumé
Introduction
Protocole
Résultats
Discussion
Déclarations de divulgation
Remerciements
matériels
Références
Réimpressions et Autorisations

Résumé

Le protocole présenté ici décrit un pipeline complet pour analyser les données de transcriptome de séquençage de l’ARN, des lectures brutes à l’analyse fonctionnelle, y compris le contrôle de la qualité et les étapes de prétraitement aux approches analytiques statistiques avancées.

Résumé

Les agents pathogènes peuvent causer une grande variété de maladies infectieuses. Les processus biologiques induits par l’hôte en réponse à l’infection déterminent la gravité de la maladie. Pour étudier de tels processus, les chercheurs peuvent utiliser des techniques de séquençage à haut débit (séquençage de l’ARN) qui mesurent les changements dynamiques du transcriptome de l’hôte à différents stades de l’infection, des résultats cliniques ou de la gravité de la maladie. Cette enquête peut mener à une meilleure compréhension des maladies, ainsi qu’à la découverte de cibles médicamenteuses et de traitements potentiels. Le protocole présenté ici décrit un pipeline complet pour analyser les données de séquençage de l’ARN, des lectures brutes à l’analyse fonctionnelle. Le pipeline est divisé en cinq étapes : (1) contrôle de la qualité des données; 2° la cartographie et l’annotation des gènes; 3° l’analyse statistique pour identifier les gènes exprimés différemment et les gènes co-exprimés; 4° la détermination du degré moléculaire de la perturbation des échantillons; et (5) l’analyse fonctionnelle. L’étape 1 élimine les artefacts techniques qui peuvent avoir une incidence sur la qualité des analyses en aval. À l’étape 2, les gènes sont cartographiés et annotés selon les protocoles standard de la bibliothèque. L’analyse statistique de l’étape 3 identifie les gènes qui sont exprimés différemment ou co-exprimés dans les échantillons infectés, par rapport aux échantillons non infectés. La variabilité de l’échantillon et la présence de valeurs aberrantes biologiques potentielles sont vérifiées à l’aide de l’approche du degré moléculaire de perturbation à l’étape 4. Enfin, l’analyse fonctionnelle de l’étape 5 révèle les voies associées au phénotype de la maladie. Le pipeline présenté vise à soutenir les chercheurs à travers l’analyse des données ARN-seq à partir d’études d’interaction hôte-pathogène et à conduire de futures expériences in vitro ou in vivo , qui sont essentielles pour comprendre le mécanisme moléculaire des infections.

Introduction

Les arbovirus, tels que la dengue, la fièvre jaune, le chikungunya et le zika, ont été largement associés à plusieurs épidémies endémiques et sont devenus l’un des principaux agents pathogènes responsables de l’infection des humains au cours des dernières ^{décennies1,2}. Les personnes infectées par le virus chikungunya (CHIKV) ont souvent de la fièvre, des maux de tête, des éruptions cutanées, une polyarthralgie et de l’arthrite3,4,5. Les virus peuvent subvertir l’expression génique de la cellule et influencer diverses voies de signalisation de l’hôte. Récemment, des études sur le transcriptome sanguin ont utilisé l’ARN-seq pour identifier les gènes exprimés différentiellement (DEG) associés à l’infection aiguë par le CHIKV par rapport à la convalescence6 ou aux témoins ^sains7. Les enfants infectés par le CHIKV avaient des gènes régulés à la hausse qui sont impliqués dans l’immunité innée, tels que ceux liés aux capteurs cellulaires pour l’ARN viral, à la signalisation JAK / STAT et aux voies de signalisation des récepteurs de type ^toll6. Les adultes gravement infectés par le CHIKV ont également montré l’induction de gènes liés à l’immunité innée, tels que ceux liés aux monocytes et à l’activation des cellules dendritiques, et aux réponses antivirales7. Les voies de signalisation enrichies en gènes régulés à la baisse comprenaient celles liées à l’immunité adaptative, telles que l’activation, la différenciation et l’enrichissement des lymphocytes T et ^B7.

Plusieurs méthodes peuvent être utilisées pour analyser les données du transcriptome des gènes hôtes et pathogènes. Souvent, la préparation de la bibliothèque RNA-seq commence par l’enrichissement des transcriptions poly-A matures. Cette étape élimine la plupart de l’ARN ribosomique (ARNr) et, dans certains cas, des ARN viraux/bactériens. Cependant, lorsque la question biologique implique la détection du transcrit pathogène et que l’ARN est séquencé indépendamment de la sélection précédente, de nombreux autres transcrits différents pourraient être détectés par séquençage. Par exemple, les ARNm sous-économiques se sont révélés être un facteur important pour vérifier la gravité des ^maladies8. De plus, pour certains virus tels que le CHIKV et le SARS-CoV-2, même les bibliothèques enrichies en poly-A génèrent des lectures virales qui peuvent être utilisées dans les analyses en ^aval9,10. Lorsqu’ils se concentrent sur l’analyse du transcriptome de l’hôte, les chercheurs peuvent étudier la perturbation biologique à travers les échantillons, identifier les gènes exprimés différemment et les voies enrichies, et générer des modules de ^{co-expression7,11,12}. Ce protocole met en évidence les analyses de transcriptome de patients infectés par le CHIKV et de personnes en bonne santé utilisant différentes approches bioinformatiques (Figure 1A). Les données d’une étude publiée ^{précédemment7} portant sur 20 personnes en bonne santé et 39 personnes gravement infectées par le CHIKV ont été utilisées pour générer les résultats représentatifs.

Protocole

Les échantillons utilisés dans ce protocole ont été approuvés par les comités d’éthique du Département de microbiologie de l’Institut des sciences biomédicales de l’Université de São Paulo et de l’Université fédérale de Sergipe (Protocoles: 54937216.5.0000.5467 et 54835916.2.0000.5546, respectivement).

1. Installation du bureau Docker

REMARQUE : Les étapes de préparation de l’environnement Docker sont différentes selon les systèmes d’exploitation. Par conséquent, les utilisateurs de Mac doivent suivre les étapes répertoriées comme 1.1, les utilisateurs Linux doivent suivre les étapes répertoriées comme 1.2 et les utilisateurs Windows doivent suivre les étapes répertoriées comme 1.3.

Installer sur MacOS.
1. Accédez au site Web Get Docker (Table of Materials), cliquez sur Docker Desktop pour Mac , puis cliquez sur le lien Télécharger à partir de Docker Hub .
2. Téléchargez le fichier d’installation en cliquant sur le bouton Obtenir Docker .
3. Exécutez le fichier Docker.dmg pour ouvrir le programme d’installation, puis faites glisser l’icône vers le dossier Applications . Localisez et exécutez le Docker.app dans le dossier Applications pour démarrer le programme.
  REMARQUE: Le menu spécifique au logiciel dans la barre d’état supérieure indique que le logiciel est en cours d’exécution et qu’il est accessible à partir d’un terminal.
Installez le programme conteneur sur le système d’exploitation Linux.
1. Accédez au site Web Get Docker Linux (Table of Materials) et suivez les instructions d’installation à l’aide de la section du référentiel disponible sur le lien Docker Linux Repository .
2. Mettez à jour tous les packages Linux à l’aide de la ligne de commande :
  sudo apt-get mise à jour
3. Installez les packages requis dans Docker :
  sudo apt-get installer apt-transport-https ca-certificates curl gnupg lsb-release
4. Créez un fichier de trousseau de clés d’archive logicielle :
  curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
5. Ajoutez des informations Docker deb dans le fichier source.list :
  echo « deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable » | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
6. Mettez à jour à nouveau tous les packages, y compris ceux récemment ajoutés :
  sudo apt-get mise à jour
7. Installez la version de bureau :
  sudo apt-get installer docker-ce docker-ce-cli containerd.io
8. Sélectionnez la zone géographique et le fuseau horaire pour terminer le processus d’installation.
Installez le programme conteneur sur le système d’exploitation Windows.
1. Accédez au site Web Get Docker (Table of Materials) et cliquez sur Get Started. Recherchez le programme d’installation de Docker Desktop pour Windows. Téléchargez les fichiers et installez-les localement sur l’ordinateur.
2. Après le téléchargement, démarrez le fichier d’installation (.exe) et conservez les paramètres par défaut. Assurez-vous que les deux options Installer les composants Windows requis pour WSL 2 et Ajouter un raccourci au Bureau sont marquées.
  REMARQUE: Dans certains cas, lorsque ce logiciel tente de démarrer le service, il affiche une erreur: l’installation de WSL est incomplète. Pour comprendre cette erreur, accédez au site Web WSL2-Kernel (Table of Materials).
3. Téléchargez et installez le dernier noyau Linux WSL2.
4. Accédez au terminal PowerShell en tant qu’administrateur et exécutez la commande :
  dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
5. Assurez-vous que le logiciel Docker Desktop est installé avec succès.
Téléchargez l’image à partir du référentiel CSBL sur le hub Docker (Table of Materials).
1. Ouvrez le bureau Docker et vérifiez que l’état est « en cours d’exécution » en bas à gauche de la barre d’outils.
2. Accédez à la ligne de commande du terminal Windows PowerShell. Téléchargez l’image du conteneur Linux pour ce protocole à partir du référentiel CSBL sur le hub Docker. Exécutez la commande suivante pour télécharger l’image :
  docker pull csblusp/transcriptome
  REMARQUE: Après avoir téléchargé l’image, le fichier peut être vu dans le bureau Docker. Pour créer le conteneur, les utilisateurs Windows doivent suivre l’étape 1.5, tandis que les utilisateurs Linux doivent suivre l’étape 1.6.
Initialisez le conteneur de serveur sur le système d’exploitation Windows.
1. Affichez le fichier image Docker dans le gestionnaire d’applications de bureau à partir de la barre d’outils et accédez à la page Images.
  REMARQUE: Si l’image du pipeline a été téléchargée avec succès, une image csblusp/transcriptome sera disponible.
2. Lancez le conteneur à partir de l’image csblusp/transcriptome en cliquant sur le bouton Exécuter . Développez les paramètres facultatifs pour configurer le conteneur.
3. Définissez le nom du conteneur (par exemple, serveur).
4. Associez un dossier de l’ordinateur local au dossier à l’intérieur du docker. Pour ce faire, déterminez le chemin d’accès de l’hôte. Définissez un dossier sur l’ordinateur local pour stocker les données traitées qui seront téléchargées à la fin. Définissez le chemin du conteneur. Définissez et liez le dossier conteneur csblusp/transcriptome au chemin d’accès de la machine locale (utilisez le nom « /opt/transferdata » pour le chemin du conteneur).
5. Après cela, cliquez sur Exécuter pour créer le conteneur csblusp/transcriptome.
6. Pour accéder au terminal Linux depuis le conteneur csblusp/transcriptome, cliquez sur le bouton CLI.
7. Tapez dans le terminal bash pour avoir une meilleure expérience. Pour cela, exécutez la commande :
  cogner
8. Après avoir exécuté la commande bash, assurez-vous que le terminal affiche (root@:/#) :
  root@ac12c583b731:/ #
Initialisez le conteneur de serveur pour le système d’exploitation Linux.
1. Exécutez cette commande pour créer le conteneur Docker basé sur l’image :
  docker run -d -it --rm --name server -v :/opt/transferdata csblusp/transcriptome
  Remarque : < chemin d’hôte> : définissez un chemin d’accès de l’ordinateur de dossier local.
2. Exécutez cette commande pour accéder au terminal de commande du conteneur Docker :
  docker exec -it serveur bash
3. Assurez la disponibilité d’un terminal Linux pour exécuter tous les programmes/scripts à l’aide de la ligne de commande.
4. Après avoir exécuté la commande bash, assurez-vous que le terminal affiche (root@:/#) :
  root@ac12c583b731:/ #
  REMARQUE : Le mot de passe root est « transcriptome » par défaut. Si vous le souhaitez, le mot de passe root peut être modifié en exécutant la commande :
  passwd
5. Tout d’abord, exécutez la commande source pour addpath.sh pour vous assurer que tous les outils sont disponibles. Exécutez la commande :
  source /opt/addpath.sh
Vérifiez la structure du dossier de séquençage de l’ARN.
1. Accédez au dossier des scripts de pipeline de transcriptome et assurez-vous que toutes les données du séquençage de l’ARN sont stockées dans le dossier : /home/transcriptome-pipeline/data.
2. Assurez-vous que tous les résultats obtenus à partir de l’analyse sont stockés dans le dossier du chemin /home/transcriptome-pipeline/results.
3. Assurez-vous que les fichiers de référence du génome et des annotations sont stockés dans le dossier du chemin /home/transcriptome-pipeline/datasets. Ces fichiers aideront à prendre en charge toutes les analyses.
4. Assurez-vous que tous les scripts sont stockés dans le dossier du chemin /home/transcriptome-pipeline/scripts et séparés par chaque étape comme décrit ci-dessous.
Téléchargez l’annotation et le génome humain.
1. Accédez au dossier scripts :
  cd /home/transcriptome-pipeline/scripts
2. Exécutez cette commande pour télécharger le génome humain de référence :
  bash downloadGenome.sh
3. Pour télécharger l’annotation, exécutez la commande :
  bash downloadAnnotation.sh
Modifiez l’annotation ou la version du génome de référence.
1. Ouvrez downloadAnnotation.sh et downloadGenome.sh pour modifier l’URL de chaque fichier.
2. Copiez les fichiers downloadAnnotation.sh et downloadGenome.sh dans la zone de transfert et modifiez-les dans le système d’exploitation local.
  cd /home/transcriptome-pipeline/scripts
  cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
3. Ouvrez le dossier Chemin d’accès à l’hôte , qui est sélectionné pour lier entre l’hôte et le conteneur Docker à l’étape 1.5.4.
4. Modifiez les fichiers à l’aide du logiciel d’édition préféré et enregistrez-les. Enfin, placez les fichiers modifiés dans le dossier de script. Exécutez la commande :
  cd /opt/transferdata
  cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/scripts
  REMARQUE: Ces fichiers peuvent être modifiés directement à l’aide de l’éditeur vim ou nano Linux.
Ensuite, configurez l’outil fastq-dump avec la ligne de commande :
vdb-config --interactive
REMARQUE: Cela permet de télécharger des fichiers de séquençage à partir des données d’exemple.
1. Naviguez dans la page Outils à l’aide de la touche de tabulation et sélectionnez l’option de dossier actif. Accédez à l’option Enregistrer et cliquez sur OK. Ensuite, quittez l’outil fastq-dump.
Lancez le téléchargement des lectures à partir de l’article publié ^{précédemment7}. Le numéro d’acquisition SRA de chaque échantillon est requis. Procurez-vous les numéros SRA sur le site Web de SRA NCBI (Table of Materials).
REMARQUE: Pour analyser les données RNA-Seq disponibles sur les bases de données publiques, suivez l’étape 1.12. Pour analyser les données privées de séquençage d’ARN, suivez l’étape 1.13.
Analyser des données publiques spécifiques.
1. Accédez au site Web du National Center for Biotechnology Information (NCBI) et recherchez des mots-clés pour un sujet spécifique.
2. Cliquez sur le lien Résultat pour BioProject dans la section Génomes .
3. Choisissez et cliquez sur une étude spécifique. Cliquez sur les expériences SRA. Une nouvelle page s’ouvre, qui montre tous les échantillons disponibles pour cette étude.
4. Cliquez sur le bouton « Envoyer à: » au-dessus du numéro d’acquisition. Dans l’option « Choisir la destination » , sélectionnez l’option Fichier et format , sélectionnez ExécuterInfo. Cliquez sur « Créer un fichier » pour exporter toutes les informations de la bibliothèque.
5. Enregistrez le fichier SraRunInfo.csv dans le chemin d’accès hôte défini à l’étape 1.5.4 et exécutez le script de téléchargement :
  cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
  cd /home/transcriptome-pipeline/scripts
  bash downloadAllLibraries.sh
Analysez les données de séquençage privées et non publiées.
1. Organisez les données de séquençage dans un dossier nommé Reads.
  Remarque : Dans le dossier Lectures , créez un dossier pour chaque exemple. Ces dossiers doivent avoir le même nom pour chaque exemple. Ajoutez les données de chaque exemple dans son répertoire. Dans le cas où il s’agit d’un RNA-Seq à extrémité appariée, chaque répertoire d’échantillon doit contenir deux fichiers FASTQ, qui doivent présenter des noms se terminant selon les modèles {sample}_1.fastq.gz et {sample}_2.fastq.gz, séquences avant et arrière, respectivement. Par exemple, un exemple nommé « Healthy_control » doit avoir un répertoire portant le même nom et des fichiers FASTQ nommés Healthy_control_1.fastq.gz et Healthy_control_2.fastq.gz. Néanmoins, si le séquençage de la bibliothèque est une stratégie à extrémité unique, un seul fichier de lecture doit être enregistré pour une analyse en aval. Par exemple, le même exemple, « Contrôle sain », doit avoir un fichier FASTQ unique nommé Healthy_control.fastq.gz.
2. Créez un fichier phénotypique contenant tous les noms d’échantillons : nommez la première colonne « Échantillon » et la deuxième colonne « Classe ». Remplissez la colonne Échantillon avec les noms des échantillons, qui doivent porter le même nom pour les répertoires d’échantillons, et remplissez la colonne Classe avec le groupe phénotypique de chaque échantillon (p. ex., témoin ou infecté). Enfin, enregistrez un fichier avec le nom « metadata.tsv » et envoyez-le dans le répertoire /home/transcriptome-pipeline/data/. Consultez le fichier metadata.tsv existant pour comprendre le format du fichier phénotypique.
  cp /opt/transferdata/metadata.tsv
  /home/transcriptome-pipeline/data/metadata.tsv
3. Accédez au répertoire Chemin d’accès à l’hôte défini à l’étape 1.5.4 et copiez les nouveaux exemples de répertoires structurés. Enfin, déplacez les exemples de /opt/transferdata vers le répertoire de données du pipeline.
  cp -rf /opt/transferdata/reads/*
  /home/transcriptome-pipeline/data/reads/
Observez que toutes les lectures sont stockées dans le dossier /home/transcriptome-pipeline/data/reads.

2. Contrôle de la qualité des données

REMARQUE : Évaluez, graphiquement, la probabilité d’erreurs dans les lectures de séquençage. Supprimez toutes les séquences techniques, par exemple les adaptateurs.

Accédez à la qualité de séquençage des bibliothèques avec l’outil FastQC.
1. Pour générer les graphiques de qualité, exécutez le programme fastqc. Exécutez la commande :
  bash FastQC.sh
  REMARQUE : Les résultats seront enregistrés dans le dossier /home/transcriptome-pipeline/results/FastQC. Étant donné que les adaptateurs de séquence sont utilisés pour la préparation et le séquençage de la bibliothèque, dans certains cas, les fragments de séquence d’adaptateurs peuvent interférer avec le processus de mappage.
Retirez la séquence de l’adaptateur et les lectures de mauvaise qualité. Accédez au dossier Scripts et exécutez la commande de l’outil Trimmomatic :
cd /home/transcriptome-pipeline/scripts
bash trimmomatic.sh
REMARQUE: Les paramètres utilisés pour le filtre de séquençage sont les suivants: Supprimer le début de faible qualité ou 3 bases (en dessous de la qualité 3) (EN-TÊTE:3); Enlever la fin de mauvaise qualité ou 3 bases (en dessous de la qualité 3) (TRAILING:3); Scannez la lecture avec une fenêtre coulissante large à 4 bases, en coupant lorsque la qualité moyenne par base tombe en dessous de 20 (SLIDINGWINDOW:4:20); et Drop lit en dessous des 36 bases de long (MINLEN:36). Ces paramètres peuvent être modifiés en modifiant le fichier de script Trimmomatic.
1. Assurez-vous que les résultats sont enregistrés dans le dossier suivant : /home/transcriptome-pipeline/results/trimreads. Exécutez la commande :
  ls /home/transcriptome-pipeline/results/trimreads

3. Cartographie et annotation des échantillons

REMARQUE: Après avoir obtenu les lectures de bonne qualité, celles-ci doivent être mappées au génome de référence. Pour cette étape, le mappeur STAR a été utilisé pour mapper les exemples d’exemples. L’outil de cartographie STAR nécessite 32 Go de mémoire RAM pour charger et exécuter les lectures et la cartographie du génome. Pour les utilisateurs qui ne disposent pas de 32 Go de mémoire RAM, les lectures déjà mappées peuvent être utilisées. Dans de tels cas, passez à l’étape 3.3 ou utilisez le mappeur Bowtie2. Cette section contient des scripts pour STAR (résultats affichés dans toutes les figures) et Bowtie2 (mappeur à faible mémoire requise).

Indexez d’abord le génome de référence pour le processus de cartographie :
1. Accédez au dossier Scripts à l’aide de la ligne de commande :
  cd /home/transcriptome-pipeline/scripts
2. Pour le mappeur STAR, exécutez :
  bash indexGenome.sh
3. Pour Bowtie mapper, exécutez :
  bash indexGenomeBowtie2.sh
Exécutez la commande suivante pour mapper les lectures filtrées (obtenues à partir de l’étape 2) au génome de référence (version GRCh38). Les mappeurs STAR et Bowtie2 sont tous deux effectués à l’aide de paramètres par défaut.
1. Pour le mappeur STAR, exécutez :
  bash mapSTAR.sh
2. Pour bowtie2 mapper, exécutez :
  bash mapBowtie2.sh
  REMARQUE : Les résultats finaux sont des fichiers BAM (Binary Alignment Map) pour chaque échantillon stocké dans /home/transcriptome-pipeline/results/mapreads.
Annotez les lectures mappées à l’aide de l’outil FeatureCounts pour obtenir des comptes bruts pour chaque gène. Exécutez les scripts qui annotent les lectures.
REMARQUE : L’outil FeatureCounts est chargé d’attribuer des lectures de séquençage mappées aux entités génomiques. Les aspects les plus importants de l’annotation du génome qui peuvent être modifiés à la suite de la question biologique comprennent, la détection d’isoformes, de multiples lectures cartographiées et de jonctions exon-exon, correspondant aux paramètres, GTF.attrType="gene_name » pour le gène ou ne spécifiez pas les paramètres pour le niveau de méta-caractéristique, allowMultiOverlap = TRUE et juncCounts = TRUE, respectivement.
1. Accédez au dossier scripts à l’aide de la ligne de commande :
  cd /home/transcriptome-pipeline/scripts
2. Pour annoter les lectures mappées afin d’obtenir des nombres bruts par gène, exécutez la ligne de commande :
  Annotation Rscript. R
  REMARQUE: Les paramètres utilisés pour le processus d’annotation étaient les suivants: nom abrégé du gène de retour (GTF.attrType="gene_name »); autoriser plusieurs chevauchements (allowMultiOverlap = TRUE); et indiquez que la bibliothèque est paired-end (isPairedEnd=TRUE). Pour la stratégie à extrémité unique, utilisez le paramètre isPairedEnd=FALSE. Les résultats seront enregistrés dans le dossier /home/transcriptome-pipeline/countreads.
Normaliser l’expression des gènes.
REMARQUE : La normalisation de l’expression des gènes est essentielle pour comparer les résultats entre les résultats (p. ex., échantillons sains et échantillons infectés). La normalisation est également nécessaire pour effectuer les analyses de co-expression et de degré moléculaire de perturbation.
1. Accédez au dossier Scripts à l’aide de la ligne de commande :
  cd /home/transcriptome-pipeline/scripts
2. Normaliser l’expression des gènes. Pour cela, exécutez la ligne de commande :
  Rscript normalise les échantillons. R
  REMARQUE : L’expression des nombres bruts, dans cette expérience, a été normalisée à l’aide des méthodes Trimmed Average of M-values (TMM) et Count Per Million (CPM). Cette étape vise à éliminer les différences dans l’expression des gènes dues à l’influence technique, en effectuant une normalisation de la taille de la bibliothèque. Les résultats seront enregistrés dans le dossier /home/transcriptome-pipeline/countreads.

4. Gènes exprimés différentiellement et gènes co-exprimés

Identifiez les gènes exprimés différemment à l’aide du package EdgeR open-source. Cela implique de trouver des gènes dont l’expression est supérieure ou inférieure à celle du témoin.
1. Accédez au dossier Scripts à l’aide de la ligne de commande :
  cd /home/transcriptome-pipeline/scripts
2. Pour identifier le gène exprimé différentiellement, exécutez le script R DEG_edgeR à l’aide de la ligne de commande :
  Rscript DEG_edgeR.R
  REMARQUE: Les résultats contenant les gènes exprimés différentiellement seront enregistrés dans le dossier /home/transcriptome-pipeline/results/degs. Les données peuvent être transférées vers un ordinateur personnel.
Téléchargez les données à partir du conteneur csblusp/transcriptome.
1. Transférez les données traitées du pipeline /home/transcriptome vers le dossier /opt/transferdata (ordinateur local).
2. Copiez tous les fichiers sur l’ordinateur local en exécutant la ligne de commande :
  cp -rf /home/transcriptome-pipeline/results /opt/transferdata/pipeline
  cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline
  Remarque : Maintenant, accédez à l’ordinateur local pour vous assurer que tous les résultats, jeux de données et données sont disponibles au téléchargement dans le chemin d’accès de l’hôte.
Identifier les modules de co-expression.
1. Accédez au site Web de l’outil d’identification des modules de co-expression (CEMiTool) (Tableau des
  Matériaux). Cet outil identifie les modules de co-expression à partir des jeux de données d’expression fournis par les utilisateurs. Sur la page principale, cliquez sur Exécuter en haut à droite. Cela ouvrira une nouvelle page pour télécharger le fichier d’expression.
2. Cliquez sur Choisir un fichier sous la section Fichier d’expression et téléchargez la matrice d’expression génique normalisée 'tmm_expression.tsv' à partir du chemin d’accès de l’hôte.
  REMARQUE: Étape 4.4. n’est pas obligatoire.
Explorez la signification biologique des modules de co-expression.
1. Cliquez sur Choisir un fichier dans la section Exemples de phénotypes et téléchargez le fichier contenant des exemples de phénotypes metadata_cemitool.tsv à partir de l’étape Télécharger les données 4.2.2. pour effectuer une analyse d’enrichissement de l’ensemble de gènes (GSEA).
2. Appuyez sur Choisir un fichier dans la section Interactions géniques pour télécharger un fichier contenant des interactions géniques (cemitool-interactions.tsv). Il est possible d’utiliser le fichier d’interactions géniques fourni à titre d’exemple par webCEMiTool. Les interactions peuvent être des interactions protéine-protéine, des facteurs de transcription et leurs gènes transcrits, ou des voies métaboliques. Cette étape produit un réseau d’interaction pour chaque module de co-expression.
3. Cliquez sur choisir un fichier dans la section Ensembles de gènes pour télécharger une liste de gènes fonctionnellement liés dans un fichier au format GMT (Gene Matrix Transposed). Le fichier Gene Set permet à l’outil d’effectuer une analyse d’enrichissement pour chaque module de co-expression, c’est-à-dire une analyse de surreprésentation (ORA).
  REMARQUE: Cette liste de gènes peut englober des voies, des termes GO ou des gènes cibles de miARN. Le chercheur peut utiliser les modules de transcription sanguine (BTM) comme ensembles de gènes pour cette analyse. Le fichier BTM (BTM_for_GSEA.gmt).
Définissez des paramètres pour effectuer des analyses de co-expression et obtenez ses résultats.
1. Ensuite, développez la section Paramètre , en cliquant sur le signe plus pour afficher les paramètres par défaut. Si nécessaire, changez-les. Cochez la case Appliquer VST .
2. Écrivez l’e-mail dans la section E-mail pour recevoir les résultats sous forme d’e-mail. Cette étape est facultative.
3. Appuyez sur le bouton Exécuter CEMiTool .
4. Téléchargez le rapport d’analyse complet en cliquant sur Télécharger le rapport complet en haut à droite. Il téléchargera un fichier compressé cemitool_results.zip.
5. Extrayez le contenu du cemitool_results.zip avec WinRAR.
  REMARQUE: Le dossier avec le contenu extrait comprend plusieurs fichiers avec tous les résultats de l’analyse et leurs paramètres établis.

5. Détermination du degré moléculaire de perturbation des échantillons

Degré moléculaire de perturbation (MDP) version web.
1. Pour exécuter MDP, accédez au site Web MDP (Table of Materials). MDP calcule la distance moléculaire de chaque échantillon à partir de la référence. Cliquez sur le bouton Exécuter .
2. Sur le lien Choisir un fichier , téléchargez le fichier d’expression tmm_expression.tsv. Ensuite, téléchargez le fichier de données phénotypiques metadata.tsv à partir de l’étape Télécharger les données 4.2.2. Il est également possible de soumettre un fichier d’annotation de voie au format GMT pour calculer le score de perturbation des voies associées à la maladie.
3. Une fois les données téléchargées, définissez la colonne Classe qui contient les informations phénotypiques utilisées par le MDP. Ensuite, définissez la classe de contrôle en sélectionnant l’étiquette qui correspond à la classe de contrôle.
  REMARQUE: Certains paramètres facultatifs affectent la façon dont les scores de l’échantillon sont calculés. Si nécessaire, l’utilisateur est en mesure de modifier la méthode moyenne des statistiques, l’écart-type et le pourcentage supérieur des gènes perturbés.
4. Après cela, appuyez sur le bouton Exécuter MDP et les résultats MDP seront affichés. L’utilisateur peut télécharger les chiffres en cliquant sur le graphique de téléchargement dans chaque graphique, ainsi que sur le score MDP sur le bouton Télécharger le fichier de score MDP .
  REMARQUE: En cas de questions sur la façon de soumettre les fichiers ou sur le fonctionnement de MDP, il suffit de parcourir les pages Web Didacticiel et À propos.

6. Analyse de l’enrichissement fonctionnel

Créer une liste de DEG à régulation descendante et une autre de DEG à régulation ascendante. Les noms des gènes doivent être conformes aux symboles des gènes d’Entrez. Chaque gène de la liste doit être placé sur une ligne.
Enregistrez les listes de gènes au format txt ou tsv.
Accédez au site Web d’Enrichr (Table of Materials) pour effectuer l’analyse fonctionnelle.
Sélectionnez la liste des gènes en cliquant sur choisir un fichier. Sélectionnez l’un des DEG et appuyez sur le bouton Soumettre .
Cliquez sur Pathways en haut de la page Web pour effectuer une analyse d’enrichissement fonctionnel avec l’approche ORA.
Choisissez une base de données de chemins. La base de données des voies « Reactome 2016 » est largement utilisée pour obtenir la signification biologique des données humaines.
Cliquez à nouveau sur le nom de la base de données des chemins. Sélectionnez Graphique à barres et vérifiez s’il est trié par classement de valeur p. Sinon, cliquez sur le graphique à barres jusqu’à ce qu’il soit trié par valeur de p. Ce graphique à barres comprend les 10 principales voies en fonction des valeurs de p.
Appuyez sur le bouton Configuration et sélectionnez la couleur rouge pour l’analyse des gènes régulés vers le haut ou la couleur bleue pour l’analyse des gènes régulés vers le bas. Enregistrez le graphique à barres dans plusieurs formats en cliquant sur svg, png et jpg.
Sélectionnez Table et cliquez sur Exporter les entrées vers la table en bas à gauche du graphique à barres pour obtenir les résultats de l’analyse d’enrichissement fonctionnel dans un fichier txt.
REMARQUE: Ce fichier de résultats d’enrichissement fonctionnel comprend dans chaque ligne le nom d’une voie, le nombre de gènes superposés entre la liste DEG soumise et la voie, la valeur p, la valeur p ajustée, le rapport de cotes, le score combiné et le symbole génétique des gènes présents dans la liste DEG qui participent à la voie.
Répétez les mêmes étapes avec la liste des autres DEG.
REMARQUE: L’analyse avec des DEG régulés à la baisse fournit des voies enrichies pour les gènes régulés à la baisse et l’analyse avec des gènes régulés à la hausse fournit des voies enrichies pour les gènes régulés à la hausse.

Résultats

L’environnement informatique pour les analyses de transcriptome a été créé et configuré sur la plate-forme Docker. Cette approche permet aux utilisateurs Linux débutants d’utiliser des systèmes de terminaux Linux sans connaissances a priori en gestion. La plate-forme Docker utilise les ressources du système d’exploitation hôte pour créer un conteneur de services qui inclut des outils d’utilisateurs spécifiques (Figure 1B). Un conteneur basé sur la distribution Linux OS Ub...

Discussion

La préparation des bibliothèques de séquençage est une étape cruciale pour répondre aux questions biologiques de la meilleure façon possible. Le type de transcriptions d’intérêt de l’étude guidera quel type de bibliothèque de séquençage sera choisi et conduira à des analyses bioinformatiques. Par exemple, à partir du séquençage d’un agent pathogène et de l’interaction hôte, selon le type de séquençage, il est possible d’identifier des séquences à partir des deux ou simplement à partir de...

Déclarations de divulgation

Les auteurs n’ont rien à divulguer.

Remerciements

HN est financé par faPESP (numéros de subvention: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 et 2013/08216-2) et CNPq (313662/2017-7).

Nous sommes particulièrement reconnaissants aux subventions suivantes pour les boursiers : ANAG (Processus FAPESP 2019/13880-5), VEM (Processus FAPESP 2019/16418-0), IMSC (Processus FAPESP 2020/05284-0), APV (Processus FAPESP 2019/27146-1) et RLTO (Processus CNPq 134204/2019-0).

matériels

Name	Company	Catalog Number	Comments
CEMiTool	Computational Systems Biology Laboratory	1.12.2	Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR	Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au])	3.30.3	Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano	Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk])	1.6.0	Publication-ready volcano plots with enhanced colouring and labeling
FastQC	Babraham Bioinformatics	0.11.9	Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.0.0	Assign mapped sequencing reads to specified genomic features
MDP	Computational Systems Biology Laboratory	1.8.0	Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R	R Core Group	4.0.3	Programming language and free software environment for statistical computing and graphics
STAR	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.7.6a	Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2	Johns Hopkins University	2.4.2	Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic	THE USADEL LAB	0.39	Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker	Docker	20.10.2	Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel	Windows	NA	https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux	Docker	NA	https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository	Docker	NA	https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website	Computational Systems Biology Laboratory	NA	https://mdp.sysbio.tools
Enrichr Website	MaayanLab	NA	https://maayanlab.cloud/Enrichr/
webCEMiTool	Computational Systems Biology Laboratory	NA	https://cemitool.sysbio.tools/
gProfiler	Bioinformatics, Algorithmics and Data Mining Group	NA	https://biit.cs.ut.ee/gprofiler/gost
goseq	Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk])	NA	http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study	NCBI	NA	https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

Références

Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
Suhrbier, A., Jaffar-Bandjee, M. -. C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Réimpressions et Autorisations

Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE

Demande d’autorisation

Explorer plus d’articles

Immunologie et infection num ro 181 s quen age haut d bit s quen age ARN interaction h te pathog ne g nes exprim s diff rentiellement g nes co exprim s analyse fonctionnelle degr mol culaire de perturbation des chantillons

This article has been published

Video Coming Soon

Keep me updated: