Bienvenue dans le protocole d’analyse du transcriptome à haut débit pour l’étude des interactions hôte-pathogène. Ce protocole est divisé en plusieurs étapes. Contrôle de la qualité pour filtrer les lectures de mauvaise qualité et également pour supprimer les séquences d’adaptateur Séquençage et annotations, où êtes-vous pour mapper les lectures dans un génome de référence et annoter les lectures dans les gènes.
Analyse statistique et de co-expression, qui définit les gènes exprimés différentiellement et trouve également les modules de co-expression. Analyse du degré moléculaire de perturbation pour trouver des échantillons potentiels aberrants. Et enfin, l’analyse fonctionnelle pour déterminer les fonctions biologiques des gènes exprimés différentiellement.
Tous les outils utilisant ces pipelines ont été préinstallés dans un système Linux et encapsulés dans un conteneur Docker. Les échantillons utilisant ces protocoles proviennent d’un article publié par notre groupe dans PLOS Pathogen. Les échantillons comprennent 20 personnes en bonne santé et 39 patients infectés par le virus Chikungunya.
Les échantillons de sang ont été prélevés et le séquençage de l’ARN a été effectué. Pour installer Docker dans le système Windows, vous devez suivre ces étapes. Accédez à la page Web officielle de Docker et cliquez sur Démarrer.
Recherchez le programme d’installation de Docker Desktop pour Windows. Téléchargez le fichier. Installez localement sur votre machine.
Assurez-vous que ces deux options sont marquées. Après avoir installé le programme, télécharge l’image Docker pour ce protocole. Accédez au terminal Windows.
Exécutez les commandes pour télécharger l’image. Après avoir téléchargé l’image, vous pouvez voir le fichier dans le bureau Docker, et à partir de cette image, nous pouvons lancer le conteneur. Après avoir cliqué sur le bouton rond, vous devez développer les paramètres et options d’origine pour définir le nom du conteneur et associer un dossier de votre ordinateur local au dossier dans Docker.
Après cela, vous cliquez sur Exécuter pour lancer le conteneur. Vous pouvez ensuite accéder au terminal, qui se trouve dans le système Linux à l’intérieur du Docker. Tapez les commandes bash, puis vous pouvez exécuter toutes les commandes de ce protocole.
Tout d’abord, nous devons exécuter la source pour rendre tous les outils de ce protocole disponibles. Vous devez accéder aux scripts d’annuaire. Pour effectuer une analyse transcriptomique, vous devez d’abord télécharger le génome de référence.
Pour cela, vous devez exécuter les commandes suivantes. Une fois le génome téléchargé, vous devez télécharger l’annotation des gènes. Pour ce faire, vous devez taper les commandes suivantes.
Ensuite, vous devez configurer le fastq-dump. Cela vous permet de télécharger les fichiers de séquençage des exemples. Après avoir tapé les commandes suivantes, vous devez utiliser le bouton Tab pour accéder à l’option Outils et marquer le répertoire des options actuelles.
Utilisez les boutons Tab pour enregistrer, puis OK. Et puis quittez l’outil fastq-dump. Maintenant, nous pouvons lancer les téléchargements des lectures en tapant les commandes suivantes.
Le contrôle qualité consiste et évalue graphiquement la probabilité d’erreurs dans les lectures de séquençage. Dans cette étape, vous devez également supprimer les séquences techniques telles que les adaptateurs. Pour générer les graphiques de contrôle de la qualité, vous devez exécuter le programme FastQC.
Pour supprimer les séquences d’adaptateur et les séquences de mauvaise qualité, vous devez taper les commandes suivantes. Avec les lectures de bonne qualité, nous devons maintenant cartographier les lectures dans le génome de référence. Après la cartographie, nous allons devoir annoter les gènes en fonction des gènes humains, puis compter le nombre de lectures qui correspondent à chaque gène humain.
La première étape consiste à indexer le génome de référence en tapant la commande suivante. Et puis nous tapons ces commandes pour mapper les lectures dans le génome humain. Ensuite, vous devez exécuter les scripts qui annotent les lectures.
Après le mappage et l’annotation, vous pouvez effectuer l’analyse d’expression différentielle qui consiste à trouver les gènes dont l’expression est supérieure ou inférieure dans un groupe par rapport à un autre. Pour identifier les gènes exprimés différentiellement, ou DEG, vous devez exécuter les commandes suivantes. Après cela, vous pouvez transférer les résultats des données du Docker vers votre ordinateur local.
Pour cela, accédez au terminal et tapez les commandes suivantes pour enregistrer tous les résultats dans un dossier local. Pour effectuer l’analyse restante, vous devez également copier tous les fichiers des données du répertoire dans un répertoire de votre ordinateur local. Sur votre ordinateur local, vous pourrez voir les répertoires dans lesquels vous avez enregistré les données de Docker.
Comme vous pouvez le voir, vous pouvez accéder à toutes les bibliothèques. Vous pouvez également ouvrir le fichier HTML contenant les rapports de contrôle qualité. Vous pouvez également accéder à un répertoire contenant les gènes exprimés différentiellement.
Et à l’intérieur de ce répertoire, vous trouverez les diagrammes de volcan où vous pouvez voir les gènes qui sont régulés à la hausse ou à la baisse dans un groupe par rapport à un autre, dans ce cas, les patients infectés par le virus Chikungunya par rapport aux témoins sains. Toutes les étapes restantes de ce protocole vont être exécutées dans des outils Web à l’aide de votre navigateur. Commençons d’abord par CEMiTool.
Accédez au navigateur et tapez l’adresse suivante. CEMiTool identifie les modules de co-expression à partir d’ensembles de données d’expression fournis par les utilisateurs. Dans la page principale, vous pouvez aller dans le menu et cliquer sur le bouton Exécuter.
Cela ouvrira une nouvelle page où vous pourrez télécharger le fichier d’expression. Ce fichier se trouve dans les données du répertoire de votre ordinateur local. Vous verrez qu’il y a trois fichiers d’expression, et celui que nous allons utiliser pour le CEMiTool est un appel de normalisation tmm.
Ensuite, vous devez sélectionner le fichier phénodata, la même chose pour le fichier contenant les interactions protéine-protéine, et enfin, télécharger le fichier contenant les ensembles de gènes ou les voies. Le fichier d’ensembles de gènes permet à CEMiTool d’effectuer une analyse d’enrichissement pour chacun des modules de co-expression. Ensuite, vous devez développer la section des paramètres et cliquer sur Appliquer VST.
Après cela, vous pouvez simplement cliquer sur Exécuter CEMiTool. Après avoir exécuté CEMiTool, vous verrez que 12 modules de co-expression ont été identifiés. En cliquant ici, vous pouvez télécharger tous les résultats de ces analyses.
Un autre outil que nous allons utiliser dans ce protocole est MDP, ou degré moléculaire de perturbation. Il suffit de taper dans votre navigateur mdp.sysbio.tools. MDP calcule la distance moléculaire de chaque échantillon par rapport à un groupe de référence d’échantillons, dans ce cas, les témoins sains, afin de trouver non seulement les valeurs aberrantes potentielles, mais aussi à quel point chaque échantillon est perturbé par rapport à ce groupe.
Dans la page Exécuter, vous pouvez simplement télécharger le fichier d’expression en cliquant sur le bouton et en sélectionnant le fichier. Ensuite, vous devez télécharger le fichier phenodata. Ensuite, vous devez définir quelle colonne contient les informations sur le groupe ou la classe, puis quelle classe ou quel groupe correspond au groupe de contrôle.
Après cela, vous pouvez simplement exécuter MDP. Le graphique à barres montre pour chacun des échantillons sous forme de barre le score du degré moléculaire de perturbation, et les couleurs représentent les différents groupes. Et le diagramme de boîte est une autre façon de visualiser les mêmes résultats où vous voyez sur chaque point un échantillon différent séparé par deux groupes.
Pour effectuer l’analyse fonctionnelle, nous allons utiliser l’outil Enrichr. Pour cela, vous devez sélectionner la liste des gènes qui ont été exprimés différemment, régulés à la hausse ou à la baisse, et l’utiliser comme liste de gènes d’entrée dans l’outil Enrichr. Vous verrez qu’il existe différents onglets.
Tous les résultats peuvent également être téléchargés sur votre ordinateur local. L’environnement informatique pour l’analyse du transcriptome a été placé sur la plate-forme Docker. Cette approche permet aux utilisateurs sans expérience préalable avec le système Linux d’utiliser un terminal.
Dans ce conteneur, il existe une structure de dossiers prédéfinie pour le jeu de données et les scripts qui sont nécessaires pour toute l’analyse. Dans le pipeline, les utilisateurs utiliseront les données du transcriptome sanguin de 20 personnes en bonne santé et de 39 patients gravement infectés par le virus Chikungunya. La plateforme de séquençage renvoie un ensemble de fichiers FASTQ contenant la séquence d’ADN, c’est-à-dire
les lectures et la qualité associée pour chaque base nucléotidique. L’échelle de qualité Phred indique la probabilité d’une lecture incorrecte pour chaque base. Les outils identifient et suppriment les lectures de mauvaise qualité des échantillons et augmentent la probabilité de mappage des lectures.
Dans cette étape, le module de cartographie, les lectures de haute qualité récupérées sont utilisées comme entrées pour les aligner sur le génome de référence humain. CEMiTool identifie et analyse les modules de co-expression. Les gènes d’un même module sont co-exprimés, ce qui signifie qu’ils présentent des modèles d’expression similaires dans les échantillons des ensembles de données.
L’analyse du réseau fournit des informations sur les gènes les plus connectés, c’est-à-dire les hubs. Les noms de ces gènes sont affichés dans le réseau.
La taille des nœuds est proportionnelle à son degré de connectivité. Les résultats obtenus à partir de l’analyse DEG ont été résumés dans les diagrammes des volcans. L’analyse du degré moléculaire de perturbation permet d’identifier des échantillons perturbés provenant d’individus sains et infectés.
MDP suggère quels échantillons sont des valeurs aberrantes biologiques potentielles. Le retrait de ces échantillons aura un impact sur les résultats en aval. Une analyse d’enrichissement fonctionnel à l’aide d’AURA peut être effectuée avec l’outil Enrichr.
Ces étapes aident à interpréter les résultats en révélant les rôles fonctionnels communs de plusieurs gènes qui ont été exprimés différemment. Le processus biologique montré dans les graphiques à barres sont les 10 premiers ensembles de gènes enrichis en fonction de leur classement de la valeur p. En conclusion, ces protocoles couvrent toutes les étapes de l’analyse ARN-Seq.
Le pipeline a été développé et encapsulé dans le système non commercial nommé Docker. Sur une image et mise à la disposition de la communauté scientifique. Grâce au système de conteneurs, tous les scripts et outils sont sous la même version spécifique pour garantir la reproductibilité.
En outre, une partie de l’analyse bioinformatique a été effectuée via des outils Web gratuits et conviviaux.