Ce protocole décrit les étapes bioinformatiques pour étudier l’évolution moléculaire et l’expression des gènes candidats. Ici, nous fournissons des instructions détaillées afin que toute personne ayant une expérience bioinformatique minimale puisse passer par ce protocole. Ce pipeline peut être appliqué à n’importe quel organisme et à n’importe quelle famille de gènes.
Un problème courant lors de la bioinformatique est l’échec des scripts shell. Lorsque vous tentez ce protocole, assurez-vous de disposer du logiciel le plus à jour, lisez les fichiers d’erreur et consultez attentivement le manuel. Pour commencer, connectez-vous au compte de cluster d’ordinateurs sur un terminal ou une fenêtre d’application PuTTY.
Sur le terminal, téléchargez SRA Toolkit version 2.8.1 à l’aide de Wget, puis terminez l’installation du programme. Recherchez dans NCBI le numéro d’accession SRA pour les échantillons souhaités, puis obtenez les données de séquence d’ARN dans la fenêtre terminale. Obtenez deux fichiers FASTQ pour le type de fichiers d’extrémité appariée.
Trouvez le génome de référence en ligne s’il en existe un. Pour obtenir un assembly de référence, tapez wget dans la fenêtre du terminal et collez l’adresse du lien. Si disponible, copiez également le fichier GTF et le fichier FASTA des protéines pour le génome de référence.
Indexez le génome, puis cartographiez les lectures et calculez l’expression pour chaque échantillon. Renommez le fichier de résultats en quelque chose de descriptif et générez une matrice de tous les nombres. Ouvrez une fenêtre de navigateur Internet et accédez à NCBI GenBank.
Dans la barre de recherche, tapez le nom du gène d’intérêt et le nom des espèces étroitement apparentées qui ont été séquencées. À gauche de la barre de recherche, sélectionnez Protéine, puis cliquez sur Rechercher. Extrayez les séquences en cliquant sur Envoyer à, puis sélectionnez Fichier.
Sous Format, sélectionnez FASTA, puis cliquez sur Créer un fichier. Déplacez le fichier FASTA d’homologues vers le cluster d’ordinateurs à l’aide d’une fenêtre de terminal local ou de FileZilla. Ensuite, recherchez des gènes candidats à l’aide de BLAST+Sur le cluster informatique, faites une base de données BLAST à partir du génome ou de la protéine traduite par transcriptome, FASTA.
BLAST les séquences de gènes homologues de NCBI à la base de données de l’espèce d’intérêt, puis afficher le fichier de sortie à l’aide de la commande plus. Copiez les ID de gènes uniques de l’espèce d’intérêt dans un nouveau fichier texte. Extraire les séquences des gènes candidats.
Pour confirmer l’annotation des gènes à l’aide de BLAST réciproque, accédez à l’outil de recherche d’alignement local BLAST, sélectionnez BLASTP, puis collez les séquences candidates, sélectionnez la base de données des séquences de protéines non redondantes, puis cliquez sur BLAST. Ouvrez MEGA, cliquez sur Aligner, puis modifier l’alignement de la build, sélectionnez Créer un nouvel alignement, puis cliquez sur OK. Sélectionnez Protéine. Lorsque la fenêtre Alignement s’ouvre, cliquez sur Modifier.
Cliquez sur Insérer des séquences à partir du fichier et sélectionnez le FASTA avec des séquences protéiques de gènes candidats et d’homologues probables. Sélectionnez Toutes les séquences. Trouvez le symbole du bras et survolez-le.
Il devrait dire aligner les séquences en utilisant l’algorithme musculaire. Cliquez sur le symbole de bras, puis cliquez sur Aligner la protéine pour aligner les séquences Modifier les paramètres ou cliquez sur OK pour utiliser les paramètres par défaut. Ce protocole a été appliqué aux tissus d’Hydra vulgaris qui est un invertébré d’eau douce qui appartient à l’embranchement Cnidaria.
Les gènes de l’opsine ont été étudiés pour mieux comprendre l’évolution de la détection des yeux et de la lumière chez les animaux. Des séquences pour des gènes liés à l’opsine de H.vulgaris et d’autres espèces ont été extraites dans un fichier FASTA de la GenBank NCBI. Les gènes de l’opsine ont été alignés dans MEGA, ce qui a permis d’identifier les opsines Hydra qui manquaient un acide aminé conservé de lysine nécessaire pour lier une molécule sensible à la lumière.
Un arbre à maximum de vraisemblance a été généré à l’aide de séquences d’opsine d’Hydra vulgaris et d’autres espèces. La phylogénie suggère que les gènes de l’opsine évoluent par duplications spécifiques à la lignée chez les cnidaires, et potentiellement par duplication en tandem chez H.vulgaris. Ensuite, une analyse d’expression différentielle a été réalisée dans edgeR pour étudier l’expression absolue des gènes de l’opsine.
Pour déterminer si un ou plusieurs opsines sont up-réglés dans l’hypostome, ou la tête, des comparaisons paire-sages de hypostome contre la colonne de corps, la zone bourgeonnante, le pied, et les tentacules ont été exécutées. On l’a constaté que 1, 774 transcriptions ont été différentiellement exprimées entre le hypostome et la colonne de corps. Les gènes qui ont été régulés à la hausse à travers de multiples comparaisons ont été déterminés, et un enrichissement fonctionnel dans Blast2GO a été effectué.
Enfin, l’expression absolue des gènes de l’opsine a été étudiée dans différents tissus au cours de différentes étapes du bourgeonnement et de différents points de régénération. L’inspection visuelle de l’alignement et de l’arbre confirmera si les gènes candidats appartiennent à la famille d’intérêt. Les gènes qui sont trop différents dans l’ordre ou un groupe en dehors de tout le reste, font probablement partie d’une famille de gènes différente.
Les résultats de ce protocole peuvent être considérés comme générateurs d’hypothèses. Ce pipeline peut mettre en évidence des gènes candidats à étudier fonctionnellement dans de futures études. Après avoir exploré l’expression de l’opsine Hydra, nous utilisons maintenant des techniques similaires pour étudier les gènes apparentés entre les espèces afin d’identifier les similitudes et les différences de fonction.