JoVE Logo

S'identifier

Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.

Dans cet article

  • Résumé
  • Résumé
  • Introduction
  • Protocole
  • Résultats
  • Discussion
  • Déclarations de divulgation
  • Remerciements
  • matériels
  • Références
  • Réimpressions et Autorisations

Résumé

Cet article décrit la procédure pour l’identification et la caractérisation d’une famille de gènes dans la vigne à cette famille d' Arabidopsis Tóxicos dans Levadura (ATL) E3 ubiquitine ligases.

Résumé

Classification et nomenclature des gènes dans une famille peuvent contribuer significativement à la description de la diversité des protéines et à la prévision de fonctions familiales selon plusieurs caractéristiques, telles que la présence de motifs de séquence ou de particulier sites de modification post-traductionnelle et le profil d’expression des membres de la famille dans des conditions différentes. Cet ouvrage décrit un protocole détaillé pour la caractérisation des gènes familiaux. Ici, la procédure est appliquée à la caractérisation de la famille Arabidopsis Tóxicos dans Levadura (ATL) E3 ubiquitine ligase à grapevine. Les méthodes comprennent l’identification de tout le génome des membres de la famille, la caractérisation de la localisation du gène, la structure et les doubles emplois, l’analyse des motifs de protéine conservée, la prédiction des sites de localisation et de la phosphorylation des protéines ainsi que Profil d’expression génique au sein de la famille dans différents ensembles de données. Telle procédure, qui pourrait être étendu à de nouvelles analyses selon des fins expérimentales, pourrait être appliquée à toute famille de gènes à des espèces végétales pour lesquelles il existe des données génomiques, et il fournit des renseignements précieux pour identifier les candidats intéressants pour des études fonctionnelles, donnant un aperçu des mécanismes moléculaires de l’adaptation des plantes à leur environnement.

Introduction

Au cours de la dernière décennie, beaucoup de recherche a été effectuée en génomique de la vigne. Vigne est une culture économiquement pertinente reconnue, qui est devenu un modèle pour la recherche sur le développement de fruits et sur les réponses des plantes ligneuses aux stress biotiques et abiotiques. Dans ce contexte, la libération du Vitis vinifera CV PN40024 génome en 20071 et sa version mise à jour en 20112 conduit à une accumulation rapide de données à l’échelle « omiques » et à un éclatement des études de haut débit. Selon les données publiées de séquence, l’analyse détaillée d’une famille de gène donné (généralement composée de protéines partageant des motifs conservés, les similitudes structurelles ou fonctionnelles et les relations évolutives), peut désormais être réalisée afin de découvrir ses les fonctions moléculaires, évolution et profils d’expression génique. Ces analyses peuvent contribuer à comprendre comment familles de gènes contrôlent les processus physiologiques à une échelle du génome.

Plusieurs aspects du cycle de vie végétale sont réglementées par dégradation ubiquitine-mediated de protéines clés, qui exigent un chiffre d’affaires adaptée pour garantir des processus cellulaires réguliers. Important les composants du processus de dégradation induite par l’ubiquitine sont l’E3 ubiquitine ligases, qui sont responsables de la souplesse du système, grâce au recrutement de cibles spécifiques3. En conséquence, ces enzymes représentent une famille de gènes énorme, avec environ 1 400 E3 ligase-codage gènes prévues dans Arabidopsis thaliana génome4, chaque ubiquitine ligase E3 agissant pour l’ubiquitination des protéines cibles spécifiques. Malgré l’importance de l’ubiquitination de substrat spécifique dans la régulation cellulaire chez les plantes, on connaît mal comment la voie de l’ubiquitination est réglementée et protéines cibles ont été identifiées que dans de rares cas. Le déchiffrage de ces mécanismes de la spécificité et la régulation s’appuie d’abord sur l’identification et la caractérisation des différentes composantes du système, en particulier l’E3 ligases. Entre ubiquitine ligases, la sous-famille des ATL se caractérise par 91 membres identifiés chez a. thaliana affiche un anneau-H2 doigt domaine5,6, certains d'entre eux jouant un rôle dans la défense et l’hormone réponses7.

La première étape cruciale pour définir les membres d’une nouvelle famille de gènes est la définition précise des caractéristiques familiales, tels que les motifs de consensus, les domaines clés et caractéristiques de séquences de protéines. En effet, la récupération fiable de tous les membres de famille de gène BLAST analyse nécessite certaines caractéristiques de la séquence obligatoire, dans les domaines de protéine responsables de la protéine fonction/activité, servant de signature de la protéine. Cela peut être facilité par la caractérisation antérieure de la même famille de gènes chez d’autres espèces végétales ou obtenu en analysant les différents gènes putativement appartenant à la même famille dans différentes espèces de plantes, d’isoler les séquences communes. Les membres de la famille peuvent alors être individuellement nommés suivant des règles communes, a été réglées par un consortium international pour une espèce végétale donnée. Dans la vigne, par exemple, cette procédure est soumis aux recommandations du Comité de Nomenclature Super pour l’Annotation de gène de raisin (sNCGGa), établissant la construction d’un arbre phylogénétique y compris V. vinifera et a. thaliana membres de famille de gène pour permettre l’annotation de gène issu des séquences de nucléotides8.

Localisation chromosomique des membres de la famille et enquête sur la duplication génique permettent mettant en évidence la présence de gènes dupliqués génome entier ou tandem. Cette information semble utile pour démêler les fonctions des gènes putatifs, puisqu’elle pourrait voir la redondance fonctionnelle ou révéler des situations différentes, c'est-à-dire, non-fonctionnalisation, neo-fonctionnalisation ou subsidiaire fonctionnalisation9. Les deux néo - et sous-sous - functionalization sont des événements importants qui créent la nouveauté génétique, fournissant de nouveaux composants cellulaires pour l’adaptation des plantes à l’évolution des environnements10. En particulier, les duplications de gènes ancestraux et production de nouveaux gènes ont été très fréquentes au cours de l’évolution du génome vigne et nouvellement formé de gènes provenant des duplications proximales et tandem à grapevine étaient plus susceptibles de produire une nouvelle fonctions11.

Un autre facteur clé à déchiffrer la fonction des gènes familiaux est le profil de transcriptomique. La disponibilité des bases de données publiques donnant accès à une quantité énorme de données transcriptomiques peut être ainsi exploitée pour attribuer des fonctions aux membres de famille de gène à grande échelle en silico analyses d’expression. En effet, l’expression particulière de certains gènes dans les organes de la plante spécifique ou en réponse à certaines contraintes peut donner quelques conseils au sujet des rôles présumés des protéines correspondantes dans les conditions définies et apporter un soutien à des hypothèses sur la possible auxiliaire de fonctionnalisation de gènes dupliqués pour répondre aux différents défis. À cette fin, il est important de tenir compte de plusieurs ensembles de données : ceux-ci peuvent être gène déjà disponible des matrices d’expression, tels que l’atlas du génome transcriptomique des organes de la vigne et des stades de développement,12, ou peut être construits ad hoc par récupération des ensembles de données transcriptomiques pour les espèces de plante particulière soumises à des contraintes définies. En outre, une approche simple à l’aide de deux matrices, avec données de similitude par paires et l’autre avec des coefficients de co-expression par paire peuvent être appliqués afin d’évaluer les relations entre modèles de similitude et d’expression de séquence au sein d’une famille multigénique.

Le but de ce travail est de fournir une approche globale, définissant la structure des gènes, motifs de protéine conservée, localisation chromosomique, duplications géniques et profils d’expression, comme bien la prédiction des sites de localisation et de la phosphorylation des protéines, pour atteindre un caractérisation exhaustive d’une famille de gènes chez les plantes. Une telle approche globale est appliquée ici à la caractérisation de la famille ATL E3 ubiquitine ligase vigne. Selon le rôle émergent des ATL sous-famille des membres dans la régulation des processus cellulaires clés7, ce travail peut bien aider l’identification des candidats solides pour des études fonctionnelles et éventuellement élucider les mécanismes moléculaires régissant la adaptation de cette culture importante à son environnement.

Protocole

1. identification des ATL putatif famille multigénique membre (s)

  1. Version web PSI-BLAST
    1. Ouvrez la page web BLAST13 et cliquez sur la section BLAST de protéine.
    2. Dans le champ « Enter Query sequence », entrez la séquence d’acides aminés de la protéine (ici VIT_05s0077g01970) qui sera utilisée comme sonde pour identifier les autres membres de la famille.
      Remarque : Une bonne protéine représentative doit être utilisée (une protéine affichant toutes les caractéristiques importantes qui caractérisent la famille).
    3. Dans le champ « Jeu de recherche de choisir », sélectionnez la base de données « Protéine de référence » (refseq_protein) et l’organisme d’intérêt (V. vinifera - taxid:29760).
    4. Dans la champ « programme selection », sélectionnez algorithme PSI-BLAST et cliquez sur le bouton BLAST pour exécuter l’analyse.
      NOTE : En cliquant sur les « paramètres de l’algorithme », il est possible d’ajuster certains paramètres avancés (séquences cibles Max, notation matricielle, seuil de PSI-BLAST, etc.).
    5. La première explosion ronde récupère toutes les séquences affichant des correspondances pertinentes avec la requête (e-valeur supérieure au seuil sélectionné - par défaut 0,005 ; 0,001 dans cette expérience). Désélectionner toutes les entrées, ce qui clairement ne pas appartenir à la famille en cours d’examen en cliquant sur la coche dans la colonne « sélectionner pour PSI-BLAST » et exécuter la deuxième itération de PSI-BLAST en cliquant sur le bouton BLAST comme au point 1.1.4.
    6. Séquences nouvellement identifiés sont surlignés en jaune. Désélectionner les hits récupérées manifestement erronées et découvrir les autres itérations comme indiqué au point 1.1.5.
    7. Continuer avec les itérations jusqu'à ce que l’algorithme ne trouve pas n’importe quelle entrée pertinente ou qu’elle atteigne la convergence (aucuns nouvelles entrées ne sont trouvés). Télécharger la liste des membres de la famille des gènes putatifs pour approfondir les analyses. Inspecter visuellement les hits récupérées à chaque itération pour éviter la présence de faux positifs.
  2. Version autonome de PSI-BLAST
    1. Télécharger la version autonome de BLAST en cliquant sur le bouton « Télécharger BLAST » sur la page d’accueil BLAST13.
      Remarque : Le logiciel BLAST autonome est une version de ligne de commande de l’interface web décrit précédemment. Il permet l’exécution de la recherche de PSI-BLAST contre une base de données locale ou distante personnalisée. En outre, il permet la recherche avec une matrice prédéfinis des Score spécifique en Position (PSSM).

2. manuelle Inspection des membres des familles PSI-BLAST-identifiés

  1. Alignement multiple
    1. Collecter les séquences d’acides aminés précédemment identifiés dans un fichier au format FASTA et transférez-le dans le méga logiciel14 de procéder à l’alignement multiple.
    2. Ouvrez le logiciel MEGA, cliquez sur le bouton « Aligner », cliquez sur « Edit/Build alignement », « Créer un nouveau tracé », « Protéines ».
    3. Cliquez sur « Editer » dans le menu alignement « Insérez la séquence from File ». Recherchez le fichier FASTA créé avant et confirmer le téléchargement de toutes les séquences étudiées.
    4. Cliquez sur « Alignement » dans le menu alignement et « Aligner par MUSCLE ». Utilisez les paramètres par défaut, cliquez sur le bouton « Calculer » et attendre l’achèvement de l’alignement multiple.
    5. Inspecter visuellement l’alignement multiple pour exclure les membres de la famille mal prédites. Le canonique CxxC (x 13) PxCxHxxHxxCxxxW (x 7) CxxCW motif, (en particulier la présence du résidu proline avant la troisième cystéine), est l’élément clé nécessaire pour définir les membres de la famille ATL.
  2. Analyse du LOGO spécifique
    1. Présenter la liste définitive des membres de la famille (96 séquences de vigne satisfont les exigences à prendre en considération ATL) à l’Em multiples pour Motif Elicitation (MEME)15 pour définir les motifs conservés au sein de la famille.
    2. De la MEME page d’accueil, cliquez sur le bouton « MEME » et compléter le « données formulaire de soumission » avec notamment les renseignements concernant la famille d’intérêt.
    3. Utiliser l’analyse de MEME pour confirmer la présence des deux motifs attendus dans les membres de la famille vigne ATL, c'est-à-dire, l’anneau-H2 et les motifs GLD.
  3. Sinon, procédez comme 2.1 et 2.2 simultanément à l’aide de la suite de logiciels de bioinformatique (voir Table des matières).
    1. Télécharger fichier FASTA (voir étape 2.1.1) dans la suite. Sélectionnez « Fichier » dans le menu, puis « Importer » et cliquez sur « fichier ». Recherchez le fichier FASTA et cliquez sur « Ouvrir ».
    2. Sélectionner toutes les séquences importées dans la liste et cliquez sur le bouton « Aligner/Assemble » dans la barre d’outils, puis cliquez sur « Pairwise alignement Multiple ». Sélectionnez « Alignement de Muscle » et cliquez sur « OK » pour lancer l’alignement en utilisant les paramètres par défaut.
    3. Pour visualiser le LOGO de l’alignement, cliquez sur « Graphs » → « options » et sélectionnez « Logo de la séquence ».

3. analyse des paramètres physiques de protéine et domaines

  1. Comme la définition des différents paramètres physiques des membres de la famille interrogés est importante d’avoir une description complète de la famille, présenter la liste des membres de la famille d’outils web spécifiques.
    1. Point isoélectrique (pI) et poids moléculaire (kDa), utilisez l' outil de ProtParam16 sur le site Expasy avec les paramètres par défaut.
    2. Pour la localisation subcellulaire des protéines, utiliser différents outils pour obtenir une prévision plus fiable comme ngLOC v1.017 avec les paramètres par défaut, targetP v1.118 avec les paramètres par défaut et la protéine prowler localisation sous-cellulaire v1.219 avec un seuil de probabilité de 0,5. Pour les sites de phosphorylation, utilisez le MUsite v1.0 web outil20 avec les paramètres par défaut.
  2. Enquêter sur des domaines de protéine supplémentaire dans les membres de la famille.
    1. Ouvrez la page Web de base de données Pfam21, sélectionnez l’outil « Recherche de séquence », soumettre des séquences de protéines dans la boîte de requête et cliquez sur « Go » pour lancer l’analyse.
      Remarque : Chaque séquence protéique est analysée individuellement. Une e-valeur de 1,0 dans le paramètre par défaut permet de distinguer des succès significatifs et non significatifs.
    2. Ouvrez le serveur TMHMM22 du Centre pour l’analyse des séquences biologiques enquêter sur la présence de régions transmembranaires putatives.
Coller toutes les séquences de protéines en même temps dans la boîte de requête (ou vous pouvez également télécharger un fichier texte comprenant toutes les séquences de protéines au format FASTA) et cliquez sur « Valider » pour lancer l’analyse.
  • Analyser les protéines manque prédits domaines transmembranaires, selon TMHMM (étape 3.2.2), avec ProtScale outil pour identifier les régions hydrophobes putatives. Ouverte de la page Web ProtScale23. Collez chaque séquence de la protéine dans la boîte de requête et sélectionnez « Hphob. / Kyte & Doolittle » comme échelle d’acides aminés. Cliquez sur « Valider » pour lancer l’analyse.
  • 4. chromosomique Distribution, Duplications et organisation Exon-intron

    1. Carte des membres de la famille ATL sur les chromosomes basés sur les informations récupérées du site Web de vigne Genome CRIBI Biotech Center24.
      1. Parcourir le phénogramme site Web page d’accueil25. Écrire le « Input File » comme un fichier texte délimité par des tabulations avec les caractéristiques spécifiques des gènes à être localisés sur les chromosomes, conformément aux lignes directrices exhaustives et exemples concernant la compilation du fichier fourni suivant le chemin « Phénogramme » → " Documentation » → « Options » → « Input file ».
      2. Écrire le « titre » de l’ouvrage. Sélectionnez le génome à tirer. Pour les génomes non implémentées dans le logiciel, telles que le génome de la vigne, sélectionnez « autre » dans le menu déroulant. Écrire le fichier de génome selon les lignes directrices et les exemples fournis, suivant le chemin « Phénogramme » → « Documentation » → « Options » → « Génome » et de le transférer.
      3. Utilisez les paramètres par défaut de « Espacement de phénotype », « Couleur de phénotype », « Format de l’Image » ou sélectionner des solutions de rechange dans les menus respectifs, puis cliquez sur « Tracer » obtenir la visualisation des gènes sur les chromosomes.
    2. Définir l’état de la duplication des membres de la famille en utilisant le logiciel de MCScanX26.
      1. Téléchargez et décompressez une copie de MCscanX sur un ordinateur local exécutant les lignes de commande 1 (supplémentaire 1 fichier). Entrez dans le dossier MCscanX et créer des exécutables requis exécute les lignes de commande 2 (supplémentaire 1 fichier).
        Remarque : Installation de MCscanX est connue pour échouer sur certains Linux 64 bit machines suite à un problème concernant la fonction chdir. Si un message d’erreur est retourné lié à cette fonction sur la marque exécution de la commande, les lignes de commande 3 (fichier complémentaire 1) doit être exécutés et la commande « make » devrait être tentée par la suite.
      2. Télécharger les protéines de V. vinifera et le fichier d’annotation exécutant les lignes de commande 4 (supplémentaire 1 fichier).
        Remarque : La vigne annotation fichier doit être décompressé et le chat d’informations de chromosomes simples dans un unique fichier en exécutant les lignes de commande 5 (supplémentaire 1 fichier).
      3. Exécuter un blastp « tous contre tous » une recherche en utilisant le fichier de protéine V. vinifera en tant que la requête et le sujet.
      4. Créer une base de données interrogeable souffle en utilisant le fichier protéine V. vinifera lignes 6 (fichier complémentaire 1) de la commande en cours d’exécution. Effectuer la recherche blastp en utilisant le fichier de protéines de V. vinifera comme une requête contre la base de données créé précédemment en exécutant les lignes de commande 7 (supplémentaire 1 fichier).
      5. Convertissez le fichier d’annotation dans un format approprié pour MCScanX. Exécutez les lignes de commande 8supplémentaire 1 fichierpour télécharger le parseMSCanXgff.pl de script perl personnalisé. Effectuer l’analyse en exécutant les lignes de commande 9 (supplémentaire 1 fichier).
        Remarque : Un fichier vitis.gff est généré qui contient les coordonnées de gène dans le format suivant :
        position de départ de gène en SP # position de fin
        « sp » où est un code à deux lettres pour l’espèce (Vv pour la vigne) alors que le « # » est le nom de l’échafaudage. Notez que le script perl personnalisé fourni est aménageable plus, bien que quelques modifications de code peuvent être nécessaire dans certains cas particuliers, en raison de la diversité de l’information fournie dans le fichier d’annotation disponibles.
      6. Lancer MCScanX lignes de commande 10supplémentaire 1 fichieren cours d’exécution.
        NOTE : Le « vitis » est le préfixe de l’annotation et le fichier de sortie de souffle. Il s’agit d’une condition obligatoire pour le logiciel de fonctionner.
      7. Analyser les résultats de le MCScanX. MCScanX produit un fichier texte « vitis.collinearity », qui contient les blocs colinéaires. Un tel fichier peut être inspecté par n’importe quel éditeur de texte (voir exemple 1 supplémentaire 1 fichierde sortie).
        Remarque : Un répertoire « mcscaxOutput.html » contenant des fichiers html comportant plusieurs alignements de blocs colinéaires contre chaque chromosome de référence est généré. Ces dossiers peuvent être consultés via un navigateur web.
      8. Classer des gènes paralogues basés sur leur position relative dans les chromosomes lignes 11 (fichier complémentaire 1) de la commande en cours d’exécution.
        NOTE : Classification de gènes paralogues est décrite au Tableau complémentaire II. Le fichier de sortie généré « vitis.gene_type » contient toutes les informations d’origine avec un format simple délimité par des tabulations.
      9. Effectuer une analyse de l’enrichissement d’évaluer si la famille de gènes est à l’origine principalement par un mécanisme spécifique en exécutant les lignes de commande 12 (supplémentaire 1 fichier).
        Remarque : Le fichier « vitis.gene_type » est généré pendant l’étape 4.2.8, tandis que le fichier « gene_family_file » représente un fichier de texte d’une ligne dans laquelle le nom de la famille (p. ex., ATL_genes) est suivi par les noms de lieu pour l’ensemble des gènes appartenant à la famille séparées par une tabulation. Le test statistique appliqué pour l’enrichissement est un test exact de Fisher et les p-valeurs d’origines différentes sont stockées dans le fichier « outputFile.txt ».
    3. Visualiser l’organisation exon-intron des gènes à l’aide Interactive Tree Of Life (iTOL)27, un outil en ligne pour l’affichage, annotation et gestion des arbres phylogénétiques.
      1. Télécharger un arbre phylogénétique dans la section « Téléchargement » du site iTOL. L’arbre est construit selon la Section 5 ci-dessous. Pour chaque gène membre de la famille, récupérer la prédiction de structure génétique de l’annotation de la V1 du génome de la vigne (site de le CRIBI citée plus haut). Calculer la longueur (en PB) de régions non traduites (RTNS), introns et exons putatifs.
      2. Utiliser le dataset « Domaines protéiques » pour une visualisation graphique du modèle exon-intron.
    Écrire un fichier texte brut dont les longueurs calculées conformément aux spécifications fournies en suivant le chemin d’accès « Help » → « pages d’aide » → « types Dataset » → « Domaines protéiques » dans le site Web d’iTOL27. En utilisant dataset « Domaines protéiques », « rectangle de (RE) » ainsi que les formes « écart de rectangle (GP) » représentent l’exon et RTNS, respectivement.

    5. nomenclature et analyse phylogénétique

    1. Analyser les relations entre les membres de la famille à travers la construction d’un arbre phylogénétique de haute qualité et la définition d’une nomenclature famille ATL.
      1. Pour une famille de gènes de vigne, suivre les règles établies par le Comité de Nomenclature Grapevine Super8.
      2. Récupérer les séquences chez a. thaliana ATL, nécessaires comme référence pour la vigne gène nomenclature8, de base de données UniProt28 .
      3. Écrire un fichier FASTA, y compris toutes les séquences de nucléotides de la vigne et les membres de famille de gène a. thaliana à inclure dans l’analyse phylogénétique. Les séquences nucléotidiques accepte le maximum de variabilité entre les membres de la famille (par rapport aux séquences de protéines).
    2. Arbre phylogénétique
      Remarque : L’utilisation de l’oléoduc de 29 Phylogeny.fr est recommandée pour obtenir un arbre phylogénétique de haute qualité, mais non obligatoire.
      1. Accédez à la page d’accueil de Phylogeny.fr29, puis sélectionnez le pipeline « Analyse de phylogénie ».
        NOTE : « One Click » convient dans la plupart des cas, mais si nécessaire, il est possible de sélectionner les paramètres avancés spécifiques (« avancé ») ou même une analyse entièrement personnalisée (« a la Carte » ; Voir l’étape 5.2.5).
      2. Écrire le « nom de l’analyse, » Télécharger le fichier FASTA créé précédemment (étape 5.2.1 et cliquez sur « Soumettre » pour exécuter l’analyse.
      3. Par ailleurs, si la procédure décrite plus haut (étapes 5.2.1, 5.2.2) entraîne un message d’erreur complet chaque étape de l’oléoduc de suite de phylogénie individuellement, comme suit.
        1. Dans le MUSCLE logiciel Accueil30, upload le fichier FASTA « Étape 1 », sélectionnez « Pearson/FASTA » comme « Format de sortie » à le « étape 2", cliquez sur « Soumettre » à le « Étape 3 » pour aligner les séquences de la requête.
        2. Cliquez sur « Télécharger le fichier d’alignement » et enregistrer en format FASTA pour nouvelles mesures à prendre.
        3. Processus du fichier FASTA alignement afin d’éliminer le mal aligné des positions à l’aide de Gblocks serveur outil31. Télécharger le fichier FASTA alignement, sélectionnez « ADN » comme « Type de séquence » et a choisi l’ou les options d’une rigueur qui correspond le mieux à l’analyse (par exemple, pour sélectionner famille de gène ATL de vigne tous les trois options proposées pour « moins stricte sélection » parce que haute de divergence des séquences). Cliquez sur « Get blocs » pour exécuter l’analyse.
        4. Cliquez sur « Alignement résultant » au bas de la page de sortie et enregistrer les résultats dans un nouveau fichier FASTA.
        5. Depuis la page d’accueil de Phylogeny.fr29, sélectionnez « A la Carte » pipeline « Analyse de phylogénie ». Ensuite, décochez l’option « Alignement Multiple » et « Curation d’alignement ». Cliquez sur « Créer un flux de travail », téléchargez le fichier Gblocks-curated FASTA (étape 5.2.5.4), sélectionnez « Procédure de Bootstrapping » avec les paramètres par défaut dans « Paramètres » et cliquez « Valider » pour lancer l’analyse.
      4. Branches d’effondrement mal pris en charge (c'est-à-dire, les valeurs « bootstrap » < 70 %) en cliquant sur « Effondrement des branches » dans la section « Select et action » et télécharger les résultats finaux au format Newick d’analyses plus poussées.
    3. Attribuez un nom de gène basé sur la phylogénie.
      1. Examiner l’arbre phylogénétique pour évaluer la fiabilité de la structure de l’arbre en le téléchargeant dans la suite iTOL citée ci-dessus (section 4.3).
      2. Attribuer manuellement un nom de gène pour chaque membre de la famille. Dans le cas des orthologues biunivoque, attribuer l' Arabidopsis-comme nom (p. ex., AtATL3 → VviATL3). Différencier les gènes de la vigne (deux ou plus) dérivant d’un homologue d’Arabidopsis unique avec la même distance phylogénétique à l’aide de nombres ou lettres si les gènes de l’Arabidopsis se termine par un nombre (par exemple, AtATL23 → VviATL23a, VviATL23b).
      3. Dans le cas d’un-à-plusieurs ou plusieurs-à-plusieurs orthologues, attribuer un nouveau nom de gènes de l' Arabidopsis-comme nom (ici, « ATL ») associé à un nombre plus élevé que le plus grand nombre, déjà utilisé pour V. vinifera et Arabidopsis (e.g., VviATL83).
      4. Compléter la nomenclature de la famille nouvellement définie, descendant du haut vers le bas de l’arbre phylogénétique.

    6. vigne orgue et Stage profilage de l’Expression

    1. Générer les données d’expression contenant travail données matrice pour les membres de la famille.
      1. Téléchargez le V. vinifera CV Corvina gene expression Atlas datamatrix du lien distribué sur la plate-forme de ResearchGate32. Ce fichier contient les valeurs d’expression de RMA normalisé à être utilisés en suivant les étapes.
      2. Extrait les valeurs de l’expression pour chaque gène familial le datamatrix Atlas et écrire un « travail datamatrix » contenant la même ligne d’en-tête que le datamatrix Atlas. Sauver le datamatrix « travail » comme un fichier texte délimité par des tabulations.
    2. Effectuer l’analyse hiérarchique de bi-cluster utilisant le logiciel Multi expérience Viewer (MeV).
      1. Télécharger et installer le MeV logiciel33.
      2. Télécharger le « travail datamatrix » (étape 6.1.2) suivant le chemin « Fichier » → « Load Data » → « Parcourir » et sélectionnez le fichier texte. Sélectionnez « tableau de simple-couleur » et décochez la case de « Charge Annotation » lorsqu’une annotation automatique n’est pas fournie. Sélectionnez la valeur d’expression coin supérieur gauche de l’aperçu de table expression et cliquez sur le bouton « Load ».
      3. Ajuster les données application transformation Log2 (« Ajuster les données » → « Journal des Transformations » → « Log2 transformer ») et normalisation de gène/Row (« Ajuster les données » → « Gene/ligne ajustements » → « gène/rangée médiane centrale »). Définissez la limite de l’échelle appropriée (« Display » → « Set couleur échelle limites »).
      4. Calculer le Clustering hiérarchique suivant le chemin « Analyse » → « Clustering » → « HCL ».
    Sélectionnez « Optimiser la commande de feuille gène » et « Optimiser des ordre de feuille d’échantillon » dans « Champ de commande optimisation », « Corrélation de Pearson » dans le domaine de la « Sélection de matrice de Distance » et « Liaison moyenne clustering » dans le champ « Lien méthode Selection ». Puis, cliquez sur « OK » pour lancer l’analyse.
  • Afficher les résultats dans le menu de « HCL » → « Résultats de l’analyse » sur le panneau gauche de la fenêtre. Exporter la carte thermique en cliquant sur « Enregistrer l’Image » dans le menu « Fichier ».
  • 7. profilage de l’expression en réponse aux stress biotiques et abiotiques

    1. Répétez l’étape 6.1 avec l’ID d’adhésion GSE provenant de publications respectives et des études sur le stress biotiques et abiotiques sur vigne. Par exemple, les expériences fournissant le profil de transcriptome de vigne baies infectées par le champignon pathogène Botrytis cinerea utilisant le raisin NimbleGen Whole-genome microarray peuvent être parcourus avec GSE ID de GSE52586. Répétez les étapes 6.1.1 et 6.1.2.
    2. Rechercher le NCBI séquence lit Archive34 avec le SRA/BioProject ID (par exemple, SRP055458 ou PRJNA275778 pour des expériences de « ombrage de fleur de vigne ») et télécharger toutes les lectures de séquence brute. RNA-seq datasets de nombreuses différentes études sont traitées à l’aide d’un seul tuyau par souci de cohérence.
      1. En bref, couper la séquence brute FASTQ se lit comme suit (single - et paire-end) et filtre qualité avec Trimmomatic35. Utilisez qu'un AVGQUAL et le DIFOK filtrent de 20 et 40, respectivement et tous les paramètres par défaut.
      2. Index des 12 X vigne référence génome1 à l’aide de Bowtie236. Télécharger 12 X vigne référence génome (par exemple, bowtie2-build) avant d’exécuter la commande bowtie2 .
      3. Obtenir des tableaux matrice avec htseq-comte de37 en utilisant le fichier vigne V1 gène modèle annotation (GFF/FTE).
    3. Effectuer une analyse différentielle des gènes expression (re-) R38 avec Leduc39 bibliothèques pour les matrices de RMA normalisé et DESeq240 pour tableaux matrice obtenues à partir des étapes 7.1.1 et 7.2.1, respectivement.
      1. Effectuer une comparaison entre les « deux groupes » standard (c'est-à-dire, le « traitement » / « commande »). S’assurer que les conception matrice/groupements de conditions « contrôle » et « traitement » sont correctement spécifiées.
        Remarque : Un design typique pour l’analyse de l’expression différentielle de microarray (GSE52586) pour comparer les EL-33 baies infectées avec Botrytis cinerea contre baies (sain) de contrôle au même stade de développement par Leduc en exécutant les lignes de commande 13 apparaît en supplémentaire 1 fichier. Un design typique pour l’analyse de l’expression différentielle de RNA-seq (SRP055458 ou PRJNA275778) pour comparer les fleur (à 7 jours après la chute de cap) sous traitement ombre contre le contrôle avec DESeq2 en exécutant les lignes de commande 14 apparaît en supplémentaire 1 fichier .
      2. Obtenir les listes des gènes différentiellement exprimés (DEG) dans chaque contraste, Leduc, utilisez les fonctions lmFit(), suivie eBayes()et puis par topTable() fonctions, tandis que pour DESeq2, utilisez le DESeqDataSetFromMatrix(), DESeq()et fonctions results() . Ci-dessous, un flux de production type à suivre.
        1. Pour l’analyse de l’expression différentielle de microarray, voir les lignes de commande 15 (supplémentaire 1 fichier). Pour l’analyse de l’expression différentielle de RNA-seq voir les lignes de commande 16 (supplémentaire 1 fichier). Répétez les étapes ci-dessus pour toutes les autres contrastes avec le schéma de conception appropriée différente (voir exemples dans étape 7.3.1)
    4. Dans les listes de DEGs générées, extraire toutes les lignes qui ne correspondent à l’adhésion de l’ATL V1, conserver les colonnes contenant la modification de plier log2 (traitement/contrôle) > | 0,5 | et ajusté les p-valeurs (FDR) < 0,05 et fusion eux en conséquence dans une table de matrice, si une étude correspond à « abiotique » ou recueils des « interactions biotiques/pathogène ».
    5. Construire les heatmaps hiérarchique en cluster (recueils abiotiques et biotiques) en R en utilisant les bibliothèques gplots.
      NOTE : Appel de la fonction de heatmap.2 construit le heatmap avec ligne dendrogrammes des tables respectives de matrice. Des arguments supplémentaires à l’aide de cellnote fonctionnent permet de distinguer différentiellement exprimés (log2FC > 0,5, FDR < 0,05) gènes ATL dans chaque comparaison à travers une large gamme de conditions expérimentales par une * symbole. Appliquer le flux de travail typique dans R exécution de lignes de commande 17 (supplémentaire 1 fichier) ou sinon, répétez les étapes 6.2.2 à 6.2.5 pour construire les heatmaps à l’aide de logiciels de MeV.

    8. l’analyse des relations entre la Divergence des séquences paralogues et gène la co-expression

    1. Construire la matrice contenant similitude par paires. Les éléments de la matrice de similarité sont les valeurs de similarité de séquence calculée à partir des alignements de protéine par paires.
      1. Utilisez le BOSSELAGE aiguille web serveur41 avec les paramètres par défaut pour faire des alignements de séquences par paires et enregistrer en tant que fichier texte. Ouvrez le fichier texte de sortie et supprimer toutes les lignes de commentaires, ainsi que les noms de colonne et de ligne pour générer un fichier appelé « similarityTable.txt ».
        Remarque : Une telle table dispose d’une ligne pour chaque gène ATL rapports les valeurs de similarité calculées dans chacune de l’alignement par paires. L’ordre des locus en lignes et colonnes est le même, afin qu’une matrice symétrique est générée dans le respect des valeurs diagonales.
    2. Construire la matrice avec les données de la co-expression en calculant le coefficient de corrélation de Pearson. La procédure suivante requiert R et le module perl PDL.
      1. Télécharger les valeurs de l’expression pour les gènes ATL 96 lignes de commande 18 (supplémentaire 1 fichier) dans un terminal en cours d’exécution. Effectuer une analyse de la co-expression en utilisant un script perl personnalisé qui peut être téléchargé en exécutant les lignes de commande 19 (supplémentaire 1 fichier). Ce script va calculer le coefficient de corrélation de Pearson entre paires de loci ATL comme indiqué précédemment.
      2. Lancez le script exécutant les lignes de commande 20supplémentaire 1 fichieret suivez les instructions de sortie.
    Le script va produire un fichier de sortie (à savoir « coexpressionTable.txt ») contenant une matrice de co-expression mettant en vedette le même ordre de noms de locus de matrice obtenue dans l’étape 8.1 (cette commande est indispensable pour exécuter le test de Mantel, voir ci-dessous).
  • Effectuer un test de Mantel entre les matrices de données obtenues aux étapes 8.1 et 8.2. Après être entré dans l’environnement de R (exécuter la commande « R » depuis un terminal), charger la bibliothèque d’ade4 en utilisant la commande suivante : library(ade4)
    1. Exécutez le test de Mantel en chargeant les matrices de deux données et produire les statistiques en exécutant les lignes de commande 21 (fichier complémentaire 1), avec « nrep » représentant le nombre de permutations. Le test se compose de calcul de la corrélation entre les éléments de ces matrices, permutation des matrices et ensuite calculer la statistique de test même encore une fois.
      Remarque : Toutes les valeurs obtenues du test statistique sont utilisés pour construire une distribution de référence du test statistique, qui servira à calculer une p-valeur pour tester la signification. Le nombre de permutations définit la précision avec laquelle la p-valeur peut être obtenue.
  • Résultats

    Le gène VIT_05s0077g01970, identifié comme étant le plus semblable à a. thaliana ATL2 (At3g16720) grâce à une recherche de BLASTp, a été utilisé comme sonde pour sonder les membres de la famille ATL dans le génome de la vigne (Vitis vinifera cv Pinot Noir PN40024). L’analyse de PSI-BLAST ont convergé après quelques cycles révélant une liste de gènes putatifs appartenant à la famille de gène ATL de vigne (Figure 1 a). La pr...

    Discussion

    Dans l’ère de la génomique, de nombreuses familles de gènes ont été profondément caractérisés chez plusieurs espèces de plantes. Cette information est préliminaire à des études fonctionnelles et fournissent un cadre pour étudier davantage le rôle des différents membres d’une famille. Dans ce contexte, il y a également un besoin pour un système de nomenclature permettant d’identifier de manière unique chaque membre d’une famille, en évitant la redondance et les confusions qui peuvent survenir lo...

    Déclarations de divulgation

    Les auteurs n’ont rien à divulguer.

    Remerciements

    Le travail a été soutenu par l’Université de Vérone, dans le cadre de Joint projet 2014 (caractérisation de la famille de gènes ATL dans la vigne et de son implication dans la résistance au Plasmopara viticola).

    matériels

    NameCompanyCatalog NumberComments
    Personal computer
    Basic Local Alignment Search Tool (BLAST)https://blast.ncbi.nlm.nih.gov/Blast.cgi
    Molecular Evolutionary Genetics Analysis (MEGA)http://www.megasoftware.net/
    Motif-based sequence analysis tools (MEME)http://meme-suite.org/
    GeneiousBiomatters Limitedhttp://www.geneious.com/
    ProtParam Toolhttp://web.expasy.org/protparam/
    ngLOChttp://genome.unmc.edu/ngLOC/index.html
    TargetP v1.1 Serverhttp://www.cbs.dtu.dk/services/TargetP/
    Protein Prowlerhttp://bioinf.scmb.uq.edu.au:8080/pprowler_webapp_1-2/
    MUsitehttp://musite.sourceforge.net/
    Pfamhttp://pfam.xfam.org/
    TMHMM Server v. 2.0http://www.cbs.dtu.dk/services/TMHMM/
    ProtScalehttp://web.expasy.org/protscale/
    Grape Genome Database (CRIBI)http://genomes.cribi.unipd.it/grape/
    PhenoGramhttp://visualization.ritchielab.psu.edu/phenograms/plot
    MCScanXhttp://chibba.pgml.uga.edu/mcscan2/
    Interactive Tree Of Life (iTOL)http://itol.embl.de/
    UniProthttp://www.uniprot.org/
    Phylogeny.frhttp://www.phylogeny.fr/index.cgi
    MUSCLEhttp://www.ebi.ac.uk/Tools/msa/muscle/
    Gblocks Serverhttp://molevol.cmima.csic.es/castresana/Gblocks_server.html
    Vitis vinifera cv. Corvina gene expression Atlas datamatrixhttps://www.researchgate.net/publication/273383414_54sample_
    datamatrix_geneIDs_Fasoli2012
    Multi Experiment Viewer (MeV)http://mev.tm4.org/#/welcome
    Sequence Read Archive (SRA)https://www.ncbi.nlm.nih.gov/sra
    Rhttps://www.r-project.org/
    EMBOSS Needle (EMBL-EBI)http://www.ebi.ac.uk/Tools/psa/emboss_needle/

    Références

    1. Jaillon, O., et al. The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla. Nature. 449 (7161), 463-467 (2007).
    2. Adam-Blondon, A. -. F., et al. . Genetics, Genomics, and Breeding of Grapes. , 211-234 (2011).
    3. Chen, L., Hellmann, H. Plant E3 Ligases: Flexible Enzymes in a Sessile World. Mol. Plant. 6 (5), 1388-1404 (2013).
    4. Vierstra, R. D. The ubiquitin-26S proteasome system at the nexus of plant biology. Nat. Rev. Mol. Cell Biol. 10 (6), 385-397 (2009).
    5. Serrano, M., Parra, S., Alcaraz, L. D., Guzmán, P. The ATL Gene Family from Arabidopsis thaliana and Oryza sativa Comprises a Large Number of Putative Ubiquitin Ligases of the RING-H2 Type. J. Mol. Evol. 62 (4), 434-445 (2006).
    6. Aguilar-Hernández, V., Aguilar-Henonin, L., Guzmán, P. Diversity in the Architecture of ATLs, a Family of Plant Ubiquitin-Ligases, Leads to Recognition and Targeting of Substrates in Different Cellular Environments. PLoS One. 6 (8), e23934 (2011).
    7. Guzmán, P. The prolific ATL family of RING-H2 ubiquitin ligases. Plant Signal Behav. 7 (8), 1014-1021 (2012).
    8. Grimplet, J., et al. The grapevine gene nomenclature system. BMC Genomics. 15, 1077 (2014).
    9. Prince, V. E., Pickett, F. B. Splitting pairs: the diverging fates of duplicated genes. Nat. Rev. Genet. 3 (11), 827-837 (2002).
    10. Magadum, S., Nerjee, U., Murugan, P., Gangapur, D., Ravikesavan, R. Gene duplication as a major force in evolution. J. Gen. 92 (1), 155-161 (2013).
    11. Wang, N. Patterns of Gene Duplication and Their Contribution to Expansion of Gene Families in Grapevine. Plant Mol. Biol. Rep. 31 (4), 852-861 (2013).
    12. Fasoli, M. The Grapevine Expression Atlas Reveals a Deep Transcriptome Shift Driving the Entire Plant into a Maturation Program. Plant Cell. 24 (9), 3489-3505 (2012).
    13. . BLAST2.6.0 Available from: https://blast.ncbi.nlm.nih.gov/Blast.cgi (2016)
    14. . Vitis vinifera cv. Corvina gene expression Atlas Available from: https://www.researchgate.net/publication/273383414_54sample_datamatrix_geneIDs_Fasoli2012 (2015)
    15. . Sequence Read Archive (SRA) Available from: https://www.ncbi.nlm.nih.gov/sra (2017)
    16. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
    17. Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nat Meth. 9 (4), 357-359 (2012).
    18. Anders, S., Pyl, P. T., Huber, W. HTSeq-a Python framework to work with high-throughput sequencing data. Bioinformatics. 31 (2), 166-169 (2015).
    19. . Version 3.4.1 Available from: https://www.r-project.org/ (2017)
    20. Ritchie, M. E. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47 (2015).
    21. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15 (12), 550 (2014).
    22. Ariani, P. Genome-wide characterisation and expression profile of the grapevine ATL ubiquitin ligase family reveal biotic and abiotic stress-responsive and development-related members. Sci. Rep. 6, 38260 (2016).
    23. Vitulo, N., et al. A deep survey of alternative splicing in grape reveals changes in the splicing machinery related to tissue, stress condition and genotype. BMC Plant Biol. 14 (1), 99 (2014).
    24. Overbeek, R., Fonstein, M., D'Souza, M., Pusch, G. D., Maltsev, N. The use of gene clusters to infer functional coupling. Proc. Natl. Acad. Sci. USA. 96 (6), 2896-2901 (1999).
    25. Dalquen, D. A., Dessimoz, C. Bidirectional Best Hits Miss Many Orthologs in Duplication-Rich Clades such as Plants and Animals. Genome Biol. Evol. 5 (10), 1800-1806 (2013).
    26. Remm, M., Storm, C. E. V., Sonnhammer, E. L. L. Automatic clustering of orthologs and in-paralogs from pairwise species comparisons1. J. Mol. Biol. 314 (5), 1041-1052 (2001).
    27. Kaduk, M., Sonnhammer, E. Improved orthology inference with Hieranoid 2. Bioinformatics. 33 (8), (2017).
    28. Cramer, G. R., et al. Transcriptomic analysis of the late stages of grapevine (Vitis vinifera cv. Cabernet Sauvignon) berry ripening reveals significant induction of ethylene signaling and flavor pathways in the skin. BMC Plant Biol. 14, 370 (2014).
    29. Juretic, N., Hoen, D. R., Huynh, M. L., Harrison, P. M., Bureau, T. E. The evolutionary fate of MULE-mediated duplications of host gene fragments in rice. Genome Res. 15 (9), 1292-1297 (2005).
    30. Filichkin, S. A. Genome-wide mapping of alternative splicing in Arabidopsis thaliana. Genome Res. 20 (1), 45-58 (2010).
    31. Quesada, V., Macknight, R., Dean, C., Simpson, G. G. Autoregulation of FCA pre-mRNA processing controls Arabidopsis flowering time. EMBO J. 22 (12), 3142-3152 (2003).
    32. Wong, D. C. J., Gutierrez, R. L., Gambetta, G. A., Castellarin, S. D. Genome-wide analysis of cis-regulatory element structure and discovery of motif-driven gene co-expression networks in grapevine. DNA Res. 24 (3), 311-326 (2017).
    33. Wong, D. C. J., Matus, J. T. Constructing Integrated Networks for Identifying New Secondary Metabolic Pathway Regulators in Grapevine: Recent Applications and Future Opportunities. Front. Plant Sci. 8, 505 (2017).

    Réimpressions et Autorisations

    Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE

    Demande d’autorisation

    Explorer plus d’articles

    G n tiquenum ro 130ubiquitine ligase E3 ATLfamille de g nesg nomenomenclaturephylog niemeta analyse de l expressionla duplication de g nesvigne

    This article has been published

    Video Coming Soon

    JoVE Logo

    Confidentialité

    Conditions d'utilisation

    Politiques

    Recherche

    Enseignement

    À PROPOS DE JoVE

    Copyright © 2025 MyJoVE Corporation. Tous droits réservés.