Method Article
En exécutant l’outil d’étude pathway association (PAST), soit via l’application Shiny, soit via la console R, les chercheurs peuvent mieux comprendre la signification biologique des résultats de leur étude d’association à l’échelle du génome (GWAS) en étudiant les voies métaboliques impliquées.
Récemment, une nouvelle mise en œuvre d’une méthode décrite précédemment pour interpréter les données d’étude d’association à l’échelle du génome (GWAS) à l’aide de l’analyse des voies métaboliques a été développée et publiée. L’outil d’étude pathway association (PAST) a été développé pour répondre aux préoccupations concernant la convivialité et les analyses lentes. Ce nouvel outil convivial a été publié sur Bioconductor et Github. Lors des tests, PAST a exécuté des analyses en moins d’une heure qui nécessitaient auparavant vingt-quatre heures ou plus. Dans cet article, nous présentons le protocole permettant d’utiliser l’application Shiny ou la console R pour exécuter PAST.
Les études d’association à l’échelle du génome (GWAS) sont une méthode populaire d’étude des traits complexes et des régions génomiques qui leur sont associées1,2,3. Dans ce type d’étude, des centaines de milliers de marqueurs de polymorphisme nucléotidique unique (SNP) sont testés pour leur association avec le trait, et la signification des associations est évaluée. Les associations marqueurs-traits qui atteignent le seuil du taux de fausse découverte (FDR) (ou un autre type de seuil de signification) sont conservées pour l’étude, mais les associations vraies peuvent être filtrées. Pour les caractères polygéniques complexes, l’effet de chaque gène peut être faible (et donc filtré), et certains allèles ne sont exprimés que dans des conditions spécifiques qui pourraient ne pas être présentes dans l’étude3. Ainsi, bien que de nombreux SLP puissent être conservés comme associés au trait, chacun peut avoir un très faible effet. Trop d’appels SNP seront manquants, et une interprétation de la signification biologique et de l’architecture génétique du trait peut être incomplète et déroutante. L’analyse des voies métaboliques peut aider à résoudre certains de ces problèmes en se concentrant sur les effets combinés des gènes regroupés en fonction de leur fonction biologique4,5,6.
Plusieurs études ont été réalisées à l’aide d’une implémentation antérieure de la méthode décrite dans cet article. L’accumulation d’aflatoxines7,la résistance au ver de l’oreille du maïs8et la biosynthèse de l’huile9 ont toutes été étudiées avec la mise en œuvre précédente. Bien que ces analyses aient été couronnées de succès, le processus d’analyse était compliqué, long et fastidieux, car les outils d’analyse étaient écrits dans une combinaison de R, Perl et Bash, et le pipeline n’était pas automatisé. En raison des connaissances spécialisées nécessaires pour modifier cette méthode pour chaque analyse, une nouvelle méthode a maintenant été développée qui peut être partagée avec d’autres chercheurs.
Le Pathway Association Study Tool (PAST)10 a été conçu pour remédier aux lacunes de la méthode précédente en exigeant moins de connaissances en langages de programmation et en exécutant des analyses dans un délai plus court. Bien que la méthode ait été testée avec du maïs, PAST ne fait aucune hypothèse spécifique à l’espèce. PAST peut être exécuté via la console R, en tant qu’application Shiny, et une version en ligne devrait bientôt être disponible sur MaizeGDB.
1. Configuration
2. Personnaliser l’analyse Shiny (facultatif)
Figure 1. Veuillez cliquer ici pour l’agrandir.
3. Charger les données GWAS
Remarque : Vérifiez que les données GWAS sont délimitées par des tabulations. Assurez-vous que le fichier d’association contient les colonnes suivantes : trait, nom du marqueur, locus ou chromosome, position sur le chromosome, valeur p et valeur R2 pour le marqueur. Assurez-vous que le fichier d’effets contient les colonnes suivantes : trait, nom du marqueur, locus ou chromosome, position sur le chromosome et effet. L’ordre de ces colonnes n’est pas important, car l’utilisateur peut spécifier les noms des colonnes lors du chargement des données. Toutes les colonnes supplémentaires sont ignorées. TASSEL13 peut être utilisé pour produire ces fichiers.
Figure 2. Veuillez cliquer ici pour l’agrandir.
4. Données sur le déséquilibre de liaison de charge (LD)
Remarque : Vérifiez que les données de déséquilibre de liaison (LD) sont délimitées par des tabulations et contiennent les types de données suivants : Locus, Position1, Site1, Position2, Site2, Distance dans les paires de bases entre Position1 et Position2 et valeur R2.
Figure 3. Veuillez cliquer ici pour l’agrandir.
5. Assigner des SLP aux gènes
REMARQUE: Téléchargez ou recherchez des annotations au format GFF. Ces annotations peuvent souvent être trouvées dans des bases de données en ligne pour des organismes spécifiques. Soyez prudent avec les annotations de faible qualité, car la qualité des données d’annotations affectera la qualité de l’analyse des voies. Vérifiez que la première colonne de ces annotations (le chromosome) correspond au format du locus/chromosome dans les données d’association, d’effets et de LD. Par exemple, les annotations ne doivent pas appeler le premier chromosome « chr1 » si les fichiers de données GWAS et LD appellent le premier chromosome « 1 ».
Figure 4. Veuillez cliquer ici pour l’agrandir.
6. Découvrez des voies importantes
REMARQUE: Vérifiez que le fichier de voies contient les données suivantes dans un format délimité par des tabulations, avec une ligne pour chaque gène dans chaque voie: ID de voie - un identificateur tel que « PWY-6475-1 »; description de la voie - une description plus longue de ce que font les voies, comme la « biosynthèse trans-lycopène »; gène - un gène dans la voie, qui doit correspondre aux noms fournis dans les annotations. Les informations sur les voies d’accès peuvent probablement être trouvées dans des bases de données en ligne pour des organismes spécifiques, tels que MaizeGDB. La deuxième option spécifiée par l’utilisateur est le mode. « Croissant » fait référence aux phénotypes qui reflètent quand une valeur croissante du trait mesuré est souhaitable, comme le rendement, tandis que « décroissant » fait référence à un trait où une diminution des valeurs mesurées est bénéfique, comme les cotes de dommages causés par les insectes. L’importance des voies est testée à l’aide des méthodesdécritesprécédemment 4,6,14.
Graphique 5. Veuillez cliquer ici pour voir une version agrandie de cette figure.
REMARQUE : Le nombre de cœurs et le mode défini au début de l’analyse PAST Shiny (étape 2.2) sont utilisés dans cette étape. Le nombre par défaut de gènes est actuellement fixé à 5 gènes, de sorte que les voies avec moins de gènes connus seront supprimées. L’utilisateur peut abaisser cette valeur à 4 ou 3, pour inclure des voies plus courtes, mais cela risque de fausses résultats positifs. L’augmentation de cette valeur peut augmenter la puissance de l’analyse, mais supprimera davantage de voies de l’analyse. Changer le nombre de permutations utilisées augmente et diminue la puissance du test.
7. Voir Rugplots
Figure 6. Veuillez cliquer ici pour l’agrandir.
Figure 7. Veuillez cliquer ici pour l’agrandir.
Si les résultats ne sont pas produits après l’exécution de l’outil logiciel PAST, vérifiez que tous les fichiers d’entrée sont correctement formatés. Une exécution réussie à l’aide des exemples de données du package PAST, qui sont basées sur un GWAS de maïs de couleur de grain, est illustrée à la figure 8. Ce tableau et l’image résultante peuvent être téléchargés à l’aide du bouton Télécharger les résultats. Un exemple de l’image téléchargée est illustré à la Figure 210. Des paramètres incorrects peuvent conduire à des résultats qui n’ont pas de sens biologique, mais la détermination de l’incorrect doit être du choix du chercheur, qui doit vérifier la validité des paramètres choisis et prendre en compte toutes les preuves connues concernant le trait d’intérêt.
La figure 910 montre le rugplot produit à partir de l’analyse des voies des résultats GWAS créés avec un panneau de maïs de 288 lignées consanguines qui avaient été phénotypées pour la couleur des grains. Cet exemple simpliste, où les phénotypes étaient soit « blancs » soit « jaunes », a été utilisé parce que la voie responsable de la création des pigments caroténoïdes jaune vif est connue et devrait être responsable de la plupart des phénotypes. Ainsi, nous nous attendions à ce que la voie de biosynthèse trans-lycopène (qui produit des caroténoïdes) soit significativement associée à la couleur du grain, ce qui est le cas. L’ID et le nom du chemin d’accès sont répertoriés en haut du graphique. L’axe horizontal du graphique classe tous les gènes qui ont été inclus dans l’analyse, disposés de gauche à droite dans l’ordre du plus grand effet sur le trait au plus petit. Cependant, seuls les gènes de la voie de biosynthèse du trans-lycopène sont marqués (en haut du graphique, sous forme de marques d’éclosion, apparaissant dans le rang génétique de leur effet par rapport à tous les autres gènes de l’analyse). Il y a 7 gènes dans cette voie. Le score d’enrichissement en cours d’exécution (ES) est tracé le long de l’axe vertical. L’ES pour chaque gène est ajouté au total courant par ordre d’effet et le total est ajusté au nombre de gènes analysés. Ainsi, le score change à mesure que l’on se déplace le long de l’axe horizontal et tend à augmenter à mesure que les gènes à effet plus importants sont inclus, mais à un moment donné, l’augmentation de l’effet est plus petite que l’ajustement pour avoir ajouté un autre gène, et le score entier commence à diminuer. Le sommet de la ligne ES en cours d’exécution est marqué d’une ligne verticale pointillée; il s’agit de l’ES pour l’ensemble du parcours et est utilisé par le programme pour déterminer si le chemin est choisi et présenté comme un rugplot.
Figure 8: Exécution terminée de PAST Shiny. Veuillez cliquer ici pour afficher une version agrandie de cette figure.
Figure 9: Image du chemin d’accès à partir de l’exécution terminée de PAST (ou téléchargée à partir de Shiny). Ce chiffre a été cité dans Thrash et al.10. Veuillez cliquer ici pour voir une version agrandie de cette figure.
L’un des principaux objectifs de PAST est d’apporter des analyses des voies métaboliques des données GWAS à un public plus large, en particulier pour les organismes non humains et non animaux. Les méthodes alternatives à PAST sont souvent des programmes en ligne de commande qui se concentrent sur les humains ou les animaux. La convivialité était l’un des principaux objectifs du développement de PAST, à la fois en choisissant de développer une application Shiny et en choisissant d’utiliser R et Bioconductor pour libérer l’application. Les utilisateurs n’ont pas besoin d’apprendre à compiler des programmes pour utiliser PAST.
Comme avec la plupart des types de logiciels d’analyse, les résultats de PAST ne sont aussi bons que les données d’entrée; si les données d’entrée présentent des erreurs ou sont mal formatées, PAST ne s’exécutera pas ou ne produira pas de résultats non informatifs. Il est essentiel de s’assurer que les données GWAS, les données LD, les annotations et les fichiers de chemins d’accès sont correctement formatés est essentiel pour recevoir une sortie correcte de PAST. PAST n’analyse que les marqueurs bi-alléliques et ne peut exécuter qu’un seul trait pour chaque ensemble de données d’entrée. En outre, les données GWAS produites par un mauvais génotypage ou un phénotypage incorrect ou imprécis ne sont pas non plus susceptibles de produire des résultats clairs ou reproductibles. PAST peut aider à l’interprétation biologique des résultats du GWAS, mais il est peu probable qu’il clarifie les ensembles de données chaotiques si la variation environnementale, l’erreur expérimentale ou la structure de la population n’ont pas été correctement prises en compte.
Les utilisateurs peuvent choisir de modifier certains paramètres de l’analyse, à la fois dans l’application Shiny et en transmettant ces paramètres aux fonctions de PAST dans la console R. Ces paramètres peuvent modifier les résultats rapportés par PAST, et les utilisateurs doivent faire attention lorsqu’ils les modifient à partir des valeurs par défaut. Étant donné que la LD est mesurée par les utilisateurs, généralement à l’aide du même ensemble de données de marqueurs qui a également été utilisé dans le GWAS, les mesures de LD sont spécifiques à la population. Pour toutes les études, en particulier pour les espèces autres que le maïs (en particulier les espèces autopolinisatrices, polyploïdes ou très hétérogènes), des changements dans les valeurs par défaut peuvent être justifiés.
Les auteurs n’ont rien à divulguer.
Aucun.
Name | Company | Catalog Number | Comments |
Computer | NA | NA | Any computer with 8GB RAM should be sufficient |
R | R Project | NA | R 4.0 or greater is required to install from Bioconductor 3.11 |
An erratum was issued for: A Pathway Association Study Tool for GWAS Analyses of Metabolic Pathway Information. One of the affiliations was updated.
The second affiliation was updated from:
USDA-ARS Corn Host Plant Resistance Research Unit, Mississippi State University
to:
Corn Host Plant Resistance Research Unit, USDA-ARS
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon