Dans ce protocole, nous présentons un flux de travail optimisé, qui combine une préparation efficace et rapide des échantillons de nombreux échantillons. En outre, nous fournissons un guide étape par étape pour réduire les variations analytiques pour l’évaluation à haut débit des études GWAS métaboliques.
La chromatographie en phase gazeuse-spectrométrie de masse (GC-MS) et la chromatographie liquide-spectrométrie de masse (LC-MS) sont des approches métabolomiques largement utilisées pour détecter et quantifier des centaines de milliers de caractéristiques métabolites. Cependant, l’application de ces techniques à un grand nombre d’échantillons est sujette à des interactions plus complexes, en particulier pour les études d’association à l’échelle du génome (GWAS). Ce protocole décrit un flux de travail métabolique optimisé, qui combine une préparation efficace et rapide des échantillons avec l’analyse d’un grand nombre d’échantillons pour les espèces de cultures de légumineuses. Cette méthode d’extraction légèrement modifiée a été initialement développée pour l’analyse des tissus végétaux et animaux et est basée sur l’extraction dans l’éther méthyl-tert-butylique : solvant méthanol pour permettre la capture des métabolites polaires et lipidiques. En outre, nous fournissons un guide étape par étape pour réduire les variations analytiques, qui sont essentielles pour l’évaluation à haut débit de la variance métabolique dans GWAS.
Les approches « omiques » à grande échelle ont permis l’analyse de systèmes biologiques complexes 1,2,3 et une meilleure compréhension du lien entre les génotypes et les phénotypes qui en résultent4. La métabolomique utilisant la chromatographie liquide ultra-haute performance-spectrométrie de masse (UHPLC-MS) et la GC-MS a permis la détection d’une pléthore de caractéristiques métabolites, dont seules certaines sont annotées dans une certaine mesure, ce qui entraîne une forte proportion de métabolites inconnus. Les interactions complexes peuvent être explorées en combinant la métabolomique à grande échelle avec la variation génotypique sous-jacente d’une population diversifiée5. Cependant, la manipulation de grands ensembles d’échantillons est intrinsèquement associée à des variations analytiques, ce qui fausse l’évaluation de la variance métabolique pour d’autres processus en aval. Plus précisément, les problèmes majeurs conduisant à des variations analytiques sont basés sur les performances de la machine et la dérive instrumentale au fil du temps6. L’intégration de la variation d’un lot à l’autre est difficile et particulièrement problématique lors de l’analyse de populations végétales structurées à grande échelle. De multiples procédures de normalisation ont été suggérées pour corriger les variations non biologiques, p. ex., l’utilisation de normes internes, externes et isotopiques pour corriger les erreurs analytiques, dont chacune est intrinsèquement associée à des problèmes et des pièges connus 7,8,9,10.
En plus de la variation analytique, le choix des protocoles d’extraction varie généralement en fonction de la méthode d’analyse. En fin de compte, il est souhaité de réduire les coûts de matériaux et de main-d’œuvre ainsi que la nécessité d’utiliser plusieurs aliquotes du même échantillon pour divers processus analytiques en effectuant des méthodes d’extraction basées sur la séparation de phase. Ces méthodes ont d’abord été introduites en utilisant du chloroforme : des solvants méthanol/eau pour fractionner les composés polaires et hydrophobes11.
Ce protocole décrit un pipeline rapide à haut débit pour une plate-forme multi-omique permettant de profiler à la fois les métabolites polaires et les lipides chez les espèces de légumineuses. En outre, il montre comment ces ensembles de données peuvent être corrigés de manière appropriée pour la variation analytique et normalisés avant d’intégrer des informations génotypiques pour détecter les loci de caractères quantitatifs des métabolites (QTL) en effectuant GWAS.
1. Conception expérimentale et culture de plantes
REMARQUE: Mettre en place l’expérience en fonction de l’hypothèse expérimentale, par exemple, l’utilisation d’une population GWAS à grande échelle diminue la nécessité de plusieurs réplications, car des tests statistiques seront effectués en fonction des haplotypes de tous les SNP individuels au lieu de l’accession. En revanche, les répétitions multiples sont indispensables dans d’autres approches expérimentales. Les points suivants doivent être pris en compte lors de la préparation de l’expérience.
2. Préparation du matériel végétal biologique
3. Réactifs d’extraction
4. Extraction d’échantillons
5. Analyse des lipides à l’aide de UHPLC-MS
6. Analyse des métabolites polaires et semi-polaires à l’aide de l’UHPLC-MS
7. Analyse des métabolites dérivés à l’aide de GC-MS 17,18
REMARQUE: L’analyse des métabolites dérivés est basée sur un protocole17 décrit précédemment. Manipulez tous les réactifs de dérivatisation dans la hotte. S’assurer que le N-méthyl-N-(triméthylsilyl)trifluoracétamide (MSTFA) n’entre pas en contact avec l’eau et l’humidité.
8. Traitement du chromatogramme et annotation des composés
9. Normalisation de l’ensemble de données métabolomiques à grande échelle
10. Études d’association à l’échelle du génome (GWAS)32
11. Détection QTL
Les expériences GWAS métabolomiques réussies devraient commencer par un plan expérimental approprié, suivi de la collecte, de l’extraction, de l’acquisition et du traitement des échantillons, comme illustré à la figure 1. Dans ce protocole, la méthode MTBE15 a été utilisée pour extraire et analyser des centaines de métabolites appartenant à plusieurs classes de composés. La chromatographie dépend fortement des propriétés de la colonne utilisée ainsi que des mélanges tampons d’élution. La figure 2 montre les chromatogrammes des échantillons de CQ, indiquant le profil d’élution de certaines classes de lipides majeures dans ce système analytique. Les gradients appliqués pour chaque plate-forme sont donnés dans le tableau 1. L’accent a été mis sur la gestion des erreurs systémiques dans les expériences à grande échelle. La réalisation de métabolomiques à grande échelle est intrinsèquement associée à des erreurs systémiques. À des fins de démonstration, nous avons analysé les données lipidomiques de plusieurs espèces de haricots communs. Le tableau supplémentaire 1 fournit les données lipidomiques brutes extraites obtenues après le traitement du chromatogramme à l’aide du logiciel indiqué dans le tableau des matériaux. Le respect de ce protocole nous a permis de contourner les problèmes majeurs liés au traitement des données omiques, en particulier lors de la manipulation de grands ensembles d’échantillons. La procédure de normalisation permet de corriger avec précision les erreurs analytiques par lots, comme le montre la figure 3. Bien que l’augmentation du nombre d’échantillons de CQ augmenterait la puissance de la normalisation, cela n’est pas toujours réalisable en raison des contraintes de coût et de temps. Pour les GWAS métabolomiques à haut débit avec des caractéristiques métaboliques non ciblées, il est essentiel d’illustrer de manière appropriée un nombre plus élevé d’associations trait-marqueur. Une carte pléiotropique38 combinant plusieurs résultats GWAS pourrait être utilisée pour mettre en évidence les régions génomiques auxquelles plusieurs traits sont liés (Figure 4).
Figure 1 : Organigramme du GWAS à base de métabolomique chez les plantes. Plusieurs étapes allant de la conception expérimentale jusqu’à la détection de QTL sont affichées dans le panneau de gauche. Dans le panneau de droite, plusieurs figures sont affichées pour prendre en charge plusieurs étapes mentionnées dans le panneau de gauche. En partant du haut à droite, (1) une séquence suggérée d’échantillons est montrée pour LC-MS, (2) des diagrammes de score pré- et post-normalisés de PCA, y compris une distribution représentative des caractéristiques avant et après le traitement, avec le rouge indiquant les intensités de l’échantillon QC, et (3) un diagramme de Manhattan avec des associations significatives auxquelles des distributions LD et haplotypes ont été générées. Abréviations : GWAS = études d’association à l’échelle du génome; QTL = loci de caractères quantitatifs; APC = analyse en composantes principales; QC = contrôle de la qualité; LD = déséquilibre de liaison; MS = spectrométrie de masse; LC-MS = chromatographie liquide-spectrométrie de masse; GC-MS = chromatographie en phase gazeuse-spectrométrie de masse; LOESS = lissage du nuage de points estimé localement; MLM/MLMM = modèle linéaire mixte/modèle mixte multi-locus. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 2 : Traitement du chromatogramme. Deux chromatogrammes QC (pic de base; données lipidiques) de différents lots démontrent la variation par lot pour certaines classes de lipides dans les échantillons QC regroupés. Quatre grandes classes de lipides sont indiquées avec leurs fenêtres d’élution respectives dans le système LC-MS interne. Les chromatogrammes ont été exportés à partir de MzMine21. Abréviations : QC = contrôle de la qualité; LC-MS = chromatographie liquide-spectrométrie de masse. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 3 : Correction d’une erreur systématique. Analyse en composantes principales des données lipidomiques acquises, pré- (gauche, données brutes) et post-correction pour les erreurs systémiques (droite, lœss de lot). Les panneaux inférieurs illustrent la distribution des caractéristiques (Cluster_00005) sur les échantillons (n = 650) et les lots (n = 10) avant (à gauche) et après (à droite) pour la variation analytique. Abréviations : APC = analyse en composantes principales; QC = contrôle de la qualité; LOESS = lissage du nuage de points estimé localement. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 4 : Carte pléiotropique illustrant les résultats combinés du GWAS. La carte pléiotropique met en évidence des régions de l’ensemble du génome associées à plusieurs traits. Les chiffres sur les anneaux extérieurs indiquent les chromosomes correspondants. Chaque cercle représente un trait individuel avec ses SNP significativement associés. Les couleurs représentent différentes classes de composés (gris = classe de composé 1; vert = classe de composé 2; violet = classe de composé 3; jaune = classe de composé 4). Dans le cas d’associations de classes inter-composés avec la même région génomique, les gènes sont mis en évidence. Le cercle gris intérieur montre la somme de tous les SNP significatifs associés à une position génomique spécifique. Les associations présentées dans cette figure ne sont générées artificiellement qu’à titre d’illustration. Abréviations : GWAS = études d’association à l’échelle du génome; SNP = polymorphismes mononucléotidiques. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Paramètres UHPLC-MS pour les lipides | ||||
Temps [min] | Éluant A à B [%]* | Information | ||
0 - 1.00 | 45 % A | Éluant A : 1 % 1 M NH 4-acétate, 0,1 % d’acide acétique dans l’eau (grade UHPLC) | ||
1.00 - 4.00 | lg 45% - 25% A | Éluant B : 1 % 1 M NH 4-acétate, 0,1 % d’acide acétique dans l’acétonitrile/2-propanol 7:3 (grade UHPLC) | ||
4.00 - 12.00 | lg 25% - 11% A | Débit : 400 μL/min | ||
12.00 - 15.00 | lg 11% - 0% A | Volume d’injection : 2 μL | ||
15.00 - 19.50 | cw 0% A | |||
19.50-19.51 | 0 % - 45 % A | |||
19.51-24.00 | eq 45% | |||
Paramètres UHPLC-MS/MS pour les métabolites polaires et semi-polaires | ||||
Temps [min] | Éluant a et b [%]* | Information | ||
0 - 1.00 | 99 % A | Éluant A : 0,1 % d’acide formique dans l’eau (grade UHPLC) | ||
1.00 - 11.00 | lg 99% -60% A | Éluant B : 0,1 % d’acide formique dans l’acétonitrile (grade UHPLC) | ||
11.00 - 13.00 | lg 60% - 30% A | Débit : 400 μL/min | ||
13.00 - 15.00 | lg 30% - 1% A | Volume d’injection: 3 μL | ||
15.00 - 16.00 | cw 1% A | |||
16.00 - 17.00 | lg 1% - 99% A | |||
17.00 - 20.00 | eq 99% A | |||
Paramètres GC-MS pour les métabolites dérivés | ||||
Temps [min] | Température [°C] | Information | ||
0 - 2.00 | 85 | Gaz porteur : Hélium | ||
2.00 - 18.66 | lg 80 - 330 | Débit : 2 mL/min | ||
18.66 - 24.66 | cw 330 | Gradient de température : 15 °C/min | ||
24.66 | refroidissement rapide | Volume d’injection : 1 μL |
Tableau 1 : Paramètres de gradient pour chacune des plates-formes analytiques7. Abréviations : lg = gradient linéaire ; cw = lavage de colonne; eq = équilibre; UHPLC-MS = chromatographie liquide ultra-haute performance-spectrométrie de masse; UHPLC-MS/MS = chromatographie liquide ultra-haute performance-spectrométrie de masse en tandem; GC-MS = chromatographie en phase gazeuse-spectrométrie de masse. * = la valeur en pourcentage correspond à l’éluant A; la valeur restante en pourcentage correspond à l’éluant B.
Tableau supplémentaire 1 : Données lipidomiques brutes. Indique les intensités maximales de chacun des clusters détectés sur chaque échantillon. Veuillez cliquer ici pour télécharger ce tableau.
GC-MS et LC-MS sont des outils largement utilisés pour profiler des mélanges complexes de diverses classes de métabolites. La manipulation de grands ensembles de données à l’aide de ces outils est intrinsèquement associée à une variation non biologique, p. ex. une variation analytique, qui interfère et biaise l’interprétation des résultats. Ce protocole présente un pipeline d’extraction robuste et à haut débit pour un profilage métabolique complet afin d’éliminer la variation d’origine non biologique et de mener des études « omiques » à grande échelle. Les volumes et les concentrations utilisés dans ce protocole ont été ajustés pour tenir compte des espèces de légumineuses dans différents tissus. Cependant, ces paramètres peuvent être légèrement modifiés et utilisés pour des échantillons métaboliques à grande échelle provenant d’autres espèces végétales.
Les15 extractions à base de MTBE décrites précédemment peuvent être utilisées pour analyser les métabolites dérivés, les métabolites semi-polaires et les lipides. Cela peut être étendu pour les extractions de protéines et d’hormones végétales39, qui étaient hors du champ d’application de ce protocole. D’autres protocoles d’extraction reposent sur des mélanges dichlorométhane:éthanol40,41. Parmi ces protocoles d’extraction, le protocole d’extraction MTBE:méthanol offre une alternative favorable et moins dangereuse aux protocoles d’extraction existants à base de chloroforme42 et n’aboutit pas à une pastille de protéine comme interphase entre les phases polaire et lipidique. En outre, les méthodes MTBE ont déjà été utilisées dans plusieurs études pour divers échantillons biologiques 43,44,45.
Ce protocole traite de plusieurs étapes cruciales qui pourraient entraîner des variations potentielles lors de la manipulation d’un grand nombre d’échantillons, par exemple lors de la récolte12,13, de l’extraction14, ainsi que de la randomisation46. De plus, il y a d’autres questions qui n’ont pas été abordées dans ce protocole et qui doivent être prises en compte pour assurer des données métabolomiques de haute qualité, par exemple l’effet de matrice et la suppression des ions14.
La puissance des méthodes de normalisation basées sur le CQ dépend intrinsèquement du nombre d’échantillons de CQ dans chaque lot. Comme mentionné précédemment, bien que l’augmentation du nombre augmenterait la puissance, la variation intra-lot des QC est relativement marginale par rapport à la variation inter-lots dans ces systèmes analytiques, comme illustré à la figure 3. Dans l’ensemble, il existe d’autres méthodes de normalisation basées sur le CQ, telles que l’élimination des erreurs systémiques à l’aide de la forêt aléatoire (SERRF), qui se sont avérées surpassant la plupart des autres méthodes de normalisation telles que le ratio par lots, la normalisation à l’aide d’une sélection optimale de plusieurs étalons internes (NOMIS) et la normalisation probabiliste du quotient (PQN)47 . Cependant, SERRF s’appuie sur plusieurs échantillons de CQ dans chaque lot, par exemple, un échantillon sur dix, ce qui n’est pas réalisable lors de la manipulation d’un grand nombre d’échantillons. Le principal avantage de la normalisation basée sur le CQ par rapport à d’autres méthodes basées sur des données ou des normes internes est qu’elle conserve la variation biologique essentielle tout en tenant compte de la variation technique indésirable28. Les lecteurs peuvent se référer à cette revue sur le traitement de la variation28.
L’un des principaux problèmes dans GWAS est le taux de faux positifs, qui provient principalement du lien entre les sites causaux et non causaux48,49. Deuxièmement, les approches de correction statistique conservatrices, par exemple Bonferroni et FDR, corrigent le nombre de tests indépendants, qui n’est pas égal au nombre de SNP analysés dans GWAS en raison du lien entre les SNP proches50,51 Par conséquent, le nombre réel de tests indépendants est souvent plus faible. Une autre façon de réduire le seuil statistique conservateur serait de réduire le nombre de SNP testés utilisés pour les GWAS en fonction de la désintégration des liens sur des régions génomiques définies52. La plate-forme métabolomique à haut débit intégrée à GWAS décrite dans ce protocole a un large éventail d’applications. En particulier, il facilitera l’amélioration de la sélection des cultures en modifiant la composition métabolite/lipidique pour les niveaux souhaités industriellement et nutritionnellement. Dans l’ensemble, la métabolomique a fourni un aperçu approfondi de l’architecture génétique d’une pléthore de métabolites et de la diversification métabolique qui s’est produite lors de la domestication des cultures au cours des dernières décennies, indiquant le vaste potentiel de la sélection associée à la métabolomique53. Les approches de biologie moléculaire pour la validation QTL en aval comprennent la génération de lignées mutantes CRISPR/Cas954, de lignées d’insertion d’ADN-T55, de lignes de surexpression stables et/ou transitoires56, de VIGS, d’approches métabolomiques ex vivo 57 à côté de l’approche conventionnelle pour générer des populations croisées F2 ainsi que la validation croisée dans différentes populations.
En effectuant la correction nécessaire pour les variations analytiques décrites ci-dessus, plusieurs approches intégrées peuvent être effectuées en plus des GWAS, telles que l’analyse de corrélation métabolite-métabolite, métabolite-lipide, l’analyse de corrélation aux données phénomiques pour faire la lumière sur des traits plus complexes et / ou l’analyse de co-expression pour démêler davantage la base des systèmes biologiques58.
Les auteurs n’ont aucun conflit d’intérêts à déclarer.
M.B. est soutenu par l’IMPRS-PMPG 'Primary Metabolism and Plant Growth'. A.R.F. et S.A. reconnaissent le soutien financier du programme de recherche et d’innovation Horizon 2020 de l’UE, du projet PlantaSYST (SGA-CSA n° 739582 sous FPA n° 664620) et du projet INCREASE (GA 862862).
Name | Company | Catalog Number | Comments |
Reagents and standards | |||
1,2-diheptadecanoyl-sn-glycero-3- phosphocholine (17:0 PC) | Avanti Polar Lipids | 850360P | Internal standard for lipids |
Chloroform | Supleco | 67-66-3 | FAME solvent |
Isovitexin | Sigma Aldrich | 38953-85-4 | Internal standard for metabolites |
Lignoceric Acid Methylester | Sigma Aldrich | 2442-49-1 | FAME |
Methanol (MeOH) | Biosolve Chemicals | 13684102 | ULC-MS grade |
Methoxyamin -hydrochlorid | Sigma Aldrich | 593-56-6 | Metabolite deriviatization |
Methyl laurate | Sigma Aldrich | 111-82-0 | FAME |
Methyl myristate | Sigma Aldrich | 124-10-7 | FAME |
Methyl palmitate | Sigma Aldrich | 112-39-0 | FAME |
Methyl stearate | Sigma Aldrich | 112-61-8 | FAME |
Methyl tert-butyl ether (MTBE) | Biosolve Chemicals | 13890602 | HPLC grade |
Methyl-caprat | Sigma Aldrich | 110-42-9 | FAME |
Methylcaprylat | Sigma Aldrich | 111-11-5 | FAME |
Methyldocosanoat | Sigma Aldrich | 929-77-1 | FAME |
Methyleicosanoat | Sigma Aldrich | 1120-28-1 | FAME |
Methyl-hexacosanoat | Sigma Aldrich | 5802-82-4 | FAME |
Methyl-octacosanoat | Sigma Aldrich | 55682-92-3 | FAME |
Methyl-pelargonate | Sigma Aldrich | 1731-84-6 | FAME |
N-Methyl-N-(trimethylsilyl)trifluoracetamid (MSTFA) | Macherey-Nagel | 24589-78-4 | Metabolite deriviatization |
Pyridine | Supleco | 110-86-1 | Metabolite deriviatization |
Ribitol | Supleco | 22566-17-2 | Internal standard for derivatized metabolites |
Triacontanoic Acid Methyl Ester | TCI Chemicals | 629-83-4 | FAME |
Water | Biosolve Chemicals | 23214102 | ULC-MS grade |
Equipment | |||
1.5 mL Safe-lock microcentrifuge tubes | Eppendorf | 3120086 | |
2 mL Safe-lock microcentrifuge tubes | Eppendorf | 3120094 | |
Balance | Sartorius Corporation | 14 557 572 | |
DB-35ms, 30 m, 0,25 mm, 0,25 µm | Aglient | 123-3832 | Analysis of derivatized metabolites |
GC-MS system | Leco Pegasus HT TOF-MS (LECO Corporation) | Analysis of derivatized metabolites | |
Grinding Balls, Stainless Steel | OPS DIAGNOSTICS | GBSS 196-2500-10 | |
MS system | Exactive, Orbitrap-type, MS (Exactive, Thermo Fisher Scientific) | Analysis of lipids | |
MS system | Q Exactive Focus (Q Exactive™ Focus Hybrid Quadrupol-Orbitrap™ Massenspektrometer, Thermo Fisher Scientific) | Analysis of metabolites | |
Refrigerated microcentrifuge | Eppendorf, model 5427R | 22620701 | |
Reversed Phase (RP) Bridged Ethyl Hybrid (BEH) C8 column (100 mm × 2.1 mm containing 1.7 μm diameter particles) | Waters | 186002878 | Analysis of lipids |
RP High Strength Silica (HSS) T3 column (100 mm × 2.1 mm containing 1.8 μm diameter particles) | Waters | 186003539 | Analysis of metabolites |
Shaker | Eppendorf Thermomixer 5436 | 2050-100-05 | |
Sonicator | USC 300 TH | 142-0084 | |
Tissue grinding mixer mill | Retsch, Mixer Mill MM 300 | 20.746.0001 | |
UPLC system | Waters Acquity UPLC system (Waters) | ||
Vacuum concentrator | Scan Speed Maxi Vac Alpha Evaporators | 7.008.500.002 | |
Vortex mixer | Vortex-Genie 2, Model G560 | SI-0236 | |
Software | |||
MetAlign | Chromatogram processing | ||
MzMine | Chromatogram processing | ||
R package "data.table" | |||
R package "fujiplot" | pleiotrpoic map | ||
R package "genetics" | |||
R package "Ime4" | BLUPs calculation | ||
R package "LDheatmap" | LD plots | ||
R package "MASS" | transformation | ||
R package "rMVP" | GWAS | ||
R version 4.0.4 | |||
RefinerMS | Chromatogram processing | ||
RefinerMS Genedata | Expressionist | Chromatogram processing | |
Tassel 5 | Genotype filtering | ||
Xcalibur | Thermo Fisher Scientific | OPTON-30965 | Chromatogram processing |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationExplorer plus d’articles
This article has been published
Video Coming Soon