Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.
Method Article
La métaprotéomique clinique offre un aperçu du microbiome humain et de ses contributions à la maladie. Nous avons exploité la puissance de calcul de la plateforme Galaxy pour développer un flux de travail bioinformatique modulaire qui facilite l’analyse métaprotéomique complexe basée sur la spectrométrie de masse et la caractérisation de divers types d’échantillons cliniques pertinents pour les études de maladies.
La métaprotéomique clinique révèle des interactions hôte-microbiome sous-jacentes aux maladies. Cependant, cette approche présente des défis. En particulier, la caractérisation des protéines microbiennes présentes en faible abondance par rapport aux protéines de l’hôte est difficile. D’autres défis importants sont attribués à l’utilisation de très grandes bases de données de séquences de protéines, ce qui entrave la sensibilité et la précision lors de l’identification des peptides et des protéines à partir de données de spectrométrie de masse, en plus de la récupération de la taxonomie et des annotations fonctionnelles et de la réalisation d’analyses statistiques. Pour résoudre ces problèmes, nous présentons un flux de travail bioinformatique intégré pour la métaprotéomique basée sur la spectrométrie de masse qui combine la génération de bases de données de séquences protéiques personnalisées, la génération et la vérification de correspondances peptides-spectre, la quantification, les annotations taxonomiques et fonctionnelles et l’analyse statistique. Ce flux de travail offre également la caractérisation des protéines humaines (tout en donnant la priorité aux protéines microbiennes), offrant ainsi des informations sur la dynamique hôte-microbe dans la maladie. Les outils et le flux de travail sont déployés dans l’écosystème Galaxy, permettant le développement, l’optimisation et la diffusion de ces ressources informatiques. Nous avons appliqué ce flux de travail à l’analyse métaprotéomique de nombreux types d’échantillons cliniques, tels que les écouvillons nasopharyngés et le liquide de lavage broncho-alvéolaire. Ici, nous démontrons son utilité via l’analyse du liquide résiduel des écouvillons cervicaux. Le flux de travail complet et les ressources de formation qui l’accompagnent sont accessibles sur le Galaxy Training Network afin de doter les non-experts et les chercheurs expérimentés des connaissances et des outils nécessaires pour analyser leurs données.
La métaprotéomique basée sur la spectrométrie de masse (MS) identifie et quantifie les protéines microbiennes et humaines à partir d’échantillons cliniques. Cette approche permet de mieux comprendre les réponses du microbiome à la maladie et de découvrir des médiateurs potentiels des interactions hôte-microbiome 1,2. Bien que l’analyse métaprotéomique d’échantillons cliniques puisse révéler les interactions du microbiome avec son environnement hôte, le domaine est encore confronté à de nombreux défis. L’un des principaux défis est l’abondance relativement élevée de protéines de l’hôte (humaines), ce qui entrave l’identification de protéines microbiennes moins abondantes. De plus, la métaprotéomique basée sur la MS dépend de l’utilisation de très grandes bases de données de séquences protéiques. Ces bases de données comprennent des protéomes microbiens présents dans l’échantillon, ce qui peut donner lieu à une grande base de données contenant des millions de séquences. Suite à la génération de spectres de spectrométrie de masse en tandem (MS/MS) à partir de protéines digérées tryptiquement, les spectres MS/MS sont recherchés dans de grandes bases de données de séquences de protéines, en faisant correspondre une séquence peptidique à chaque spectre (correspondance peptide-spectre, ou PSM). Cependant, la sensibilité diminue et le risque de faux positifs augmente avec les grandes bases de données utilisées pour la métaprotéomique3. De plus, les séquences protéiques conservées à travers les taxons et l’annotation insuffisante des protéines codées limitent les annotations taxonomiques et fonctionnelles pour les peptides et les protéinesdétectés 4,5. Nous présentons un flux de travail bioinformatique pour une analyse métaprotéomique efficace des échantillons cliniques qui répond à bon nombre de ces défis et fournit des ressources logicielles accessibles aux chercheurs pour étudier la dynamique du microbiome de l’hôte sous-jacente à la maladie humaine.
La métaprotéomique clinique a été utilisée pour étudier divers types d’échantillons, y compris les matières fécales et les écouvillons vaginaux, entre autres, pour déchiffrer les mécanismes pathogènes dans les maladies et les affections 6,7,8,9,10,11,12,13,14,15,16,17,18 ,19,20. Ici, nous utilisons un flux de travail bioinformatique métaprotéomique pour analyser un sous-ensemble de données MS/MS provenant d’échantillons de liquide de test Pap (PTF) provenant de patients atteints de cancer de l’ovaire (OVCA) et de patientes non OVCA21. Les outils logiciels et le flux de travail sont accessibles via la plateforme Galaxy, qui rationalise le développement et l’exécution de flux de travail métaprotéomiques cliniques complexes 22,23,24,25. Galaxy est une plate-forme open-source conçue pour la bio-informatique et la biologie computationnelle. Il fournit un environnement Web pour l’utilisation d’outils et de flux de travail open source où les chercheurs universitaires peuvent effectuer et partager des analyses de données complexes. Une communauté mondiale florissante de développeurs de logiciels, de scientifiques des données et d’utilisateurs finaux maintient l’écosystème Galaxy, y compris le Galaxy Training Network (GTN ; https://training.galaxyproject.org/), qui propose des ressources de formation en ligne et à la demande 22,23,24,25,26,27. Notre flux de travail vise à révéler une nouvelle compréhension de la dynamique hôte-microbe dans les échantillons cliniques ainsi qu’à générer de nouvelles cibles peptidiques bien caractérisées d’intérêt pour le développement de tests cliniques ciblés basés sur la SEP pour une étude plus approfondie des échantillons cliniques 6,20,28. De plus, ce manuscrit vise à mettre en évidence la méthodologie de flux de travail de la métaprotéomique clinique. Des guides plus détaillés et adaptés aux débutants sont fournis dans le GTN (https://training.galaxyproject.org/) car il s’agit d’une ressource précieuse qui peut être utilisée en parallèle avec ce manuscrit pour les utilisateurs à la recherche d’explications supplémentaires non couvertes. La communauté Galaxy a écrit de nombreux manuscrits pour aider les utilisateurs débutants de la plate-forme Galaxy 20,21,22,23,24,25,26,27.
Tous les tableaux supplémentaires (par exemple, les paramètres de l’outil) et les figures (par exemple, des exemples de tracés) de ce manuscrit ont été fournis dans des fichiers séparés et sont référencés en conséquence. Les versions actuelles de l’outil dans la version 2.3.0 de Galaxy ont été utilisées pour ce manuscrit. Par conséquent, les résultats peuvent différer légèrement en fonction des mises à jour de Galaxy et de la version de l’outil. La plate-forme Galaxy et ses outils sont open-source et peuvent être utilisés à des fins de recherche universitaire.
Access restricted. Please log in or start a trial to view this content.
Les données spectrales MS/MS ont été obtenues à partir d’échantillons résiduels de PTF anonymisés qui ont été prélevés à l’aide de procédures conformes aux lignes directrices et aux règlements approuvés par le conseil d’administration, comme décrit précédemment 21,29,30.
REMARQUE : la figure 1 donne une vue d’ensemble de l’ensemble du flux de travail, qui se compose de cinq modules. Tous les intrants, extrants et outils logiciels sont résumés dans le tableau supplémentaire 1.
Figure 1 : Résumé des modules de flux de travail de métaprotéomique clinique dans Galaxy. Le flux de travail complet de la métaprotéomique clinique comprend cinq modules : génération de bases de données, découverte, vérification, quantification et interprétation des données. (A) La grande base de données complète comprend des séquences de protéines d’espèces microbiennes que l’on pense être présentes dans l’échantillon, d’humains et de contaminants communs. L’outil logiciel MetaNovo a directement apparié les données spectrales MS/MS aux peptides et déduit les protéines et leur organisme source à partir des données brutes de MS et de la grande base de données de séquences de protéines d’entrée, créant ainsi une base de données réduite33. La base de données réduite de MetaNovo est ensuite fusionnée avec des protéines humaines et contaminantes pour créer la base de données pour la découverte de peptides. (B)Deux algorithmes d’identification peptidique, SearchGUI/PeptideShaker et MaxQuant, font correspondre les séquences peptidiques aux spectres MS/MS et à la base de données de protéines leurres cibles49. (C)Les peptides identifiés par SearchGUI/PeptideShaker et MaxQuant sont ensuite vérifiés à l’aide de PepQuery2. PepQuery2 réexamine rigoureusement les séquences peptidiques microbiennes supposément identifiées et leurs spectres MS/MS appariés par rapport à d’autres correspondances potentielles au protéome de l’hôte humain et/ou aux contaminants, vérifiant ainsi des correspondances microbiennes à haut niveau de confiance40,41. Les peptides vérifiés sont utilisés pour générer une base de données de séquences protéiques vérifiées qui sera utilisée pour la quantification des peptides et des protéines. (D) MaxQuant42 recherche les données MS/MS par rapport à la séquence protéique vérifiée et quantifie les peptides microbiens et les protéines déduites avec les protéines humaines. (E) Unipept45 et MSstatsTMT46 sont utilisés dans l’étape finale pour annoter les protéines avec des informations taxonomiques et fonctionnelles (accessions de commission d’enzymes) ainsi que pour générer des parcelles de volcan et de comparaison. Veuillez cliquer ici pour voir une version agrandie de cette figure.
1. Marquage TMT et génération de spectres MS/MS
2. Mise en place du module
REMARQUE : Les sélections de boutons/menus sont en gras. Des exemples de fichiers, de flux de travail et de paramètres d’outil sont accessibles via des tables supplémentaires. Vous trouverez plus d’informations sur l’utilisation de Galaxy sur la page FAQ de GTN (https://training.galaxyproject.org/training-material/faqs/galaxy/).
3. Module 1 : Génération de bases de données de séquences protéiques
REMARQUE : Si un utilisateur souhaite utiliser les exemples d’entrées et de flux de travail du tableau supplémentaire 2, assurez-vous de suivre les instructions de la section 2. Pour le Module 1, importez l’entrée et le flux de travail pour la GÉNÉRATION DE BASE DE DONNÉES. La colonne des extrants du tableau supplémentaire 2 comprend des exemples d’historiques de production terminés à titre de référence. Pour tous les modules, le tutoriel GTN correspondant se trouve dans le tableau supplémentaire 3.
4. Module 2 : Découverte de peptides via la recherche dans une base de données
REMARQUE : Si un utilisateur souhaite utiliser les exemples d’entrées et de flux de travail du tableau supplémentaire 2, assurez-vous de suivre les instructions de la section 2. Pour le module 2, importez l’entrée et le flux de travail pour DISCOVERY. Pour tous les modules, le tutoriel GTN correspondant se trouve dans le tableau supplémentaire 3. SearchGUI 34,35,36 et PeptideShaker 37 sont des logiciels distincts mais seront considérés comme un seul programme d’identification et de traitement des peptides car ils sont utilisés en tandem. Pour des raisons de compatibilité logicielle, les ensembles de données MS/MS seront convertis de RAW à MGF pour SearchGUI/PeptideShaker à l’aide de l’outil msconvert (dans le flux de travail fourni). MaxQuant38 peut traiter des fichiers RAW.
5. Module 3 : Vérification des peptides microbiens
REMARQUE : Si un utilisateur souhaite utiliser les exemples d’entrées et de flux de travail du tableau supplémentaire 2, assurez-vous de suivre les instructions de la section 2. Pour le module 2, importez l’entrée et le flux de travail pour VERIFICATION. Pour tous les modules, le tutoriel GTN correspondant se trouve dans le tableau supplémentaire 3.
6. Module 4 : Quantification de MaxQuant
REMARQUE : Si un utilisateur souhaite utiliser les exemples d’entrées et de flux de travail du tableau supplémentaire 2, assurez-vous de suivre les instructions de la section 2. Pour le module 2, importez l’entrée et le flux de travail pour QUANTIFICATION. Pour tous les modules, le tutoriel GTN correspondant se trouve dans le tableau supplémentaire 3.
7. Module 5 : Interprétation des données
REMARQUE : Si un utilisateur souhaite utiliser les exemples d’entrées et de flux de travail du tableau supplémentaire 2, assurez-vous de suivre les instructions de la section 2. Pour le module 2, importez l’entrée et le flux de travail pour INTERPRÉTATION DES DONNÉES. Pour tous les modules, le tutoriel GTN correspondant se trouve dans le tableau supplémentaire 3. Les résultats de la quantification MaxQuant dans le module précédent seront utilisés ici pour les annotations taxonomiques et fonctionnelles à l’aide d’Unipept et l’analyse statistique à l’aide de MSstatsTMT. Unipept permet aux chercheurs d’identifier et de quantifier les micro-organismes dans divers environnements et s’intègre à des bases de données publiques (comme UniProt) pour récupérer des annotations mises à jour. MSstatsTMT a été conçu pour l’analyse statistique robuste de données protéomiques quantitatives basées sur la spectrométrie de masse à l’aide du marquage TMT.
Access restricted. Please log in or start a trial to view this content.
Le protocole général décrit ici a été démontré sur des fichiers MS/MS obtenus à partir d’un sous-ensemble d’échantillons PTF21. Do et coll.21 ont analysé quatre fichiers MS/MS à partir d’échantillons de PTF qui ont été prélevés selon les procédures décrites par Boylan et coll.29et Afiuni-Zadel et coll.30. Ce flux de travail privilégie les protéines microbiennes mais o...
Access restricted. Please log in or start a trial to view this content.
La recherche clinique en métaprotéomique offre des percées potentielles pour les études cliniques, mais des défis persistent dans sa mise en œuvre. La plus faible abondance de protéines microbiennes par rapport aux protéines de l’hôte dans la plupart des échantillons entrave la détection et la caractérisation des protéines non hôtes 6,10. La dépendance à l’égard de grandes bases de données de séquences prot...
Access restricted. Please log in or start a trial to view this content.
Les auteurs ne déclarent aucun conflit d’intérêts.
Nous remercions la Dre Amy Skubitz et la Dre Kristin Boylan (Université du Minnesota) pour les ensembles de données pilotes, ainsi que le Dr Paul Piehowski, le Dr Tao Liu et la Dre Karin Rodland (Pacific Northwest National Laboratories (PNNL)) pour leur expertise dans la collecte d’échantillons, le traitement des échantillons PTF et la production des données MS marquées TMT utilisées dans cette étude. Ce projet a été financé en partie par la Minnesota Ovarian Cancer Alliance (MOCA), les National Institutes of Health/National Cancer Institute numéro de subvention : 5R01CA262153 (A.P.N.S.), 1R21CA267707 (P.D.J et T.J.G.), et le National Institutes of Health/National Cancer Institute numéro de subvention : P30CA077598 (P.D.J. et T.J.G.).
Access restricted. Please log in or start a trial to view this content.
Name | Company | Catalog Number | Comments |
Collapse Collection | GalaxyP | Galaxy Version 5.1.1 | Combines a dataset list collection into a single file (in the order of the list) |
Concatenate datasets | GalaxyP | Galaxy Version 0.1.1 | Concatenate files tail-to-head |
Cut | GalaxyP | Galaxy Version 1.0.2 | Cut (select) specified columns from a file |
FASTA Merge Files and Filter Unique Sequences | GalaxyP | Galaxy Version 1.2.0 | Concatenate FASTA database files together |
FastaCLI | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Appends decoy sequences to FASTA files |
FASTA-to-Tablular | GalaxyP | Galaxy Version 1.1.0 | Convert FASTA-formatted sequences to TAB-delimited format |
Filter | GalaxyP | Galaxy Version 1.1.1 | Filter columns using simple expressions |
Filter Tabular | GalaxyP | Galaxy Version 3.3.0 | Filter a tabular file via line filters |
Galaxy Europe (EU) server | GalaxyP | https://usegalaxy.eu/ | |
Group | GalaxyP | Galaxy Version 2.1.4 | Group a file by a particular column and perform aggregate functions |
Identification Parameters | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Set identification parameters for SearchGUI/PeptideShaker |
Learning Pathway: Clinical metaproteomics workflows within Galaxy | GalaxyP | https://training.galaxyproject.org/training-material/learning-pathways/clinical-metaproteomics.html | |
MaxQuant | GalaxyP | Galaxy Version 2.0.3.0+galaxy0 (Discovery module); Galaxy Version 1.6.17.0+galaxy4 (Quantification module) | Quantitative proteomics software package for analysis of large mass spectrometric data files |
MetaNovo | GalaxyP | Galaxy Version 1.9.4+galaxy4 | Search MS/MS data against a FASTA database (of known proteins) to produce a targeted database (of matched proteins) for mass spectrometry analysis |
msconvert | GalaxyP | Galaxy Version 3.0.20287.2 | Convert and/or filter mass spectrometry files |
MSstatsTMT | GalaxyP | Galaxy Version 2.0.0+galaxy1 | R-based package for detection of differentially abundant proteins in shotgun mass spectrometry-based proteomic experiments using tandem mass tag (TMT) labeling |
PepQuery2 | GalaxyP | Galaxy Version 2.0.2+galaxy0 | Peptide-centric search engine for identification and/or validating known and novel peptides of interest |
PeptideShaker | GalaxyP | Galaxy Version 2.0.33+galaxy1 | Interpret results from SearchGUI for protein identification |
Protein Database Downloader | GalaxyP | Galaxy Version 0.3.4 | Download specified protein sequences as a FASTA file |
Query Tabular | GalaxyP | Galaxy Version 3.3.0 | Load tabular files intoa SQLite database |
Remove beginning | GalaxyP | Galaxy Version 1.0.0 | Remove the specified number of (header) lines from a file |
SearchGUI | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Run search engines on MGF peak lists and prepare results for input to Peptide Shaker |
Select | GalaxyP | Galaxy Version 1.0.4 | Select lines that match an expression |
Unipept | GalaxyP | Galaxy Version 4.5.1 | Retrieve UniProt entries and taxonomic information for tryptic peptides |
UniProt | GalaxyP | Galaxy Version 2.3.0 | Download proteome as a XML (UniProtXML) or FASTA file from UniProtKB |
Access restricted. Please log in or start a trial to view this content.
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon