Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.
Method Article
Die klinische Metaproteomik bietet Einblicke in das menschliche Mikrobiom und seinen Beitrag zur Krankheit. Wir nutzten die Rechenleistung der Galaxy-Plattform, um einen modularen bioinformatischen Workflow zu entwickeln, der eine komplexe, massenspektrometriebasierte metaproteomische Analyse und Charakterisierung verschiedener klinischer Probentypen ermöglicht, die für Krankheitsstudien relevant sind.
Klinische Metaproteomik deckt Wirt-Mikrobiom-Wechselwirkungen auf, die Krankheiten zugrunde liegen. Es gibt jedoch Herausforderungen für diesen Ansatz. Insbesondere ist die Charakterisierung von mikrobiellen Proteinen, die im Vergleich zu Wirtsproteinen in geringer Häufigkeit vorliegen, schwierig. Weitere große Herausforderungen sind die Verwendung sehr großer Proteinsequenzdatenbanken, die die Empfindlichkeit und Genauigkeit bei der Peptid- und Proteinidentifizierung aus Massenspektrometriedaten sowie das Abrufen von Taxonomie- und Funktionsannotationen und die Durchführung statistischer Analysen beeinträchtigen. Um diese Probleme zu lösen, stellen wir einen integrierten bioinformatischen Workflow für massenspektrometriebasierte Metaproteomik vor, der die Generierung benutzerdefinierter Proteinsequenzdatenbanken, die Generierung und Verifizierung von Peptidspektrum-Matches, Quantifizierung, taxonomische und funktionelle Annotationen sowie statistische Analysen kombiniert. Dieser Workflow ermöglicht auch die Charakterisierung menschlicher Proteine (unter Priorisierung mikrobieller Proteine) und bietet somit Einblicke in die Wirt-Mikroben-Dynamik bei Krankheiten. Die Tools und der Workflow werden im Galaxy-Ökosystem eingesetzt und ermöglichen die Entwicklung, Optimierung und Verbreitung dieser Rechenressourcen. Wir haben diesen Workflow für die metaproteomische Analyse zahlreicher klinischer Probentypen angewendet, wie z. B. Nasopharyngealabstriche und bronchoalveoläre Lavage-Flüssigkeit. Hier demonstrieren wir die Nützlichkeit anhand der Analyse von Restflüssigkeit aus Gebärmutterhalsabstrichen. Der komplette Workflow und die begleitenden Schulungsressourcen sind im Galaxy Training Network zugänglich, um Nicht-Experten und erfahrene Forscher mit dem notwendigen Wissen und den Werkzeugen auszustatten, um ihre Daten zu analysieren.
Die auf Massenspektrometrie (MS) basierende Metaproteomik identifiziert und quantifiziert mikrobielle und humane Proteine aus klinischen Proben. Dieser Ansatz ermöglicht ein neues Verständnis der Reaktionen des Mikrobioms auf Krankheiten und deckt potenzielle Mediatoren von Wirt-Mikrobiom-Interaktionen auf 1,2. Obwohl die metaproteomische Analyse klinischer Proben die Wechselwirkungen des Mikrobioms mit seiner Wirtsumgebung aufdecken kann, steht das Feld noch vor vielen Herausforderungen. Eine der größten Herausforderungen ist die relativ hohe Abundanz von Wirtsproteinen (human), die die Identifizierung von mikrobiellen Proteinen in geringerer Menge erschwert. Darüber hinaus ist die MS-basierte Metaproteomik auf die Verwendung sehr großer Proteinsequenzdatenbanken angewiesen. Diese Datenbanken umfassen mikrobielle Proteome, die in der Probe vorhanden sind, was zu einer großen Datenbank mit Millionen von Sequenzen führen kann. Nach der Generierung von Tandem-Massenspektrometrie (MS/MS)-Spektren aus tryptisch verdauten Proteinen werden die MS/MS-Spektren mit großen Proteinsequenzdatenbanken abgeglichen, wobei jedem Spektrum eine Peptidsequenz zugeordnet wird (Peptide-Spectrum Match, oder PSM). Die Sensitivität nimmt jedoch ab und das Potenzial für falsch positive Ergebnisse steigt mit großen Datenbanken, die für die Metaproteomik verwendetwerden 3. Darüber hinaus schränken konservierte Proteinsequenzen über Taxa hinweg und eine unzureichende Annotation kodierter Proteine die taxonomischen und funktionellen Annotationen für detektierte Peptide und Proteine ein 4,5. Wir stellen einen bioinformatischen Workflow für die effektive metaproteomische Analyse klinischer Proben vor, der viele dieser Herausforderungen adressiert und Forschern zugängliche Softwareressourcen zur Verfügung stellt, um die Wirt-Mikrobiom-Dynamik zu untersuchen, die der menschlichen Krankheit zugrunde liegt.
Die klinische Metaproteomik wurde zur Untersuchung verschiedener Probentypen eingesetzt, darunter Kot und Vaginalabstriche, um pathogene Mechanismen bei Krankheiten und Zuständen zu entschlüsseln 6,7,8,9,10,11,12,13,14,15,16,17,18 ,19,20. Hier verwenden wir einen metaproteomischen bioinformatischen Workflow, um eine Teilmenge von MS/MS-Daten aus Pap-Testflüssigkeitsproben (PTF) von Eierstockkrebs- (OVCA) und Nicht-OVCA-Patientinnen zu analysieren21. Die Software-Tools und der Workflow sind über die Galaxy-Plattform zugänglich, die die Entwicklung und Ausführung komplexer klinischer metaproteomischer Arbeitsabläufe rationalisiert 22,23,24,25. Galaxy ist eine Open-Source-Plattform, die für Bioinformatik und Computational Biology entwickelt wurde. Es bietet eine webbasierte Umgebung für die Verwendung von Open-Source-Tools und Workflows, in der akademische Forscher komplexe Datenanalysen durchführen und austauschen können. Eine florierende globale Community von Softwareentwicklern, Datenwissenschaftlern und Endbenutzern pflegt das Galaxy-Ökosystem, einschließlich des Galaxy Training Network (GTN; https://training.galaxyproject.org/), das Online- und On-Demand-Schulungsressourcen anbietet 22,23,24,25,26,27. Unser Arbeitsablauf zielt darauf ab, ein neues Verständnis der Wirt-Mikroben-Dynamik in klinischen Proben zu erlangen und neue, gut charakterisierte Peptidziele zu generieren, die für die Entwicklung gezielter MS-basierter klinischer Assays für die weitere Untersuchung klinischer Proben von Interesse sind 6,20,28. Darüber hinaus soll in diesem Manuskript die Methodik des klinischen Metaproteomik-Workflows beleuchtet werden. Detailliertere und anfängerfreundliche Leitfäden finden Sie im GTN (https://training.galaxyproject.org/), da es eine wertvolle Ressource ist, die parallel zu diesem Manuskript für Benutzer verwendet werden kann, die zusätzliche Erklärungen suchen, die nicht abgedeckt sind. Die Galaxy-Community hat zahlreiche Manuskripte verfasst, um Anfängern der Galaxy-Plattform 20,21,22,23,24,25,26,27 zu helfen.
Alle ergänzenden Tabellen (z.B. Werkzeugparameter) und Abbildungen (z.B. Beispielplots) für dieses Manuskript wurden als separate Dateien zur Verfügung gestellt und werden entsprechend referenziert. Für dieses Manuskript wurden aktuelle Tool-Versionen in der Galaxy-Version 2.3.0 verwendet. Daher können die Ergebnisse je nach Galaxy- und Tool-Versionsupdates leicht variieren. Die Galaxy-Plattform und ihre Tools sind Open Source und können für akademische Forschungszwecke verwendet werden.
Access restricted. Please log in or start a trial to view this content.
MS/MS-Spektraldaten wurden aus anonymisierten Rest-PTF-Proben gewonnen, die unter Verwendung von Verfahren entnommen wurden, die den vom institutionellen Vorstand genehmigten Richtlinien und Vorschriften folgten, wie zuvor beschrieben 21,29,30.
HINWEIS: Abbildung 1 gibt einen Überblick über den gesamten Workflow, der aus fünf Modulen besteht. Alle Eingaben, Ausgaben und Softwaretools sind in der ergänzenden Tabelle 1 zusammengefasst.
Abbildung 1: Zusammenfassung der klinischen Metaproteomik-Workflow-Module in Galaxy. Der komplette klinische Metaproteomik-Workflow umfasst fünf Module: Datenbankgenerierung, Entdeckung, Verifizierung, Quantifizierung und Dateninterpretation. (A) Die große, umfassende Datenbank enthält Proteinsequenzen von mikrobiellen Spezies, von denen angenommen wird, dass sie in der Probe vorhanden sind, von Menschen und von häufigen Kontaminanten. Das MetaNovo-Softwaretool glich MS/MS-Spektraldaten direkt mit Peptiden ab und leitete Proteine und ihren Ausgangsorganismus aus MS-Rohdaten und der großen Eingangsproteinsequenzdatenbank ab, wodurch eine reduzierte Datenbank entstand33. Die reduzierte Datenbank von MetaNovo wird dann mit menschlichen und kontaminanten Proteinen zusammengeführt, um die Datenbank für die Peptidforschung zu erstellen. (B)Zwei Peptididentifikationsalgorithmen, SearchGUI/PeptideShaker und MaxQuant, gleichen Peptidsequenzen mit MS/MS-Spektren und der Ziel-Köderprotein-Datenbankab 49. (C)Peptide, die mit SearchGUI/PeptideShaker und MaxQuant identifiziert wurden, werden anschließend mit PepQuery2 verifiziert. PepQuery2 untersucht mutmaßlich identifizierte mikrobielle Peptidsequenzen und ihre übereinstimmenden MS/MS-Spektren rigoros im Vergleich zu anderen potenziellen Übereinstimmungen mit dem Proteom und/oder Kontaminanten des menschlichen Wirts und verifiziert so hochsichere mikrobielle Übereinstimmungen 40,41. Verifizierte Peptide werden verwendet, um eine verifizierte Proteinsequenzdatenbank zu generieren, die für die Peptid- und Proteinquantifizierung verwendet wird. (D) MaxQuant42 durchsucht MS/MS-Daten mit der verifizierten Proteinsequenz und quantifiziert mikrobielle Peptide und abgeleitete Proteine zusammen mit menschlichen Proteinen. (E) Unipept45 und MSstatsTMT46 werden im letzten Schritt verwendet, um Proteine mit taxonomialen und funktionellen Informationen zu annotieren (Enzymkommissionsakzessionen) sowie Vulkan- und Vergleichsplots zu erstellen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
1. TMT-Markierung und Erzeugung von MS/MS-Spektren
2. Einrichtung des Moduls
HINWEIS: Die Auswahl von Schaltflächen/Menüs ist fett gedruckt. Beispieldateien, Workflows und Werkzeugparameter sind über ergänzende Tabellen zugänglich. Weitere Informationen zur Verwendung von Galaxy finden Sie auf der GTN-FAQ-Seite (https://training.galaxyproject.org/training-material/faqs/galaxy/).
3. Modul 1: Generierung von Proteinsequenzdatenbanken
HINWEIS: Wenn ein Benutzer die Beispieleingaben und den Workflow aus der ergänzenden Tabelle 2 verwenden möchte, befolgen Sie bitte die Anweisungen in Abschnitt 2. Importieren Sie für Modul 1 die Eingabe und den Workflow für DATABASE GENERATION. Die Ausgabespalte der ergänzenden Tabelle 2 enthält Beispiele für abgeschlossene Ausgabeverläufe als Referenz. Zu allen Modulen finden Sie das entsprechende GTN-Tutorial in der Ergänzungstabelle 3.
4. Modul 2: Peptid-Entdeckung über Datenbanksuche
HINWEIS: Wenn ein Benutzer die Beispieleingaben und den Workflow aus der ergänzenden Tabelle 2 verwenden möchte, befolgen Sie bitte die Anweisungen in Abschnitt 2. Importieren Sie für Modul 2 die Eingabe und den Workflow für DISCOVERY. Zu allen Modulen finden Sie das entsprechende GTN-Tutorial in der Ergänzungstabelle 3. SearchGUI 34,35,36 und PeptideShaker37 sind separate Software, werden aber als ein Peptididentifikations- und -verarbeitungsprogramm betrachtet, da sie zusammen verwendet werden. Aus Gründen der Softwarekompatibilität werden die MS/MS-Datensätze für SearchGUI/PeptideShaker mit dem msconvert-Tool (im bereitgestellten Workflow) von RAW nach MGF konvertiert. MaxQuant38 kann RAW-Dateien verarbeiten.
5. Modul 3: Verifizierung von mikrobiellen Peptiden
HINWEIS: Wenn ein Benutzer die Beispieleingaben und den Workflow aus der ergänzenden Tabelle 2 verwenden möchte, befolgen Sie bitte die Anweisungen in Abschnitt 2. Importieren Sie für Modul 2 die Eingabe und den Workflow für VERIFICATION. Zu allen Modulen finden Sie das entsprechende GTN-Tutorial in der Ergänzungstabelle 3.
6. Modul 4: MaxQuant-Quantifizierung
HINWEIS: Wenn ein Benutzer die Beispieleingaben und den Workflow aus der ergänzenden Tabelle 2 verwenden möchte, befolgen Sie bitte die Anweisungen in Abschnitt 2. Importieren Sie für Modul 2 die Eingabe und den Workflow für die QUANTIFIZIERUNG. Zu allen Modulen finden Sie das entsprechende GTN-Tutorial in der Ergänzungstabelle 3.
7. Modul 5: Dateninterpretation
HINWEIS: Wenn ein Benutzer die Beispieleingaben und den Workflow aus der ergänzenden Tabelle 2 verwenden möchte, befolgen Sie bitte die Anweisungen in Abschnitt 2. Importieren Sie für Modul 2 die Eingabe und den Workflow für DATA INTERPRETATION. Zu allen Modulen finden Sie das entsprechende GTN-Tutorial in der Ergänzungstabelle 3. Die Ergebnisse der MaxQuant-Quantifizierung im vorherigen Modul werden hier für taxonomische und funktionale Annotationen mit Unipept und statistische Analysen mit MSstatsTMT verwendet. Unipept ermöglicht es Forschern, Mikroorganismen in verschiedenen Umgebungen zu identifizieren und zu quantifizieren und lässt sich in öffentliche Datenbanken (wie UniProt) integrieren, um aktualisierte Annotationen abzurufen. MSstatsTMT wurde für die robuste statistische Analyse von massenspektrometriebasierten quantitativen Proteomik-Daten unter Verwendung der TMT-Markierung entwickelt.
Access restricted. Please log in or start a trial to view this content.
Das hier beschriebene allgemeine Protokoll wurde an MS/MS-Dateien demonstriert, die aus einer Teilmenge von PTF-Proben21 gewonnen wurden. Do et al.21 analysierten vier MS/MS-Dateien aus PTF-Proben, die nach den von Boylan et al.29und Afiuni-Zadel et al.30 beschriebenen Verfahren entnommen wurden. Dieser Arbeitsablauf priorisiert mikrobielle Proteine, bietet aber die Flexibilität für die Char...
Access restricted. Please log in or start a trial to view this content.
Die klinische Metaproteomik-Forschung bietet potenzielle Durchbrüche für klinische Studien, aber Herausforderungen bei der Umsetzung bestehen weiterhin. Die geringere Häufigkeit mikrobieller Proteine im Vergleich zu den Wirtsproteinen in den meisten Proben erschwert den Nachweis und die Charakterisierung von Nicht-Wirtsproteinen 6,10. Die Abhängigkeit von großen Proteinsequenzdatenbanken für eine genaue Peptid- und Proteini...
Access restricted. Please log in or start a trial to view this content.
Die Autoren erklären, dass kein Interessenkonflikt besteht.
Wir danken Dr. Amy Skubitz und Dr. Kristin Boylan (University of Minnesota) für die Pilotdatensätze und Dr. Paul Piehowski, Dr. Tao Liu und Dr. Karin Rodland (Pacific Northwest National Laboratories (PNNL)) für ihre Expertise bei der Probenentnahme und Verarbeitung der PTF-Proben und der Generierung der TMT-markierten MS-Daten, die in dieser Studie verwendet wurden. Dieses Projekt wurde teilweise von der Minnesota Ovarian Cancer Alliance (MOCA), den National Institutes of Health/National Cancer Institute Grant Number: 5R01CA262153 (A.P.N.S.), 1R21CA267707 (P.D.J und T.J.G.) und den National Institutes of Health/National Cancer Institute Grant Number: P30CA077598 (P.D.J. und T.J.G.) finanziert.
Access restricted. Please log in or start a trial to view this content.
Name | Company | Catalog Number | Comments |
Collapse Collection | GalaxyP | Galaxy Version 5.1.1 | Combines a dataset list collection into a single file (in the order of the list) |
Concatenate datasets | GalaxyP | Galaxy Version 0.1.1 | Concatenate files tail-to-head |
Cut | GalaxyP | Galaxy Version 1.0.2 | Cut (select) specified columns from a file |
FASTA Merge Files and Filter Unique Sequences | GalaxyP | Galaxy Version 1.2.0 | Concatenate FASTA database files together |
FastaCLI | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Appends decoy sequences to FASTA files |
FASTA-to-Tablular | GalaxyP | Galaxy Version 1.1.0 | Convert FASTA-formatted sequences to TAB-delimited format |
Filter | GalaxyP | Galaxy Version 1.1.1 | Filter columns using simple expressions |
Filter Tabular | GalaxyP | Galaxy Version 3.3.0 | Filter a tabular file via line filters |
Galaxy Europe (EU) server | GalaxyP | https://usegalaxy.eu/ | |
Group | GalaxyP | Galaxy Version 2.1.4 | Group a file by a particular column and perform aggregate functions |
Identification Parameters | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Set identification parameters for SearchGUI/PeptideShaker |
Learning Pathway: Clinical metaproteomics workflows within Galaxy | GalaxyP | https://training.galaxyproject.org/training-material/learning-pathways/clinical-metaproteomics.html | |
MaxQuant | GalaxyP | Galaxy Version 2.0.3.0+galaxy0 (Discovery module); Galaxy Version 1.6.17.0+galaxy4 (Quantification module) | Quantitative proteomics software package for analysis of large mass spectrometric data files |
MetaNovo | GalaxyP | Galaxy Version 1.9.4+galaxy4 | Search MS/MS data against a FASTA database (of known proteins) to produce a targeted database (of matched proteins) for mass spectrometry analysis |
msconvert | GalaxyP | Galaxy Version 3.0.20287.2 | Convert and/or filter mass spectrometry files |
MSstatsTMT | GalaxyP | Galaxy Version 2.0.0+galaxy1 | R-based package for detection of differentially abundant proteins in shotgun mass spectrometry-based proteomic experiments using tandem mass tag (TMT) labeling |
PepQuery2 | GalaxyP | Galaxy Version 2.0.2+galaxy0 | Peptide-centric search engine for identification and/or validating known and novel peptides of interest |
PeptideShaker | GalaxyP | Galaxy Version 2.0.33+galaxy1 | Interpret results from SearchGUI for protein identification |
Protein Database Downloader | GalaxyP | Galaxy Version 0.3.4 | Download specified protein sequences as a FASTA file |
Query Tabular | GalaxyP | Galaxy Version 3.3.0 | Load tabular files intoa SQLite database |
Remove beginning | GalaxyP | Galaxy Version 1.0.0 | Remove the specified number of (header) lines from a file |
SearchGUI | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Run search engines on MGF peak lists and prepare results for input to Peptide Shaker |
Select | GalaxyP | Galaxy Version 1.0.4 | Select lines that match an expression |
Unipept | GalaxyP | Galaxy Version 4.5.1 | Retrieve UniProt entries and taxonomic information for tryptic peptides |
UniProt | GalaxyP | Galaxy Version 2.3.0 | Download proteome as a XML (UniProtXML) or FASTA file from UniProtKB |
Access restricted. Please log in or start a trial to view this content.
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten