Unser Forschungsschwerpunkt liegt auf dem Nachweis und der Quantifizierung mikrobieller Proteine und dem Verständnis ihrer Rolle bei klinischen Erkrankungen. Dieses Forschungsgebiet wird als klinische Metaproteomik bezeichnet. In dieser Studie haben wir einen bioinformatischen Workflow entwickelt, der es Forschern ermöglicht zu verstehen, wie die bakterielle Aktivität das Fortschreiten der Krankheit beeinflussen kann.
Die metaproteomische Analyse klinischer Proben stellt zahlreiche Herausforderungen dar, darunter der Umgang mit sehr großen Proteinsequenzdatenbanken für die empfindliche und genaue Identifizierung von mikrobiellen Peptiden und Proteinen aus Massenspektrometriedaten sowie die Durchführung taxonomischer und funktioneller Annotationen von quantifizierten Peptiden und Proteinen, um eine biologische Interpretation der Ergebnisse zu ermöglichen. Der Workflow bietet mehrere Vorteile, darunter die Datenbankreduzierung mit unserem Datenbankreduktions-Workflow, die Möglichkeit, mit mehreren Suchalgorithmen nach mikrobiellen Peptiden zu suchen, die Möglichkeit, mikrobielle Peptide zu verifizieren, die in den Massenspektrometriedaten nachgewiesen wurden, die Möglichkeit, die mikrobiellen Proteine zusammen mit den Wirtsproteinen zu quantifizieren, und die biologische Interpretation der Daten durch statistische und visuelle Analysen. Wir haben den klinischen Metaproteomik-Workflow genutzt, um mikrobielle Peptid-Panels für Studien zur Progression der Mukoviszidose-Krankheit zu identifizieren, um den Koinfektionsstatus während der COVID-19-Pandemiewellen zu untersuchen.
Diese Studien wurden in wissenschaftlichen Fachzeitschriften veröffentlicht, die von Experten begutachtet wurden. Wir verwenden diesen Workflow derzeit für eine laufende Studie, um ein prädiktives Zielpeptid-Panel für Eierstockkrebs zu entwickeln. Das Galaxy P-Team ist an der Multiomik-Forschung beteiligt, und wir entwickeln mehrere fortschrittliche Arbeitsabläufe für die Proteogenomics- und Metaproteomik-Analyse.
Wir arbeiten derzeit auch an der Entwicklung von Arbeitsabläufen für die Immunpeptidomik, die es Forschern ermöglichen werden, Peptide zu erkennen und zu charakterisieren, die dem Immunsystem präsentiert werden, einige während des Fortschreitens der Krebserkrankung, die als Neoantigene bezeichnet werden, und auch bei anderen Krankheiten, bei denen es sich ebenfalls um mikrobielle Peptide handeln könnte. Besorgen Sie sich zunächst eine Liste der Arten, die mit der Krankheit oder dem interessierenden Zustand in Verbindung stehen. Verwenden Sie die Artenlistendatei mit dem Titel Species.
tabellarisch" als Eingabe für UniProt. Laden Sie das Proteom im FASTA-Format herunter, um eine Proteinsequenzdatenbank zu erstellen. Führen Sie den Proteindatenbank-Downloader aus, um zwei zusätzliche Proteinsequenzdatenbanken zu generieren: eine humane Swiss-Prot-Datenbank, die nur überprüfte Einträge enthält, und eine Datenbank für kontaminierte Proteine, die ein gemeinsames Repository für Adventivproteine (cRAP) enthält.
Verwenden Sie die drei Proteindatenbanken als Eingaben für FASTA-Merge-Dateien und filtern Sie einzigartige Sequenzen, um Duplikate auszuschließen. Unter Verwendung der großen Datenbank und des Massenspektrometrie-Datensatzes als Eingaben führen Sie MetaNovo aus, um eine Datenbank mit reduzierten Proteinsequenzen zu generieren, führen Sie dann FASTA-Merge-Dateien aus und filtern Sie einzigartige Sequenzen in der von MetaNovo generierten Datenbank, in humanen Swiss-Prot- und cRAP-Datenbanken, um eine reduzierte Zieldatenbank mit mikrobiellen, menschlichen und kontaminanten Proteinsequenzen für den Peptidnachweis zu erstellen. Execute Search GUI", um eine Archivdatei mit Peptid-Spektrum-Übereinstimmungen (PSMs) zu generieren.
Verwenden Sie die Such-GUI "Archivdatei als Eingabe für Peptide-Shaker", um die PSM-, Peptid- und Proteinberichte zu generieren. Führen Sie MaxQuant aus, um Proteingruppen und Peptiddateien herzustellen. Organisieren Sie mit Hilfe von Textbearbeitungswerkzeugen die erhaltenen Ausgaben von Search GUI, Peptide-Shaker und MaxQuant.
Verketten Sie die beiden Peptidlisten in einem einzigen Datensatz mit der Bezeichnung SGPS-MQ-Peptides.tabular. Gruppieren Sie die Liste der verketteten Peptide, um doppelte Peptidsequenzen zu eliminieren und die endgültige Liste einzigartiger mikrobieller Peptide zu erhalten. Geben Sie für die PepQuery2-Verifizierung die Liste der unterschiedlichen mikrobiellen Peptide, MS-Spektraldatensätze, die humane UniProt-Referenzdatenbank mit Isoformen und die Datenbank mit Kontaminantenproteinsequenzen ein.
Führen Sie Cut" auf den Peptidberichten von Search GUI, Peptide-Shaker und MaxQuant aus, um die Peptidsequenzen und die zugehörigen Proteineinträge zu extrahieren. Verketten Sie die Peptidsequenzen und Proteineinträge aus beiden Programmen, um einen neuen kombinierten Peptidproteindatensatz zu erstellen, und führen Sie dann die Abfragetabelle für den kombinierten Peptidproteindatensatz und die verifizierten Peptide aus, um jedes verifizierte Peptid dem zugehörigen Proteineintrag zuzuweisen. Gruppe, um einzigartige verifizierte Peptide und die zugehörigen UniProt-IDs beizubehalten.
Führen Sie als Nächstes "Query Tabular" aus, um die UniProt-IDs zu extrahieren und eine Liste mit der Bezeichnung Uniprot-ID aus verifizierten Peptides.tabular zu generieren. Laden Sie die UniProt-IDs in UniProt hoch, um die zugehörigen Proteinsequenzen abzurufen und als neue UniProt FASTA-Datei zu speichern. Führen Sie FASTA-Merge-Dateien aus und filtern Sie einzigartige Sequenzen auf dem neu generierten UniProt FASTA, der humanen UniProt-Datenbank mit Isoformen und der cRAP-Kontaminantendatenbank, um eine verifizierte Datenbank für die Peptidquantifizierung zu erstellen.
Verwenden Sie die verifizierte Proteinsequenzdatenbank und den MS-Datensatz als Eingaben für MaxQuant. Wählen Sie aus der MaxQuant-Peptiddatei nur mikrobielle Peptide aus und führen Sie Cut" aus, um nur mikrobielle Peptidsequenzen aus der Auswahldatei zu extrahieren. Gruppieren Sie die Cut"-Datei, um eine Liste quantifizierter mikrobieller Peptide zusammenzustellen.
Verwenden Sie die Datei list-of-quantified-microbial-peptides als Eingabe für Unipept, um taxonomische und funktionelle Annotationen durchzuführen. Extrahieren Sie die Unipept-Outputs, insbesondere den mikrobiellen Taxonomiebaum und den mikrobiellen Enzym-Kommissionsproteinbaum. Um die mikrobielle Taxonomie und die EC-Proteinbäume anzuzeigen, wählen Sie den Datensatz aus und öffnen Sie die Optionen.
Klicken Sie auf Visualisieren, gefolgt von Unipept Taxonomy Viewer. Um die taxonomischen und funktionalen Anmerkungen in einem Tabellenformat anzuzeigen, klicken Sie auf das Augensymbol des tabellarischen Datasets mit dem Namen Unipept_peptinfo. Scrollen Sie, um jedes Peptid in einer eigenen Zeile und den entsprechenden Informationsspalten zu überprüfen.
Bevor Sie eine statistische Analyse mit MSstatsTMT durchführen, führen Sie Select" in der MaxQuant"Proteingruppendatei aus, um separate Datensätze für mikrobielle und menschliche Proteine zu erstellen. Diese Proteine enthalten Taxonomie-Tags, die ihre Herkunft angeben. Schließen Sie alle kontaminanten Proteine aus, die mit dem Tag con_ gekennzeichnet sind.
Behalten Sie nur mikrobielle Proteine mit Tags wie _9laco" und menschliche Proteine mit dem Tag _human" in der Tabelle Microbial_Proteins" bzw. Human_Proteins" tabellarisch auf. Führen Sie schließlich mit MSstatsTMT eine statistische Analyse mit der MaxQuant-Evidenzdatei und den ausgewählten mikrobiellen oder humanen Proteinen durch. Klicken Sie auf das Augensymbol, um die resultierenden Diagramme anzuzeigen.
Insgesamt wurden 2.595.745 Proteinsequenzen in einer umfassenden Datenbank zusammengestellt, die dann auf eine gezieltere Datenbank mit 21.289 Proteinsequenzen für eine effektive Peptididentifizierung reduziert wurde. Mit Hilfe von Search GUI, "Peptide-Shaker" und MaxQuant wurden 196 verschiedene mikrobielle Peptide identifiziert. PepQuery2 bestätigte 134 mikrobielle Peptide, die mit 73 Proteinsequenzen verknüpft sind, und bildete damit eine verifizierte Datenbank für die Quantifizierung.
Die MaxQuant-Analyse lieferte eine Peptiddatei mit 3.203 Peptiden und 155 quantifizierten mikrobiellen Peptiden. Die Unipept-Analyse ergab, dass Lactobacillus die am häufigsten vorkommende Gattung ist und Transferasen der Klasse 2 die am weitesten verbreitete Enzymkategorie unter den 155 quantifizierten mikrobiellen Peptiden. Die MSstatsTMT"-Analyse ergab Vulkan- und Vergleichsdiagramme, die differentiell exprimierte Proteine veranschaulichten und zeigten, dass drei Lactobacillus-Proteine bei Eierstockkrebs im Vergleich zu gutartigen Fällen herunterreguliert waren.