La nostra ricerca si è concentrata sulla rilevazione e la quantificazione delle proteine microbiche e sulla comprensione del loro ruolo nella malattia clinica. Questo campo di ricerca è chiamato metaproteomica clinica. In questo studio, abbiamo sviluppato un flusso di lavoro bioinformatico che consentirà ai ricercatori di capire come l'attività batterica può influenzare la progressione della malattia.
L'analisi metaproteomica dei campioni clinici presenta numerose sfide, tra cui la gestione di database di sequenze proteiche molto grandi per l'identificazione sensibile e accurata di peptidi e proteine microbiche dai dati della spettrometria di massa, oltre all'esecuzione di annotazioni tassonomiche e funzionali di peptidi e proteine quantificati per consentire l'interpretazione biologica dei risultati. Il flusso di lavoro offre molteplici vantaggi, tra cui la riduzione del database utilizzando il nostro flusso di lavoro di riduzione del database, la capacità di cercare peptidi microbici utilizzando più algoritmi di ricerca, la capacità di verificare i peptidi microbici rilevati nei dati della spettrometria di massa, la capacità di quantificare le proteine microbiche insieme alle proteine ospiti e l'interpretazione biologica dei dati utilizzando l'analisi statistica e visiva. Abbiamo utilizzato il flusso di lavoro della metaproteomica clinica per identificare il pannello peptidico microbico per gli studi sulla progressione della malattia della fibrosi cistica per studiare lo stato di co-infezione durante le ondate pandemiche di COVID-19.
Questi studi sono stati pubblicati su riviste accademiche peer-reviewed. Attualmente stiamo utilizzando questo flusso di lavoro per uno studio in corso per sviluppare un pannello predittivo di peptidi bersaglio per il cancro ovarico. Il team Galaxy P è coinvolto nella ricerca multiomica e stiamo sviluppando diversi flussi di lavoro avanzati per l'analisi proteogenomica e metaproteomica.
Attualmente stiamo anche lavorando allo sviluppo di flussi di lavoro per l'immunopeptidomica, che consentiranno ai ricercatori di rilevare e caratterizzare i peptidi presentati al sistema immunitario, alcuni durante la progressione del cancro che sono chiamati neoantigeni, e anche con altre malattie in cui questi potrebbero anche essere peptidi microbici. Per iniziare, ottieni un elenco di specie collegate alla malattia o alla condizione di interesse. Utilizzare il file dell'elenco delle specie intitolato Specie.
tabular" come input per UniProt. Scarica il proteoma in formato FASTA per generare un database di sequenze proteiche. Esegui il downloader del database delle proteine per generare due database di sequenze proteiche aggiuntivi, un database Swiss-Prot umano contenente solo le voci revisionate e un database di proteine contaminanti contenente un repository comune di proteine avventizie, o cRAP.
Utilizza i tre database di proteine come input per i file di unione FASTA e filtra le sequenze univoche per escludere i duplicati. Utilizzando l'ampio database generato e il set di dati di spettrometria di massa come input, eseguire MetaNovo per generare un database di sequenze proteiche ridotte, quindi eseguire i file di unione FASTA e filtrare le sequenze univoche sul database generato da MetaNovo, sui database Swiss-Prot umani e cRAP per creare un database target ridotto contenente sequenze di proteine microbiche, umane e contaminanti per il rilevamento di peptidi. Eseguire la GUI di ricerca per generare un file di archivio contenente corrispondenze dello spettro peptidico o PSM.
Utilizzare il file di archivio della GUI di ricerca come input per Peptide-Shaker, per generare i rapporti PSM, peptidi e proteine. Esegui MaxQuant per produrre gruppi proteici e file di peptidi. Utilizzando gli strumenti di manipolazione del testo, organizzare gli output ottenuti da Search GUI, Peptide-Shaker e MaxQuant.
Concatenare i due elenchi di peptidi in un unico set di dati etichettato SGPS-MQ-Peptides.tabular. Raggruppa l'elenco dei peptidi concatenati per eliminare le sequenze peptidiche duplicate e ottenere l'elenco finale di peptidi microbici unici. Per la verifica di PepQuery2, inserire l'elenco dei peptidi microbici distinti, i set di dati spettrali MS, il database di riferimento UniProt umano con le isoforme e il database delle sequenze proteiche contaminanti.
Esegui Cut"sui rapporti peptidici da Search GUI, Peptide-Shaker"e MaxQuant"per estrarre le sequenze peptidiche e le voci proteiche associate. Concatena le sequenze peptidiche e le voci proteiche di entrambi i programmi per creare un nuovo set di dati combinato di proteine peptidiche, quindi esegui la query tabulare sul set di dati combinato di proteine peptidiche e sui peptidi verificati per assegnare ogni peptide verificato alla voce proteica associata. Gruppo per conservare peptidi verificati univoci e i relativi ID UniProt associati.
Successivamente, esegui Query Tabular"per estrarre gli ID UniProt, generando un elenco etichettato Uniprot-ID da Peptides verificato.tabular. Carica gli ID UniProt su UniProt per recuperare le sequenze proteiche associate e salvarle come nuovo file UniProt FASTA. Esegui i file di unione FASTA e filtra sequenze univoche sul nuovo UniProt FASTA, il database UniProt umano con isoforme e il database dei contaminanti cRAP per creare un database verificato per la quantificazione dei peptidi.
Utilizzate il database di sequenze proteiche verificate e il set di dati MS come input per MaxQuant. Dal file dei peptidi di MaxQuant, selezionare solo i peptidi microbici ed eseguire Cut" per estrarre solo le sequenze di peptidi microbici dal file di selezione. Raggruppa il file "Cut" per compilare un elenco di peptidi microbici quantificati.
Utilizza il file list-of-quantified-microbial-peptides come input per Unipept per eseguire annotazioni tassonomiche e funzionali. Estrarre gli output di Unipept, in particolare l'albero della tassonomia microbica e l'albero delle proteine della commissione enzimatica microbica. Per visualizzare la tassonomia microbica e gli alberi delle proteine EC, selezionare il set di dati e aprire le opzioni.
Fare clic su Visualizza, seguito da Unipept Taxonomy Viewer. Per le annotazioni tassonomiche e funzionali in formato tabellare, fare clic sull'icona a forma di occhio del set di dati tabulare denominato Unipept_peptinfo. Scorri per rivedere ogni peptide sulla propria riga e le colonne di informazioni corrispondenti.
Prima di eseguire l'analisi statistica con MSstatsTMT, eseguire Select"sul file dei gruppi proteici MaxQuant" per creare set di dati separati per proteine microbiche e umane. Queste proteine contengono tag di tassonomia che ne indicano l'origine. Escludere tutte le proteine contaminanti etichettate con l'etichetta con_.
Conserva solo le proteine microbiche con tag come _9laco" e le proteine umane con il tag _human" rispettivamente nella tabella Microbial_Proteins" e Human_Proteins"tabellare. Infine, utilizzando MSstatsTMT, è possibile eseguire analisi statistiche con il file di prove MaxQuant e le proteine microbiche o umane selezionate. Fare clic sull'icona a forma di occhio per visualizzare i grafici risultanti.
Un totale di 2.595.745 sequenze proteiche sono state compilate in un database completo, che è stato poi ridotto a un database più mirato contenente 21.289 sequenze proteiche per un'efficace identificazione dei peptidi. Utilizzando l'interfaccia grafica di ricerca, Peptide-Shaker e MaxQuant, sono stati identificati 196 peptidi microbici distinti. PepQuery2 ha confermato 134 peptidi microbici collegati a 73 sequenze proteiche, formando un database verificato per la quantificazione.
MaxQuant ha fornito un file di peptidi contenente 3.203 peptidi, con 155 peptidi microbici quantificati. L'analisi Unipept ha rivelato che i lactobacillus sono il genere più abbondante e le transferasi di classe 2 sono la categoria enzimatica più diffusa tra i 155 peptidi microbici quantificati. L'analisi MSstatsTMT ha prodotto grafici di vulcano e di confronto che illustrano proteine differenzialmente espresse, dimostrando che tre proteine lactobacillus erano sottoregolate nei casi di cancro ovarico rispetto ai casi benigni.