È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.
Method Article
La metaproteomica clinica offre approfondimenti sul microbioma umano e sui suoi contributi alla malattia. Abbiamo sfruttato la potenza computazionale della piattaforma Galaxy per sviluppare un flusso di lavoro bioinformatico modulare che facilita l'analisi metaproteomica complessa basata sulla spettrometria di massa e la caratterizzazione di diversi tipi di campioni clinici rilevanti per gli studi sulla malattia.
La metaproteomica clinica rivela le interazioni ospite-microbioma alla base delle malattie. Tuttavia, esistono sfide a questo approccio. In particolare, la caratterizzazione delle proteine microbiche presenti in bassa abbondanza rispetto alle proteine dell'ospite è difficile. Altre sfide significative sono attribuite all'utilizzo di database di sequenze proteiche molto grandi, che ostacolano la sensibilità e l'accuratezza durante l'identificazione di peptidi e proteine dai dati della spettrometria di massa, oltre al recupero della tassonomia e delle annotazioni funzionali e all'esecuzione di analisi statistiche. Per affrontare questi problemi, presentiamo un flusso di lavoro bioinformatico integrato per la metaproteomica basata sulla spettrometria di massa che combina la generazione di database di sequenze proteiche personalizzate, la generazione e la verifica di corrispondenze peptidiche-spettro, la quantificazione, le annotazioni tassonomiche e funzionali e l'analisi statistica. Questo flusso di lavoro offre anche la caratterizzazione delle proteine umane (dando priorità alle proteine microbiche), offrendo così informazioni sulle dinamiche ospite-microbo nella malattia. Gli strumenti e il flusso di lavoro sono implementati nell'ecosistema Galaxy, consentendo lo sviluppo, l'ottimizzazione e la diffusione di queste risorse computazionali. Abbiamo applicato questo flusso di lavoro per l'analisi metaproteomica di numerosi tipi di campioni clinici, come i tamponi nasofaringei e il liquido di lavaggio broncoalveolare. Qui, dimostriamo la sua utilità attraverso l'analisi del liquido residuo dei tamponi cervicali. Il flusso di lavoro completo e le risorse di formazione di accompagnamento sono accessibili su Galaxy Training Network per fornire ai non esperti e ai ricercatori esperti le conoscenze e gli strumenti necessari per analizzare i loro dati.
La metaproteomica basata sulla spettrometria di massa (MS) identifica e quantifica le proteine microbiche e umane da campioni clinici. Questo approccio fornisce una nuova comprensione delle risposte del microbioma alla malattia e scopre potenziali mediatori delle interazioni ospite-microbioma 1,2. Sebbene l'analisi metaproteomica dei campioni clinici possa scoprire le interazioni del microbioma con l'ambiente ospite, il campo deve ancora affrontare molte sfide. Una delle sfide principali è l'abbondanza relativamente elevata di proteine dell'ospite (umane), che ostacola l'identificazione di proteine microbiche meno abbondanti. Inoltre, la metaproteomica basata sulla SM dipende dall'uso di database di sequenze proteiche molto grandi. Questi database comprendono proteomi microbici presenti nel campione, che possono portare a un grande database contenente milioni di sequenze. Dopo la generazione di spettri di spettrometria di massa tandem (MS/MS) da proteine digerite tritticamente, gli spettri MS/MS vengono ricercati in grandi database di sequenze proteiche, abbinando una sequenza peptidica a ciascuno spettro (corrispondenza peptide-spettro, o PSM). Tuttavia, la sensibilità diminuisce e il potenziale di falsi positivi aumenta con database di grandi dimensioni utilizzati per la metaproteomica3. Inoltre, le sequenze proteiche conservate tra i taxa e l'insufficiente annotazione delle proteine codificate limitano le annotazioni tassonomiche e funzionali per i peptidi e le proteine rilevati 4,5. Presentiamo un flusso di lavoro bioinformatico per un'efficace analisi metaproteomica di campioni clinici che affronta molte di queste sfide e fornisce risorse software accessibili ai ricercatori per studiare le dinamiche ospite-microbioma alla base della malattia umana.
La metaproteomica clinica è stata utilizzata per studiare diversi tipi di campioni, tra cui feci e tamponi vaginali, tra gli altri, per decifrare i meccanismi patogenetici in malattie e condizioni 6,7,8,9,10,11,12,13,14,15,16,17,18 ,19,20. Qui, utilizziamo un flusso di lavoro bioinformatico metaproteomico per analizzare un sottoinsieme di dati MS/MS da campioni di liquido per Pap test (PTF) da pazienti con carcinoma ovarico (OVCA) e non OVCA21. Gli strumenti software e il flusso di lavoro sono accessibili tramite la piattaforma Galaxy, che semplifica lo sviluppo e l'esecuzione di complessi flussi di lavoro clinici metaproteomici 22,23,24,25. Galaxy è una piattaforma open source progettata per la bioinformatica e la biologia computazionale. Fornisce un ambiente basato sul web per l'uso di strumenti e flussi di lavoro open source in cui i ricercatori accademici possono eseguire e condividere analisi complesse dei dati. Una fiorente comunità globale di sviluppatori di software, data scientist e utenti finali gestisce l'ecosistema Galaxy, tra cui il Galaxy Training Network (GTN; https://training.galaxyproject.org/), che offre risorse di formazione online e on-demand 22,23,24,25,26,27 . Il nostro flusso di lavoro mira a rivelare una nuova comprensione delle dinamiche ospite-microbio nei campioni clinici, nonché a generare nuovi bersagli peptidici ben caratterizzati di interesse per lo sviluppo di saggi clinici mirati basati sulla SM per ulteriori studi su campioni clinici 6,20,28. Inoltre, questo manoscritto intende evidenziare la metodologia del flusso di lavoro della metaproteomica clinica. Guide più dettagliate e adatte ai principianti sono fornite nel GTN (https://training.galaxyproject.org/) in quanto è una risorsa preziosa che può essere utilizzata in parallelo con questo manoscritto per gli utenti che cercano ulteriori spiegazioni non coperte. La comunità Galaxy è autrice di numerosi manoscritti per aiutare gli utenti principianti della piattaforma Galaxy 20,21,22,23,24,25,26,27.
Tutte le tabelle supplementari (ad es. i parametri degli utensili) e le figure (ad es. grafici di esempio) per questo manoscritto sono state fornite come file separati e sono referenziate di conseguenza. Per questo manoscritto sono state utilizzate le versioni attuali dello strumento all'interno della versione Galaxy 2.3.0. Pertanto, i risultati possono differire leggermente a seconda degli aggiornamenti della versione di Galaxy e dello strumento. La piattaforma Galaxy e i suoi strumenti sono open-source e possono essere utilizzati per scopi di ricerca accademica.
Access restricted. Please log in or start a trial to view this content.
I dati spettrali MS/MS sono stati ottenuti da campioni di PTF residui anonimizzati che sono stati raccolti utilizzando procedure che seguivano le linee guida e i regolamenti approvati dal consiglio istituzionale, come descritto in precedenza 21,29,30.
NOTA: la Figura 1 fornisce una panoramica del flusso di lavoro completo, che consiste di cinque moduli. Tutti gli input, gli output e gli strumenti software sono riassunti nella Tabella supplementare 1.
Figura 1: Riepilogo dei moduli del flusso di lavoro di metaproteomica clinica all'interno di Galaxy. Il flusso di lavoro completo della metaproteomica clinica comprende cinque moduli: generazione di database, scoperta, verifica, quantificazione e interpretazione dei dati. (A) L'ampio database completo include sequenze proteiche di specie microbiche che si ritiene siano presenti nel campione, esseri umani e contaminanti comuni. Lo strumento software MetaNovo ha abbinato direttamente i dati spettrali MS/MS ai peptidi e deduce le proteine e il loro organismo di origine dai dati grezzi della MS e dall'ampio database di sequenze proteiche in ingresso, creando un database ridotto33. Il database ridotto di MetaNovo viene quindi unito a proteine umane e contaminanti per creare il database per la scoperta dei peptidi. (B)Due algoritmi di identificazione dei peptidi, SearchGUI/PeptideShaker e MaxQuant, abbinano le sequenze peptidiche agli spettri MS/MS e al database di proteine bersaglio-esca49. (e)I peptidi identificati da SearchGUI/PeptideShaker e MaxQuant vengono successivamente verificati utilizzando PepQuery2. PepQuery2 riesamina rigorosamente le sequenze peptidiche microbiche putativamente identificate e i loro spettri MS/MS corrispondenti rispetto ad altre potenziali corrispondenze con il proteoma dell'ospite umano e/o i contaminanti, verificando così le corrispondenze microbiche ad alta sicurezza40,41. I peptidi verificati vengono utilizzati per generare un database di sequenze proteiche verificate che verrà utilizzato per la quantificazione di peptidi e proteine. (D) MaxQuant42 ricerca i dati MS/MS rispetto alla sequenza proteica verificata e quantifica i peptidi microbici e le proteine dedotte insieme alle proteine umane. (E) Unipept45 e MSstatsTMT46 vengono utilizzati nella fase finale per annotare le proteine con tassonomia e informazioni funzionali (accessioni di commissioni enzimatiche), nonché per generare grafici di vulcano e di confronto. Clicca qui per visualizzare una versione più grande di questa figura.
1. Marcatura TMT e generazione di spettri MS/MS
2. Configurazione del modulo
NOTA: Le selezioni dei pulsanti/menu sono in grassetto. I file di esempio, i flussi di lavoro e i parametri degli strumenti sono accessibili tramite tabelle supplementari. Ulteriori informazioni su come utilizzare Galaxy sono disponibili nella pagina delle domande frequenti su GTN (https://training.galaxyproject.org/training-material/faqs/galaxy/).
3. Modulo 1: Generazione di database di sequenze proteiche
NOTA: se un utente desidera utilizzare gli input di esempio e il flusso di lavoro della Tabella supplementare 2, assicurarsi di seguire le istruzioni nella sezione 2. Per il Modulo 1, importare l'input e il flusso di lavoro per la GENERAZIONE DEL DATABASE. La colonna di output della Tabella supplementare 2 include esempi di cronologie di output completate come riferimento. Per tutti i moduli, il tutorial GTN corrispondente è disponibile nella Tabella supplementare 3.
4. Modulo 2: Scoperta di peptidi tramite ricerca in database
NOTA: Se un utente desidera utilizzare gli input di esempio e il flusso di lavoro della Tabella supplementare 2, assicurarsi di seguire le istruzioni nella Sezione 2. Per il Modulo 2, importare l'input e il flusso di lavoro per DISCOVERY. Per tutti i moduli, il tutorial GTN corrispondente è disponibile nella Tabella supplementare 3. SearchGUI 34,35,36 e PeptideShaker 37 sono software separati, ma saranno considerati come un unico programma di identificazione ed elaborazione dei peptidi in quanto vengono utilizzati in tandem. Per la compatibilità del software, i set di dati MS/MS verranno convertiti da RAW a MGF per SearchGUI/PeptideShaker utilizzando lo strumento msconvert (nel flusso di lavoro fornito). MaxQuant38 è in grado di elaborare file RAW.
5. Modulo 3: Verifica dei peptidi microbici
NOTA: Se un utente desidera utilizzare gli input di esempio e il flusso di lavoro della Tabella supplementare 2, assicurarsi di seguire le istruzioni nella Sezione 2. Per il Modulo 2, importare l'input e il flusso di lavoro per VERIFICATION. Per tutti i moduli, il tutorial GTN corrispondente è disponibile nella Tabella supplementare 3.
6. Modulo 4: Quantificazione MaxQuant
NOTA: Se un utente desidera utilizzare gli input di esempio e il flusso di lavoro della Tabella supplementare 2, assicurarsi di seguire le istruzioni nella Sezione 2. Per il Modulo 2, importare l'input e il flusso di lavoro per la QUANTIFICAZIONE. Per tutti i moduli, il tutorial GTN corrispondente è disponibile nella Tabella supplementare 3.
7. Modulo 5: Interpretazione dei dati
NOTA: Se un utente desidera utilizzare gli input di esempio e il flusso di lavoro della Tabella supplementare 2, assicurarsi di seguire le istruzioni nella Sezione 2. Per il Modulo 2, importare l'input e il flusso di lavoro per l'INTERPRETAZIONE DEI DATI. Per tutti i moduli, il tutorial GTN corrispondente è disponibile nella Tabella supplementare 3. I risultati della quantificazione MaxQuant del modulo precedente saranno utilizzati per le annotazioni tassonomiche e funzionali utilizzando Unipept e per l'analisi statistica utilizzando MSstatsTMT. Unipept consente ai ricercatori di identificare e quantificare i microrganismi all'interno di ambienti diversi e si integra con database pubblici (come UniProt) per recuperare annotazioni aggiornate. MSstatsTMT è stato progettato per un'analisi statistica robusta di dati di proteomica quantitativa basati sulla spettrometria di massa utilizzando l'etichettatura TMT.
Access restricted. Please log in or start a trial to view this content.
Il protocollo generale qui descritto è stato dimostrato su file MS/MS ottenuti da un sottoinsieme di campioni di PTF21. Do et al.21 hanno analizzato quattro file MS/MS da campioni di PTF che sono stati raccolti seguendo le procedure descritte da Boylan et al.29e Afiuni-Zadel et al.30. Questo flusso di lavoro dà priorità alle proteine microbiche, ma offre la flessibilità per la caratterizza...
Access restricted. Please log in or start a trial to view this content.
La ricerca clinica in metaproteomica offre potenziali scoperte per gli studi clinici, ma persistono sfide nella sua implementazione. La minore abbondanza di proteine microbiche rispetto alle proteine ospiti nella maggior parte dei campioni ostacola il rilevamento e la caratterizzazione delle proteine non ospiti 6,10. Anche la dipendenza da grandi database di sequenze proteiche per l'identificazione e la quantificazione accurata d...
Access restricted. Please log in or start a trial to view this content.
Gli autori dichiarano di non avere conflitti di interesse.
Ringraziamo la Dott.ssa Amy Skubitz e la Dott.ssa Kristin Boylan (Università del Minnesota) per i set di dati pilota e il Dott. Paul Piehowski, il Dott. Tao Liu e la Dott.ssa Karin Rodland (Pacific Northwest National Laboratories (PNNL)) per la loro esperienza nella raccolta dei campioni e nell'elaborazione dei campioni PTF e nella generazione dei dati MS marcati con TMT utilizzati in questo studio. Questo progetto è stato finanziato in parte dalla Minnesota Ovarian Cancer Alliance (MOCA), dal National Institutes of Health/National Cancer Institute Grant Number: 5R01CA262153 (A.P.N.S.), 1R21CA267707 (P.D.J e T.J.G.), e dal National Institutes of Health/National Cancer Institute Grant Number: P30CA077598 (P.D.J. e T.J.G.).
Access restricted. Please log in or start a trial to view this content.
Name | Company | Catalog Number | Comments |
Collapse Collection | GalaxyP | Galaxy Version 5.1.1 | Combines a dataset list collection into a single file (in the order of the list) |
Concatenate datasets | GalaxyP | Galaxy Version 0.1.1 | Concatenate files tail-to-head |
Cut | GalaxyP | Galaxy Version 1.0.2 | Cut (select) specified columns from a file |
FASTA Merge Files and Filter Unique Sequences | GalaxyP | Galaxy Version 1.2.0 | Concatenate FASTA database files together |
FastaCLI | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Appends decoy sequences to FASTA files |
FASTA-to-Tablular | GalaxyP | Galaxy Version 1.1.0 | Convert FASTA-formatted sequences to TAB-delimited format |
Filter | GalaxyP | Galaxy Version 1.1.1 | Filter columns using simple expressions |
Filter Tabular | GalaxyP | Galaxy Version 3.3.0 | Filter a tabular file via line filters |
Galaxy Europe (EU) server | GalaxyP | https://usegalaxy.eu/ | |
Group | GalaxyP | Galaxy Version 2.1.4 | Group a file by a particular column and perform aggregate functions |
Identification Parameters | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Set identification parameters for SearchGUI/PeptideShaker |
Learning Pathway: Clinical metaproteomics workflows within Galaxy | GalaxyP | https://training.galaxyproject.org/training-material/learning-pathways/clinical-metaproteomics.html | |
MaxQuant | GalaxyP | Galaxy Version 2.0.3.0+galaxy0 (Discovery module); Galaxy Version 1.6.17.0+galaxy4 (Quantification module) | Quantitative proteomics software package for analysis of large mass spectrometric data files |
MetaNovo | GalaxyP | Galaxy Version 1.9.4+galaxy4 | Search MS/MS data against a FASTA database (of known proteins) to produce a targeted database (of matched proteins) for mass spectrometry analysis |
msconvert | GalaxyP | Galaxy Version 3.0.20287.2 | Convert and/or filter mass spectrometry files |
MSstatsTMT | GalaxyP | Galaxy Version 2.0.0+galaxy1 | R-based package for detection of differentially abundant proteins in shotgun mass spectrometry-based proteomic experiments using tandem mass tag (TMT) labeling |
PepQuery2 | GalaxyP | Galaxy Version 2.0.2+galaxy0 | Peptide-centric search engine for identification and/or validating known and novel peptides of interest |
PeptideShaker | GalaxyP | Galaxy Version 2.0.33+galaxy1 | Interpret results from SearchGUI for protein identification |
Protein Database Downloader | GalaxyP | Galaxy Version 0.3.4 | Download specified protein sequences as a FASTA file |
Query Tabular | GalaxyP | Galaxy Version 3.3.0 | Load tabular files intoa SQLite database |
Remove beginning | GalaxyP | Galaxy Version 1.0.0 | Remove the specified number of (header) lines from a file |
SearchGUI | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Run search engines on MGF peak lists and prepare results for input to Peptide Shaker |
Select | GalaxyP | Galaxy Version 1.0.4 | Select lines that match an expression |
Unipept | GalaxyP | Galaxy Version 4.5.1 | Retrieve UniProt entries and taxonomic information for tryptic peptides |
UniProt | GalaxyP | Galaxy Version 2.3.0 | Download proteome as a XML (UniProtXML) or FASTA file from UniProtKB |
Access restricted. Please log in or start a trial to view this content.
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon