É necessária uma assinatura da JoVE para visualizar este conteúdo. Faça login ou comece sua avaliação gratuita.
Method Article
A metaproteômica clínica oferece insights sobre o microbioma humano e suas contribuições para a doença. Aproveitamos o poder computacional da plataforma Galaxy para desenvolver um fluxo de trabalho de bioinformática modular que facilita a análise metaproteômica complexa baseada em espectrometria de massa e a caracterização de diversos tipos de amostras clínicas relevantes para estudos de doenças.
A metaproteômica clínica revela interações hospedeiro-microbioma subjacentes a doenças. No entanto, existem desafios para essa abordagem. Em particular, a caracterização de proteínas microbianas presentes em baixa abundância em relação às proteínas do hospedeiro é difícil. Outros desafios significativos são atribuídos ao uso de bancos de dados de sequências de proteínas muito grandes, o que impede a sensibilidade e a precisão durante a identificação de peptídeos e proteínas a partir de dados de espectrometria de massa, além de recuperar taxonomia e anotações funcionais e realizar análises estatísticas. Para resolver esses problemas, apresentamos um fluxo de trabalho de bioinformática integrado para metaproteômica baseada em espectrometria de massa que combina geração de banco de dados de sequência de proteína personalizada, geração e verificação de correspondência de espectro de peptídeos, quantificação, anotações taxonômicas e funcionais e análise estatística. Esse fluxo de trabalho também oferece caracterização de proteínas humanas (priorizando proteínas microbianas), oferecendo insights sobre a dinâmica hospedeiro-micróbio na doença. As ferramentas e o fluxo de trabalho são implantados no ecossistema Galaxy, permitindo o desenvolvimento, otimização e disseminação desses recursos computacionais. Aplicamos esse fluxo de trabalho para análise metaproteômica de vários tipos de amostras clínicas, como swabs nasofaríngeos e fluido de lavagem broncoalveolar. Aqui, demonstramos sua utilidade por meio da análise de fluido residual de swabs cervicais. O fluxo de trabalho completo e os recursos de treinamento que o acompanham estão acessíveis na Galaxy Training Network para equipar pesquisadores não especialistas e experientes com o conhecimento e as ferramentas necessárias para analisar seus dados.
A metaproteômica baseada em espectrometria de massa (MS) identifica e quantifica proteínas microbianas e humanas de amostras clínicas. Essa abordagem fornece uma nova compreensão das respostas do microbioma à doença e revela potenciais mediadores das interações hospedeiro-microbioma 1,2. Embora a análise metaproteômica de amostras clínicas possa revelar as interações do microbioma com seu ambiente hospedeiro, o campo ainda enfrenta muitos desafios. Um dos principais desafios é a abundância relativamente alta de proteínas hospedeiras (humanas), o que dificulta a identificação de proteínas microbianas menos abundantes. Além disso, a metaproteômica baseada em EM depende do uso de bancos de dados de sequências de proteínas muito grandes. Esses bancos de dados compreendem proteomas microbianos presentes na amostra, o que pode resultar em um grande banco de dados contendo milhões de sequências. Após a geração de espectrometria de massa em tandem (MS / MS) a partir de proteínas tripticamente digeridas, os espectros de MS / MS são pesquisados em grandes bancos de dados de sequências de proteínas, combinando uma sequência de peptídeos com cada espectro (correspondência de espectro de peptídeos ou PSM). No entanto, a sensibilidade diminui e o potencial para falsos positivos aumenta com grandes bancos de dados usados para metaproteômica3. Além disso, sequências de proteínas conservadas entre táxons e anotações insuficientes de proteínas codificadas limitam anotações taxonômicas e funcionais para peptídeos e proteínas detectados 4,5. Apresentamos um fluxo de trabalho de bioinformática para análise metaproteômica eficaz de amostras clínicas que aborda muitos desses desafios e fornece recursos de software acessíveis para os pesquisadores investigarem a dinâmica do microbioma hospedeiro subjacente à doença humana.
A metaproteômica clínica tem sido usada para investigar diversos tipos de amostras, incluindo fezes e esfregaços vaginais, entre outros, para decifrar mecanismos patogênicos em doenças e condições 6,7,8,9,10,11,12,13,14,15,16,17,18 ,19,20. Aqui, usamos um fluxo de trabalho de bioinformática metaproteômica para analisar um subconjunto de dados de MS/MS de amostras de fluido de teste de Papanicolau (PTF) de pacientes com câncer de ovário (OVCA) e não OVCA21. As ferramentas de software e o fluxo de trabalho são acessíveis por meio da plataforma Galaxy, que agiliza o desenvolvimento e a execução de fluxos de trabalho metaproteômicos clínicos complexos 22,23,24,25. Galaxy é uma plataforma de código aberto projetada para bioinformática e biologia computacional. Ele fornece um ambiente baseado na web para o uso de ferramentas e fluxos de trabalho de código aberto, onde pesquisadores acadêmicos podem realizar e compartilhar análises de dados complexas. Uma próspera comunidade global de desenvolvedores de software, cientistas de dados e usuários finais mantém o ecossistema Galaxy, incluindo a Galaxy Training Network (GTN; https://training.galaxyproject.org/), que oferece recursos de treinamento on-line e sob demanda 22,23,24,25,26,27. Nosso fluxo de trabalho visa revelar uma nova compreensão da dinâmica hospedeiro-micróbio em amostras clínicas, bem como gerar novos alvos peptídicos de interesse bem caracterizados para o desenvolvimento de ensaios clínicos direcionados baseados em EM para estudos adicionais de amostras clínicas 6,20,28. Além disso, este manuscrito pretende destacar a metodologia de fluxo de trabalho da metaproteômica clínica. Guias mais detalhados e amigáveis para iniciantes são fornecidos no GTN (https://training.galaxyproject.org/), pois é um recurso valioso que pode ser usado em paralelo com este manuscrito para usuários que buscam explicações adicionais não cobertas. A comunidade Galaxy é autora de vários manuscritos para ajudar os usuários iniciantes da plataforma Galaxy 20,21,22,23,24,25,26,27.
Todas as tabelas suplementares (por exemplo, parâmetros de ferramentas) e figuras (por exemplo, gráficos de exemplo) para este manuscrito foram fornecidas como arquivos separados e são referenciadas de acordo. As versões atuais da ferramenta no Galaxy versão 2.3.0 foram usadas para este manuscrito. Portanto, os resultados podem diferir ligeiramente dependendo do Galaxy e das atualizações da versão da ferramenta. A plataforma Galaxy e suas ferramentas são de código aberto e podem ser usadas para fins de pesquisa acadêmica.
Access restricted. Please log in or start a trial to view this content.
Os dados espectrais de MS/MS foram obtidos a partir de amostras residuais de PTF não identificadas que foram coletadas usando procedimentos que seguiram as diretrizes e regulamentos aprovados pelo conselho institucional, conforme descrito anteriormente 21,29,30.
NOTA: A Figura 1 fornece uma visão geral do fluxo de trabalho completo, que consiste em cinco módulos. Todas as entradas, saídas e ferramentas de software estão resumidas na Tabela Suplementar 1.
Figura 1: Resumo dos módulos de fluxo de trabalho de metaproteômica clínica no Galaxy. O fluxo de trabalho completo de metaproteômica clínica compreende cinco módulos: Geração de Banco de Dados, Descoberta, Verificação, Quantificação e Interpretação de Dados. (A) O grande banco de dados abrangente inclui sequências de proteínas de espécies microbianas que se acredita estarem presentes na amostra, humanos e contaminantes comuns. A ferramenta de software MetaNovo combinou diretamente os dados espectrais de MS/MS com peptídeos e infere proteínas e seu organismo de origem a partir de dados brutos de MS e do grande banco de dados de sequência de proteínas de entrada, criando um banco de dados reduzido33. O banco de dados reduzido da MetaNovo é então mesclado com proteínas humanas e contaminantes para criar o banco de dados para descoberta de peptídeos. (B)Dois algoritmos de identificação de peptídeos, SearchGUI / PeptideShaker e MaxQuant, combinam sequências de peptídeos com espectros de MS / MS e o banco de dados de proteínas chamariz-alvo49. (C)Os peptídeos identificados por SearchGUI/PeptideShaker e MaxQuant são verificados em seguida usando PepQuery2. O PepQuery2 reexamina rigorosamente as sequências de peptídeos microbianos supostamente identificadas e seus espectros MS / MS correspondentes em relação a outras correspondências potenciais com o proteoma do hospedeiro humano e / ou contaminantes, verificando assim correspondências microbianas de alta confiança40,41. Os peptídeos verificados são usados para gerar um banco de dados de sequência de proteínas verificadas que será usado para quantificação de peptídeos e proteínas. (D) O MaxQuant42 pesquisa dados de MS/MS em relação à sequência de proteínas verificada e quantifica peptídeos microbianos e proteínas inferidas junto com proteínas humanas. (E) Unipept45 e MSstatsTMT46 são usados na etapa final para anotar proteínas com taxonomia e informações funcionais (acessos de comissão enzimática), bem como gerar gráficos de vulcão e comparação. Clique aqui para ver uma versão maior desta figura.
1. Marcação TMT e geração de espectros MS/MS
2. Configuração do módulo
NOTA: As seleções de botão/menu estão em negrito. Arquivos de exemplo, fluxos de trabalho e parâmetros de ferramenta podem ser acessados por meio de tabelas suplementares. Mais informações sobre como usar o Galaxy podem ser encontradas na página de perguntas frequentes do GTN (https://training.galaxyproject.org/training-material/faqs/galaxy/).
3. Módulo 1: Geração de banco de dados de sequências de proteínas
NOTA: Se um usuário quiser usar as entradas de exemplo e o fluxo de trabalho da Tabela Suplementar 2, certifique-se de seguir as instruções na seção 2. Para o Módulo 1, importe a entrada e o fluxo de trabalho para DATABASE GENERATION. A coluna de saída da Tabela Suplementar 2 inclui exemplos de históricos de saída concluídos para referência. Para todos os módulos, o tutorial GTN correspondente pode ser encontrado na Tabela Suplementar 3.
4. Módulo 2: Descoberta de peptídeos por meio de pesquisa em banco de dados
NOTA: Se um usuário quiser usar as entradas de exemplo e o fluxo de trabalho da Tabela Suplementar 2, certifique-se de seguir as instruções na Seção 2. Para o Módulo 2, importe a entrada e o fluxo de trabalho para DISCOVERY. Para todos os módulos, o tutorial GTN correspondente pode ser encontrado na Tabela Suplementar 3. O SearchGUI 34,35,36 e o PeptideShaker 37 são softwares separados, mas serão considerados como um programa de identificação e processamento de peptídeos, pois são usados em conjunto. Para compatibilidade de software, os conjuntos de dados MS/MS serão convertidos de RAW para MGF para SearchGUI/PeptideShaker usando a ferramenta msconvert (no fluxo de trabalho fornecido). O MaxQuant38 pode processar arquivos RAW.
5. Módulo 3: Verificação de peptídeos microbianos
NOTA: Se um usuário quiser usar as entradas de exemplo e o fluxo de trabalho da Tabela Suplementar 2, certifique-se de seguir as instruções na Seção 2. Para o Módulo 2, importe a entrada e o fluxo de trabalho para VERIFICAÇÃO. Para todos os módulos, o tutorial GTN correspondente pode ser encontrado na Tabela Suplementar 3.
6. Módulo 4: Quantificação MaxQuant
NOTA: Se um usuário quiser usar as entradas de exemplo e o fluxo de trabalho da Tabela Suplementar 2, certifique-se de seguir as instruções na Seção 2. Para o Módulo 2, importe a entrada e o fluxo de trabalho para QUANTIFICAÇÃO. Para todos os módulos, o tutorial GTN correspondente pode ser encontrado na Tabela Suplementar 3.
7. Módulo 5: Interpretação dos dados
NOTA: Se um usuário quiser usar as entradas de exemplo e o fluxo de trabalho da Tabela Suplementar 2, certifique-se de seguir as instruções na Seção 2. Para o Módulo 2, importe a entrada e o fluxo de trabalho para INTERPRETAÇÃO DE DADOS. Para todos os módulos, o tutorial GTN correspondente pode ser encontrado na Tabela Suplementar 3. As saídas da quantificação do MaxQuant no módulo anterior serão usadas aqui para anotações taxonômicas e funcionais usando Unipept e análise estatística usando MSstatsTMT. O Unipept permite que os pesquisadores identifiquem e quantifiquem microrganismos em diversos ambientes e se integra a bancos de dados públicos (como o UniProt) para recuperar anotações atualizadas. O MSstatsTMT foi projetado para análise estatística robusta de dados proteômicos quantitativos baseados em espectrometria de massa usando a marcação TMT.
Access restricted. Please log in or start a trial to view this content.
O protocolo geral descrito aqui foi demonstrado em arquivos MS/MS obtidos de um subconjunto de amostras de PTF21. Do et al.21 analisaram quatro arquivos de SM/MS de amostras de PTF que foram coletadas seguindo os procedimentos descritos por Boylan et al.29e Afiuni-Zadel et al.30. Esse fluxo de trabalho prioriza as proteínas microbianas, mas oferece flexibilidade para a caracterização de pro...
Access restricted. Please log in or start a trial to view this content.
A pesquisa em metaproteômica clínica oferece avanços potenciais para estudos clínicos, mas persistem desafios em sua implementação. A menor abundância de proteínas microbianas em relação às proteínas do hospedeiro na maioria das amostras dificulta a detecção e caracterização de proteínas não hospedeiras 6,10. A dependência de grandes bancos de dados de sequências de proteínas para identificação e quantifica...
Access restricted. Please log in or start a trial to view this content.
Os autores declaram não haver conflito de interesses.
Agradecemos à Dra. Amy Skubitz e à Dra. Kristin Boylan (Universidade de Minnesota) pelos conjuntos de dados piloto e ao Dr. Paul Piehowski, Dr. Tao Liu e Dra. Karin Rodland (Pacific Northwest National Laboratories (PNNL)) por sua experiência na coleta de amostras e processamento das amostras PTF e geração dos dados de MS marcados com TMT usados neste estudo. Este projeto foi financiado em parte pela Minnesota Ovarian Cancer Alliance (MOCA), pelo National Institutes of Health/National Cancer Institute Grant Number: 5R01CA262153 (APNS), 1R21CA267707 (PDJ e TJG) e pelo National Institutes of Health/National Cancer Institute Grant Number: P30CA077598 (PDJ e TJG).
Access restricted. Please log in or start a trial to view this content.
Name | Company | Catalog Number | Comments |
Collapse Collection | GalaxyP | Galaxy Version 5.1.1 | Combines a dataset list collection into a single file (in the order of the list) |
Concatenate datasets | GalaxyP | Galaxy Version 0.1.1 | Concatenate files tail-to-head |
Cut | GalaxyP | Galaxy Version 1.0.2 | Cut (select) specified columns from a file |
FASTA Merge Files and Filter Unique Sequences | GalaxyP | Galaxy Version 1.2.0 | Concatenate FASTA database files together |
FastaCLI | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Appends decoy sequences to FASTA files |
FASTA-to-Tablular | GalaxyP | Galaxy Version 1.1.0 | Convert FASTA-formatted sequences to TAB-delimited format |
Filter | GalaxyP | Galaxy Version 1.1.1 | Filter columns using simple expressions |
Filter Tabular | GalaxyP | Galaxy Version 3.3.0 | Filter a tabular file via line filters |
Galaxy Europe (EU) server | GalaxyP | https://usegalaxy.eu/ | |
Group | GalaxyP | Galaxy Version 2.1.4 | Group a file by a particular column and perform aggregate functions |
Identification Parameters | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Set identification parameters for SearchGUI/PeptideShaker |
Learning Pathway: Clinical metaproteomics workflows within Galaxy | GalaxyP | https://training.galaxyproject.org/training-material/learning-pathways/clinical-metaproteomics.html | |
MaxQuant | GalaxyP | Galaxy Version 2.0.3.0+galaxy0 (Discovery module); Galaxy Version 1.6.17.0+galaxy4 (Quantification module) | Quantitative proteomics software package for analysis of large mass spectrometric data files |
MetaNovo | GalaxyP | Galaxy Version 1.9.4+galaxy4 | Search MS/MS data against a FASTA database (of known proteins) to produce a targeted database (of matched proteins) for mass spectrometry analysis |
msconvert | GalaxyP | Galaxy Version 3.0.20287.2 | Convert and/or filter mass spectrometry files |
MSstatsTMT | GalaxyP | Galaxy Version 2.0.0+galaxy1 | R-based package for detection of differentially abundant proteins in shotgun mass spectrometry-based proteomic experiments using tandem mass tag (TMT) labeling |
PepQuery2 | GalaxyP | Galaxy Version 2.0.2+galaxy0 | Peptide-centric search engine for identification and/or validating known and novel peptides of interest |
PeptideShaker | GalaxyP | Galaxy Version 2.0.33+galaxy1 | Interpret results from SearchGUI for protein identification |
Protein Database Downloader | GalaxyP | Galaxy Version 0.3.4 | Download specified protein sequences as a FASTA file |
Query Tabular | GalaxyP | Galaxy Version 3.3.0 | Load tabular files intoa SQLite database |
Remove beginning | GalaxyP | Galaxy Version 1.0.0 | Remove the specified number of (header) lines from a file |
SearchGUI | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Run search engines on MGF peak lists and prepare results for input to Peptide Shaker |
Select | GalaxyP | Galaxy Version 1.0.4 | Select lines that match an expression |
Unipept | GalaxyP | Galaxy Version 4.5.1 | Retrieve UniProt entries and taxonomic information for tryptic peptides |
UniProt | GalaxyP | Galaxy Version 2.3.0 | Download proteome as a XML (UniProtXML) or FASTA file from UniProtKB |
Access restricted. Please log in or start a trial to view this content.
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados