Nosso foco de pesquisa tem sido detectar e quantificar proteínas microbianas e entender seu papel na doença clínica. Este campo de pesquisa é chamado de metaproteômica clínica. Neste estudo, desenvolvemos um fluxo de trabalho de bioinformática que permitirá aos pesquisadores entender como a atividade bacteriana pode influenciar a progressão da doença.
A análise metaproteômica de amostras clínicas apresenta inúmeros desafios, incluindo o manuseio de bancos de dados de sequências de proteínas muito grandes para identificação sensível e precisa de peptídeos microbianos e proteínas a partir de dados de espectrometria de massa, além de realizar anotações taxonômicas e funcionais de peptídeos e proteínas quantificados para permitir a interpretação biológica dos resultados. O fluxo de trabalho oferece várias vantagens, incluindo a redução do banco de dados usando nosso fluxo de trabalho de redução do banco de dados, a capacidade de pesquisar peptídeos microbianos usando vários algoritmos de pesquisa, a capacidade de verificar peptídeos microbianos detectados nos dados de espectrometria de massa, a capacidade de quantificar as proteínas microbianas junto com as proteínas do hospedeiro e a interpretação biológica dos dados usando análise estatística e visual. Utilizamos o fluxo de trabalho de metaproteômica clínica para identificar o painel de peptídeos microbianos para estudos de progressão da doença de fibrose cística para estudar o status de coinfecção durante as ondas pandêmicas de COVID-19.
Esses estudos foram publicados em revistas acadêmicas revisadas por pares. Atualmente, estamos usando esse fluxo de trabalho para um estudo em andamento para desenvolver um painel preditivo de peptídeos-alvo para câncer de ovário. A equipe do Galaxy P está envolvida na pesquisa multiômica e estamos desenvolvendo vários fluxos de trabalho avançados para análise de proteogenômica e metaproteômica.
Atualmente, também estamos trabalhando no desenvolvimento de fluxos de trabalho para imunopeptidomia , que permitirão aos pesquisadores detectar e caracterizar peptídeos apresentados ao sistema imunológico, alguns durante a progressão do câncer, chamados de neoantígenos, e também com outras doenças em que também podem ser peptídeos microbianos. Para começar, obtenha uma lista de espécies que estão ligadas à doença ou à condição de interesse. Use o arquivo de lista de espécies intitulado Espécies.
tabular"como a entrada para UniProt. Baixe o proteoma no formato FASTA para gerar um banco de dados de sequências de proteínas. Execute o downloader do banco de dados de proteínas para gerar dois bancos de dados de sequência de proteínas adicionais, um banco de dados Swiss-Prot humano contendo apenas entradas revisadas e um banco de dados de proteínas contaminantes contendo um repositório comum de proteínas adventícias, ou cRAP.
Use os três bancos de dados de proteínas como entradas para arquivos de mesclagem FASTA e filtre sequências exclusivas para excluir duplicatas. Usando o grande banco de dados gerado e o conjunto de dados de espectrometria de massa como entradas, execute o MetaNovo para gerar um banco de dados de sequência de proteína reduzida e, em seguida, execute os arquivos de mesclagem FASTA e filtre sequências exclusivas no banco de dados gerado pelo MetaNovo, bancos de dados Swiss-Prot humano e cRAP para criar um banco de dados de destino reduzido contendo sequências de proteínas microbianas, humanas e contaminantes para detecção de peptídeos. Execute a GUI de pesquisa" para gerar um arquivo contendo correspondências de espectro de peptídeos ou PSMs.
Use o arquivo de arquivo da GUI de pesquisa como entrada para o Peptide-Shaker" para gerar os relatórios de PSM, peptídeos e proteínas. Execute MaxQuant"para produzir grupos de proteínas e arquivos de peptídeos. Usando ferramentas de manipulação de texto, organize as saídas obtidas da GUI de pesquisa, Peptide-Shaker" e MaxQuant.
Concatene as duas listas de peptídeos em um único conjunto de dados denominado SGPS-MQ-Peptides.tabular. Agrupe a lista de peptídeos concatenados para eliminar sequências de peptídeos duplicados e obter a lista final de peptídeos microbianos exclusivos. Para verificação do PepQuery2, insira a lista de peptídeos microbianos distintos, conjuntos de dados espectrais de MS, o banco de dados de referência UniProt humano com isoformas e o banco de dados de sequência de proteínas contaminantes.
Execute o corte" nos relatórios de peptídeos da GUI de pesquisa, Peptide-Shaker" e MaxQuant "para extrair as sequências de peptídeos e as entradas de proteínas associadas. Concatene as sequências de peptídeos e as entradas de proteínas de ambos os programas para criar um novo conjunto de dados de proteínas peptídicas combinadas e, em seguida, execute a Tabela de Consulta "no conjunto de dados de proteínas peptídicas combinadas e nos peptídeos verificados para atribuir cada peptídeo verificado à sua entrada de proteína associada. Grupo para reter peptídeos verificados exclusivos e seus IDs UniProt associados.
Em seguida, execute Query Tabular"para extrair os IDs UniProt, gerando uma lista rotulada Uniprot-ID de Peptides.tabular verificado. Carregue os IDs UniProt no UniProt para recuperar as sequências de proteínas associadas e salvá-las como um novo arquivo UniProt FASTA. Execute arquivos de mesclagem FASTA e filtre sequências exclusivas no UniProt FATA recém-gerado, o banco de dados UniProt humano com isoformas e o banco de dados de contaminantes cRAP para criar um banco de dados verificado para quantificação de peptídeos.
Use o banco de dados de sequência de proteína verificada e o conjunto de dados MS como entradas para MaxQuant. No arquivo MaxQuant"peptides, selecione apenas peptídeos microbianos e execute Cut"para extrair apenas sequências de peptídeos microbianos do arquivo de seleção. Agrupe o arquivo Cut para compilar uma lista de peptídeos microbianos quantificados.
Use o arquivo list-of-quantified-microbial-peptides como entrada para que o Unipept execute anotações taxonômicas e funcionais. Extraia as saídas do Unipapt, especificamente a árvore de taxonomia microbiana e a árvore de proteínas de comissão de enzimas microbianas. Para visualizar a taxonomia microbiana e as árvores de proteínas EC, selecione o conjunto de dados e abra as opções.
Clique em Visualizar, seguido de Visualizador de Taxonomia Unipept. Para as anotações taxonômicas e funcionais em um formato de tabela, clique no ícone de olho do conjunto de dados tabular chamado Unipept_peptinfo. Role para revisar cada peptídeo em sua própria linha e suas colunas de informações correspondentes.
Antes de realizar a análise estatística com o MSstatsTMT, execute Select"no arquivo de grupos de proteínas MaxQuant" para criar conjuntos de dados separados para proteínas microbianas e humanas. Essas proteínas contêm tags de taxonomia que indicam sua fonte. Exclua quaisquer proteínas contaminantes marcadas com a etiqueta con_.
Reter apenas proteínas microbianas com marcas como _9laco"e proteínas humanas com a etiqueta _human"na Microbial_Proteins"tabular e Human_Proteins"tabular, respectivamente. Finalmente, usando o MSstatsTMT, realize análises estatísticas com o arquivo de evidências MaxQuant e as proteínas microbianas ou humanas selecionadas. Clique no ícone de olho para visualizar os gráficos resultantes.
Um total de 2.595.745 sequências de proteínas foram compiladas em um banco de dados abrangente, que foi então reduzido a um banco de dados mais direcionado contendo 21.289 sequências de proteínas para identificação eficaz de peptídeos. Usando Search GUI, Peptide-Shaker" e MaxQuant, 196 peptídeos microbianos distintos foram identificados. O PepQuery2 confirmou 134 peptídeos microbianos ligados a 73 sequências de proteínas, formando um banco de dados verificado para quantificação.
A análise MaxQuant forneceu um arquivo de peptídeos contendo 3.203 peptídeos, com 155 peptídeos microbianos quantificados. A análise Unipept revelou lactobacilos como o gênero mais abundante e as transferases classe 2 como a categoria enzimática mais prevalente entre 155 peptídeos microbianos quantificados. A análise MSstatsTMT produziu gráficos de vulcão e comparação ilustrando proteínas expressas diferencialmente, mostrando que três proteínas lactobacilos foram reguladas negativamente em casos de câncer de ovário versus casos benignos.