JUMPn: Uma aplicação simplificada para agrupamento de co-expressão de proteínas e análise de rede em proteômica

David Vanderwall; Poudel Suresh; Yingxue Fu; Ji-Hoon Cho; Timothy I. Shaw; Ashutosh Mishra; Anthony A. High; Junmin Peng; Yuxin Li

doi:10.3791/62796

Autores

Entre em contato

Entrar

É necessária uma assinatura da JoVE para visualizar este conteúdo. Faça login ou comece sua avaliação gratuita.

Neste Artigo

Resumo
Resumo
Introdução
Protocolo
Resultados
Discussão
Divulgações
Agradecimentos
Materiais
Referências
Reimpressões e Permissões

Resumo

Apresentamos uma ferramenta de biologia de sistemas JUMPn para realizar e visualizar análises de rede para dados quantitativos de proteômica, com um protocolo detalhado que inclui pré-processamento de dados, agrupamento de co-expressão, enriquecimento de caminhos e análise de rede de interação proteína-proteína.

Resumo

Com os recentes avanços nas tecnologias de proteômica baseadas em espectrometria de massa, o perfil profundo de centenas de proteomes tornou-se cada vez mais viável. No entanto, obter insights biológicos de tais conjuntos de dados valiosos é um desafio. Aqui introduzimos um software baseado em biologia de sistemas JUMPn, e seu protocolo associado para organizar o proteome em clusters de co-expressão de proteínas em amostras e redes de interação proteína-proteína (PPI) conectadas por módulos (por exemplo, complexos proteicos). Usando a plataforma R/Shiny, o software JUMPn simplifica a análise de agrupamento de co-expressão, enriquecimento de caminhos e detecção de módulos PPI, com visualização integrada de dados e interface amigável. As principais etapas do protocolo incluem a instalação do software JUMPn, a definição de proteínas expressas diferencialmente ou o proteome (dis)regulado, determinação de clusters de co-expressão significativos e módulos PPI, e visualização de resultados. Embora o protocolo seja demonstrado usando um perfil proteome baseado em rotulagem isobáica, o JUMPn é geralmente aplicável a uma ampla gama de conjuntos de dados quantitativos (por exemplo, proteômica livre de rótulos). O software e o protocolo JUMPn fornecem assim uma poderosa ferramenta para facilitar a interpretação biológica em proteômica quantitativa.

Introdução

A proteômica de espingarda baseada em espectrometria em massa tornou-se a abordagem chave para analisar a diversidade de proteomes de amostras complexas¹. Com os recentes avanços na instrumentação de espectrometria de massa ^2,3, cromatografia ^4,5, detecção de mobilidade de íons⁶, métodos de aquisição (independente de dados⁷ e aquisição dependente de dados⁸), abordagens de quantificação (método de rotulagem de peptídeo isobárico multi-plex, por exemplo, TMT ^9,10 e quantificação sem rótulo ^11,12) e método de estratégia de análise de dados/ desenvolvimento de software 13,14,15,16,17,18, quantificação de todo o proteome (por exemplo, mais de 10.000 proteínas) é agora rotina 19,20,21. No entanto, como obter insights mecanicistas a partir de conjuntos de dados quantitativos tão profundos ainda é desafiador²². As tentativas iniciais de investigação desses conjuntos de dados dependiam predominantemente da anotação de elementos individuais dos dados, tratando cada componente (proteína) de forma independente. No entanto, os sistemas biológicos e seu comportamento não podem ser explicados unicamente examinando componentes individuais²³. Portanto, uma abordagem de sistemas que coloca as biomoléculas quantificadas no contexto das redes de interação é essencial para a compreensão de sistemas complexos e dos processos associados, como embriogênese, resposta imune e patogênese das doenças humanas²⁴.

A biologia de sistemas baseados em rede emergiu como um poderoso paradigma para a análise de dados quantitativos de proteômica em larga escala 25,26,27,28,29,30,31,32,33. Conceitualmente, sistemas complexos como células mamíferas poderiam ser modelados como uma rede hierárquica^34,35, na qual todo o sistema é representado em níveis: primeiro por um número de componentes grandes, cada um dos quais então iterativamente modelado por subsistemas menores. Tecnicamente, a estrutura da dinâmica proteome pode ser apresentada por redes interconectadas de aglomerados proteicos co-expressos (porque genes/proteínas co-expressos geralmente compartilham funções biológicas ou mecanismos de regulação³⁶) e módulos PPI interagindo fisicamente³⁷. Como exemplo recente²⁵, geramos perfis temporais de proteome e fosfomésomo durante a ativação de células T e usamos redes integrativas de co-expressão com PPIs para identificar módulos funcionais que mediam a saída de quiescência de células T. Múltiplos módulos relacionados ao bioenergetic foram destacados e validados experimentalmente (por exemplo, os módulos IV mitoribosome e^{complexos 25} e o módulo de um carbono³⁸). Em outro exemplo²⁶, ampliamos ainda mais nossa abordagem para estudar a patogênese da doença de Alzheimer, e priorizamos com sucesso a progressão da doença, módulos e moléculas associadas à progressão da doença. É importante ressaltar que muitas de nossas descobertas imparcial foram validadas por coortes independentes de pacientes^26,29 e/ou modelos de camundongos²⁶. Esses exemplos ilustraram o poder da abordagem da biologia dos sistemas para dissecar mecanismos moleculares com proteômica quantitativa e outras integrações omicais.

Aqui introduzimos o JUMPn, um software simplificado que explora dados quantitativos de proteômica usando abordagens de biologia de sistemas baseados em rede. A JUMPn serve como o componente a jusante do conjunto de software de proteômica JUMP^estabelecido 13,14,39, e tem como objetivo preencher a lacuna desde quantificações proteicas individuais até caminhos biologicamente significativos e módulos proteicos usando a abordagem biológica dos sistemas. Ao tomar a matriz de quantificação de proteínas de PPI expressos diferencialmente (ou a mais variável) como entrada, a JUMPn pretende organizar o proteome em uma hierarquia hierárquica de aglomerados proteicos co-expressos entre amostras e módulos PPI densamente conectados (por exemplo, complexos proteicos), que são ainda mais anotados com bancos de dados de vias públicas por análise de super-representação (ou enriquecimento) (Figura 1). O JUMPn é desenvolvido com a plataforma R/Shiny⁴⁰ para uma interface fácil de usar e integra três módulos funcionais principais: análise de clustering de co-expressão, análise de enriquecimento de caminhos e análise de rede PPI (Figura 1). Após cada análise, os resultados são visualizados automaticamente e são ajustáveis através das funções de widget R/shiny e prontamente para download como tabelas de publicação no formato Microsoft Excel. No protocolo a seguir, utilizamos dados de proteome completo quantitativo como exemplo e descrevemos os principais passos do uso do JUMPn, incluindo a instalação do software JUMPn, a definição de proteínas expressas diferencialmente ou o proteome (dis)regulado, análise de rede de co-expressão e análise de módulos PPI, visualização e interpretação de resultados e soluções de problemas. O software JUMPn está disponível gratuitamente no GitHub⁴¹.

Protocolo

NOTA: Neste protocolo, o uso do JUMPn é ilustrado utilizando um conjunto de dados publicado de perfil proteome inteiro durante a diferenciação de células B quantificada pelo reagente de etiqueta isobáica TMT²⁷.

1. Configuração do software JUMPn

NOTA: Duas opções são fornecidas para configurar o software JUMPn: (i) instalação em um computador local para uso pessoal; e (ii) implantação de JUMPn em um servidor brilhante remoto para vários usuários. Para instalação local, um computador pessoal com acesso à Internet e ≥4 Gb de RAM é suficiente para executar a análise JUMPn para um conjunto de dados com um pequeno tamanho de amostra (n < 30); RAM maior (por exemplo, 16 Gb) é necessário para análise de coorte de grande porte (por exemplo, n = 200 amostras).

Instale o software em um computador local. Após a instalação, permita que o navegador da Web inicie o JUMPn e deixe a análise ser executada no computador local.
1. Instale anaconda⁴² ou miniconda⁴³ seguindo as instruções on-line.
2. Baixe o código-fonte JUMPn⁴¹. Clique duas vezes para descompactar o arquivo baixado JUMPn_v_1.0.0.zip; uma nova pasta chamada JUMPn_v_1.0.0 será criada.
3. Terminal da linha de comando aberto. No Windows, use o Anaconda Prompt. No MacOS, use o aplicativo Terminal integrado.
4. Crie o ambiente JUMPn Conda: Obtenha o caminho absoluto da pasta JUMPn_v_1.0.0 (por exemplo, /path/to/JUMPn_v_1.0.0). Para criar e ativar um ambiente Conda vazio digite os seguintes comandos no terminal
  conda criar -p /path/to/JUMPn_v_1.0.0/JUMPn -y
  conda ativar /path/to/JUMPn_v_1.0.0/JUMPn
5. Instale as dependências do JUMPn: Instale R (no terminal, tipo conda-forge r=4.0.0 -y), altere o diretório atual para a pasta JUMPn_v_1.0.0 (no terminal, digite o caminho do CD/to/JUMPn_v_1.0.0) e instale os pacotes de dependência (no terminal, tipo Rscript bootstrap. R)
6. Inicie o JUMPn no navegador da Web: Altere o diretório atual para a pasta de execução (no terminal, digite execução de CD) e inicie o JUMPn (no terminal, tipo R -e "brilhante::runApp()")
7. Uma vez executado o acima, a tela do terminal aparecerá Ouvindo em http://127.0.0.1:XXXX (aqui XXXX indica 4 números aleatórios). Copie e cole http://127.0.0.1:XXXX no navegador da Web, no qual a página de boas-vindas da JUMPn aparecerá (Figura 2).
Implantação no Servidor Brilhante. Exemplos de Servidor Brilhante incluem o servidor de shinyapps.io comercial ou quaisquer servidores brilhantes suportados institucionalmente.
1. Baixe e instale o RStudio seguindo a instrução⁴⁴.
2. Obtenha a permissão de implantação para o Servidor Brilhante. Para o servidor shinyapps.io, configure a conta do usuário seguindo a instrução⁴⁵. Para o servidor Brilhante institucional, entre em contato com o administrador do servidor para solicitar permissões.
3. Baixe o código-fonte JUMPn⁴¹ para a máquina local; a instalação não é necessária. Abra ou o servidor. R ou ui. Arquivos R no RStudio e clique no menu suspenso publicar para servidor no canto superior direito do IDE RStudio.
4. No painel Publicar para Conta , digite o endereço do servidor. Pressione o botão Publicar . A implantação bem-sucedida é validada mediante redirecionamento automático do RStudio para o servidor RShiny, onde o aplicativo foi implantado.

2. Demo executado usando um conjunto de dados de exemplo

NOTA: A JUMPn oferece uma demonstração usando o conjunto de dados de proteômica de células B publicado. A execução de demonstração ilustra um fluxo de trabalho simplificado que toma a matriz de quantificação de proteínas expressas diferencialmente como entrada e realiza agrupamento de co-expressão, enriquecimento de caminhos e análise de rede PPI sequencialmente.

Na página inicial do JUMPn (Figura 2), clique no botão Iniciar análise para iniciar a análise do JUMPn.
No canto inferior esquerdo da página Análise de Início (Figura 3), clique no botão Upload Demo B Cell Proteomic Data ; uma caixa de diálogo aparecerá notificando o sucesso do upload de dados.
No canto inferior direito da página, clique no botão Enviar análise JUMPn para iniciar a execução de demonstração usando parâmetros padrão; uma barra de progresso aparecerá que denota o curso da análise. Aguarde até que a barra de progresso seja cumprida (3 min esperados).
Uma vez terminado a execução da demonstração, uma caixa de diálogo aparecerá com a mensagem de execução de sucesso e o caminho absoluto para a pasta de resultado. Clique em Continuar para resultados para continuar.
A página da Web guiará primeiro o usuário para os resultados do cluster de co-expressão pelo WGCNA. Clique em Exibir resultados na janela de diálogo para continuar.
Encontre os padrões de co-expressão de proteínas à esquerda da página de resultado 1: WGCNA Output . Clique na caixa de seleção do formato de expressão para navegar entre dois formatos de figura:
1. Selecione Tendências para exibir o enredo de tendências, com cada linha representando abundância de proteínas individuais entre as amostras. A cor de cada linha representa o quão próximo o padrão de expressão está do consenso do cluster de co-expressão (ou seja, "eigengene" definido pelo algoritmo WGCNA).
2. Selecione Boxplot para exibir padrões de co-expressão em formato boxplot para cada amostra.
Veja o mapa de calor do enriquecimento de caminhos/ontologia à direita da página de saída WGCNA. As vias mais enriquecidas para cada cluster são exibidas juntas em um mapa de calor, com a intensidade da cor refletindo o valor p ajustado de Benjamini-Hochberg.
Role para baixo na página da Web para visualizar o padrão de expressão de proteínas individuais.
1. Use a caixa de retirada Selecione o cluster de co-expressão para visualizar proteínas de cada cluster (padrão é Cluster 1). Selecione uma proteína específica na tabela, sobre a qual o gráfico da barra abaixo da tabela será atualizado automaticamente para refletir sua abundância proteica.
2. Pesquise nomes de proteínas específicos usando a caixa de pesquisa no lado direito da tabela para obter uma proteína específica.
Para ver os resultados do PPI, clique na Página de Resultados 2: Saída do PPI na parte superior.
Clique em Selecionar o cluster de co-expressão para exibir os resultados de um cluster específico de co-expressão (o padrão é o cluster 1). As exibições de todos os painéis de figuras nesta página serão atualizadas para o cluster recém-selecionado.
Veja as redes PPI para o cluster de co-expressão selecionado no painel de figuras esquerdas:
1. Clique na caixa de subsistência Select by Group para destacar módulos PPI individuais dentro da rede. Clique na caixa de seleção de formato de rede para alterar o layout da rede (o padrão é de Fruchterman Reingold).
2. Use o mouse e o trackpad para executar as etapas 2.11.3-2.11.5.
3. Amplie ou amplie a rede PPI conforme necessário. Os nomes genéticos de cada nó na rede serão mostrados quando ampliados o suficiente.
4. Quando ampliado, selecione e clique em uma determinada proteína para destacar essa proteína e seus vizinhos de rede.
5. Arraste um certo nó (proteína) na rede para alterar sua posição no layout; assim, o layout da rede pode ser reorganizado pelo usuário.
No painel direito da página de resultado do PPI, visualize as informações de nível de cluster de co-expressão que auxiliam na interpretação dos resultados do PPI:
1. Exibir o padrão de co-expressão do cluster selecionado como boxplot por padrão.
2. Clique na caixa de entrega do Formato de Expressão para obter mais informações ou exibições conforme mencionado nas etapas 2.12.3-2.12.5.
3. Selecione Tendências para mostrar o gráfico de tendências para o padrão de co-expressão.
4. Selecione Pathway Barplot para mostrar caminhos significativamente enriquecidos para o cluster de co-expressão.
5. Selecione Pathway Circle Plot para mostrar caminhos significativamente enriquecidos para o cluster de co-expressão no formato de plot do círculo.
Role para baixo a página de resultado 2: PPI Output webpage para exibir resultados no nível do módulo PPI individual. Clique na caixa de entrada do módulo 'Selecionar' , para selecionar um módulo PPI específico para exibição (Cluster1: O Módulo 1 é mostrado por padrão).
Veja o módulo PPI no painel esquerdo. Para manipular o visor de rede, siga os passos 2.11.2-2.11.5.
Veja os resultados de enriquecimento de caminhos/ontologia no painel direito. Clique na caixa de entrega do Estilo de Anotação do Caminho para obter mais informações e exibir:
1. Selecione Barplot para mostrar caminhos significativamente enriquecidos para o módulo PPI selecionado.
2. Selecione Circle Plot para mostrar caminhos significativamente enriquecidos para o módulo PPI selecionado no formato de um gráfico de círculo.
3. Selecione o Heatmap para mostrar caminhos significativamente enriquecidos e os nomes de genes associados do módulo PPI selecionado.
4. Selecione Tabela para mostrar os resultados detalhados de enriquecimento da via, incluindo o nome de termos de caminhos/ontologia, nomes de genes e o valor P pelo teste exato de Fisher.
Veja a tabela de publicação em formato de planilha: siga o caminho absoluto (impresso na parte superior das duas páginas de resultados) e encontre a tabela de planilha de publicação chamada ComprehensiveSummaryTables.xlsx.

3. Preparação do arquivo de entrada e upload para JUMPn

NOTA: JUMPn toma como entrada a matriz de quantificação das proteínas expressas diferencialmente (método supervisionado) ou das proteínas mais variáveis (método não supervisionado). Se o objetivo do projeto é entender as proteínas alteradas em múltiplas condições (por exemplo, diferentes grupos de doenças ou análise em série temporal do processo biológico), é preferido o método supervisionado de realização da análise DE; caso contrário, uma abordagem não supervisionada de selecionar as proteínas mais variáveis pode ser usada para fins exploratórios.

Gerar a tabela de quantificação de proteínas, com cada proteína como linhas e cada amostra como colunas. Consiga isso através do moderno pacote de software de software proteômico baseado em espectrometria de massa moderno (por exemplo, suíte JUMP 13,14,39, Proteome Discoverer, Maxquant ^15,46).
Defina o proteome variável.
1. Utilize os resultados da análise estatística fornecidos pelo conjunto de software de proteômica para definir proteínas de DE expressos diferencialmente (por exemplo, com valor p ajustado < 0,05).
2. Alternativamente, os usuários podem seguir o exemplo R code⁴⁷ para definir tanto DE quanto a maioria das proteínas variáveis.
Formate o arquivo de entrada usando o proteome variável definido.
NOTA: O formato de arquivo de entrada necessário (Figura 4) inclui uma linha de cabeçalho; as colunas incluem adesão de proteínas (ou quaisquer IDs exclusivos), GN (símbolos genéticos oficiais), descrição da proteína (ou qualquer informação fornecida pelo usuário), seguida pela quantificação proteica de amostras individuais.
1. Siga a ordem das colunas especificadas na etapa 3.1, mas os nomes das colunas do cabeçalho são flexíveis para o usuário.
2. Para mMT (ou similar) proteome quantificado, use a intensidade resumida do repórter TMT como valores de quantificação de entrada. Para dados sem rótulos, use contagens espectrais normalizadas (por exemplo, NSAF⁴⁸) ou método baseado em intensidade (por exemplo, intensidade de LFQ ou intensidade de proteína iBAQ relatada por Maxquant⁴⁶).
3. Valores perdidos são permitidos para análise de JUMPn. Certifique-se de rotulá-los como NA na matriz de quantificação. No entanto, recomenda-se usar apenas proteínas com quantificação em mais de 50% das amostras.
4. Salve o arquivo de entrada resultante como .txt, .xlsx ou .csv formato (todos os três são suportados pela JUMPn).
Upload de arquivo de entrada:
1. Clique no botão Navegador e selecione o arquivo de entrada (Figura 3, painel esquerdo); o formato do arquivo (xlsx, csv e txt são suportados) será detectado automaticamente.
2. Se o arquivo de entrada contiver valores de quantificação semelhantes à intensidade (por exemplo, aqueles gerados pelo conjunto JUMP³⁹) ou proporções (por exemplo, do Proteome Discoverer), selecione Sim para a Opção executar Log2-Transformation of Data Option; caso contrário, os dados podem já ter sido transformados em log, então selecione Não para esta opção.

4. Análise de agrupamento de co-expressão

NOTA: Nosso grupo 25,26,27 e outros 28,29,31 provaram o WGCNA⁴⁹ um método eficaz para a análise de agrupamento de co-expressão de proteômica quantitativa. A JUMPn segue um procedimento de 3 etapas para a análise do WGCNA^25,50: (i) definição inicial de aglomerados genéticos/proteicos de co-expressão por corte dinâmico de árvores⁵¹ com base na matriz de sobreposição topológica (TOM; determinada por semelhanças de quantificação entre genes/proteínas); (ii) fusão de clusters semelhantes para reduzir a redundância (com base no dendrograma das similaridades do eigengene); e (iii) atribuição final de genes/proteínas a cada aglomerado que exceda o corte mínimo de correlação de Pearson.

Configure os parâmetros WGCNA (Figura 3, painel médio). Os três parâmetros a seguir controlam as três etapas, respectivamente:
1. Defina o tamanho mínimo do cluster como 30. Este parâmetro define o número mínimo de proteínas necessárias para cada aglomerado de co-expressão na etapa inicial (i) do corte dinâmico híbrido baseado em TOM. Quanto maior o valor, menor o número de clusters devolvidos pelo algoritmo.
2. Definir a distância mínima do cluster como 0,2. O aumento desse valor (por exemplo, de 0,2 para 0,3) pode causar mais fusão de clusters durante a etapa (ii), resultando em um número menor de clusters.
3. Definir kME mínimo como 0,7. As proteínas serão atribuídas ao cluster mais correlacionado definido na etapa (ii), mas apenas proteínas com correlação de Pearson passando por esse limiar serão mantidas. As proteínas que falharem nesta etapa não serão atribuídas a nenhum cluster (cluster'NA' para as proteínas falhadas no relatório final).
Inicie a análise. Existem duas maneiras de submeter a análise de agrupamento de co-expressão:
1. Clique no botão Enviar análise JUMPn no canto inferior direito para iniciar a análise abrangente do WGCNA automaticamente seguido pela análise de rede PPI.
2. Alternativamente, selecione executar apenas a etapa WGCNA (especialmente para fins de ajuste de parâmetros; veja as etapas 4.2.3-4.2.4):
3. Clique no botão Parâmetros Avançados na parte inferior da página Análise de Início ; uma nova janela de parâmetros aparecerá. No widget inferior, selecione Modo de Análise, selecione WGCNA Somente e clique em Descartar para continuar.
4. Na página Análise de Início , clique no botão Enviar análise JUMPn .
5. Em ambos os casos acima, uma barra de progresso aparecerá após a submissão da análise.
  NOTA: Uma vez concluída a análise (tipicamente < 1 min para análise apenas do WGCNA e <3 min para análise abrangente), uma caixa de diálogo aparecerá com uma mensagem de execução de sucesso e o caminho absoluto para a pasta de resultado.
Examine os resultados do WGCNA conforme ilustrado nas etapas 2.4-2.8 (Figura 5). Observe que o caminho absoluto para o arquivo co_exp_clusters_3colums.txt é destacado no topo da Página de Resultados: WGCNA Output para registrar a adesão de cluster de cada proteína e usá-la como entrada para a análise apenas do PPI .
Solucionando problemas. São discutidos os três casos comuns a seguir. Uma vez atualizados os parâmetros conforme discutido abaixo, siga as etapas 4.2.2-4.2.4 para gerar novos resultados do WGCNA.
1. Se um importante padrão de co-expressão é esperado a partir dos dados, mas perdido pelo algoritmo, siga os passos 4.4.2-4.4.4.4
2. Um aglomerado ausente é especialmente provável para pequenos clusters de co-expressão, ou seja, apenas um número limitado (por exemplo, <30) de proteínas que exibem esse padrão. Antes da re-análise, reexamine o arquivo de entrada da matriz de quantificação proteica e localize várias proteínas de controle positivas que aderem a esse importante padrão de co-expressão.
3. Para resgatar os pequenos clusters, diminua o Tamanho do Cluster Mínimo (por exemplo, 10; tamanho de cluster inferior a 10 não pode ser robusto, portanto, não recomendado), e diminua a Distância Mínima de Cluster (por exemplo, 0,1; aqui também é permitido a configuração como 0, o que significa que a fusão automática de clusters será ignorada).
4. Depois de executar a etapa de agrupamento de co-expressão com os parâmetros atualizados, primeiro, verifique se o cluster é resgatado das Parcelas de Padrão de Co-Expressão e, em seguida, verifique os controles positivos pesquisando suas adesões proteicas a partir de Quantificação de Proteína detalhada (certifique-se de selecionar o cluster de co-expressão apropriado do widget de esquerda antes da pesquisa).
  NOTA: Podem ser necessárias várias iterações de ajuste de parâmetros e reprises para o resgate.
5. Se houver muitas proteínas que não podem ser atribuídas a qualquer aglomerado, siga as etapas 4.4.6-4.4.7.
  NOTA: Normalmente, uma pequena porcentagem (tipicamente <10%) das proteínas pode não ser atribuída a qualquer aglomerado, pois essas podem ser proteínas mais estranhas que não seguiram nenhum dos padrões comuns de expressão do conjunto de dados. No entanto, se esse percentual é significativo (por exemplo, >30%), sugere que existem padrões adicionais de co-expressão que não podem ser ignorados.
6. Diminua tanto os parâmetros de distância do cluster mínimo quanto os de distância mínima do cluster para aliviar essa situação, detectando "novos" clusters de co-expressão.
7. Além disso, diminua o parâmetro Minimal Pearson Correlation (kME) para encolher essas proteínas 'na cluster'.
  NOTA: A sintonia deste parâmetro não gerará novos clusters, mas aumentará o tamanho dos clusters 'existentes', aceitando proteínas com falha mais prévia com o limiar inferior; no entanto, isso também aumentará a heterogeneidade de cada aglomerado, uma vez que proteínas mais ruidosas são agora permitidas.
8. Dois clusters têm uma diferença muito pequena de padrões; mesclá-los em um cluster seguindo as etapas 4.4.9-4.4.11.
9. Aumente o parâmetro Distância do Cluster Mínimo para resolver o problema.
10. No entanto, em algumas situações, o algoritmo pode nunca retornar o padrão desejado; em tal instante, ajuste manualmente ou edite a adesão ao cluster no arquivo co_exp_clusters_3colums.txt (arquivo da etapa 4.3) para mesclar.
11. Tome o arquivo pós-editado como entrada para a análise de rede PPI a jusante. Em caso de edição manual, justifique os critérios de atribuição do cluster e regise o procedimento de edição manual.

5. Análise da rede de interação proteína-proteína

NOTA: Ao sobrepor clusters de co-expressão na rede PPI, cada cluster de co-expressão é ainda mais estratificado em módulos PPI menores. A análise é realizada para cada cluster de co-expressão e inclui dois estágios: no primeiro estágio, o JUMPn sobrepõe proteínas do cluster de co-expressão para a rede PPI e encontra todos os componentes conectados (ou seja, múltiplos clusters de nós/proteínas conectados; como exemplo, ver Figura 6A); em seguida, comunidades ou módulos (de nódulos densamente conectados) serão detectados para cada componente conectado iterativamente usando o método⁵² da matriz de sobreposição topológica (TOM).

Configure parâmetros para análise de rede PPI (Figura 3, painel direito).
1. Ajuste o tamanho do módulo PPI mínimo como 2. Este parâmetro define o tamanho mínimo dos componentes desconectados da análise do primeiro estágio. Qualquer componente menor do que o parâmetro especificado será removido dos resultados finais.
2. Defina o tamanho do módulo Maximal PPI como 40. Componentes grandes e desconectados que passam por esse limiar passarão por uma análise baseada em TOM de segundo estágio. A análise do segundo estágio dividirá ainda mais cada componente grande em módulos menores: cada módulo presumivelmente contém proteínas mais densamente conectadas do que o componente original como um todo.
Inicie a análise. Existem duas maneiras de enviar a análise da rede PPI:
1. Aperte o botão Enviar análise JUMPn para executar automaticamente a análise do PPI após a análise do WGCNA por padrão.
2. Alternativamente, carregue resultados personalizados do cluster de co-expressão e realize a análise apenas do PPI seguindo as etapas 5.2.3-5.2.5.
3. Prepare o arquivo de entrada seguindo o formato do arquivo co_exp_clusters_3colums.txt (ver subseção 4.4).
4. Clique no botão Parâmetros Avançados na parte inferior da página Análise de Início ; uma nova janela de parâmetros aparecerá. Na sessão superior Upload Co-Expression Cluster Result for 'PPI Only' Analysis, clique em Navegador para carregar o arquivo de entrada preparado pela etapa 5.2.3.
5. No widget inferior, selecione o modo de análise, selecione apenas PPI e clique em Descartar para continuar. Na página Análise de Início , clique no botão Enviar análise JUMPn .
Uma vez concluída a análise (tipicamente <3 min), examine os resultados do PPI como ilustrados nas etapas 2.10-2.15 (Figura 6).
Etapa avançada opcional) Ajuste a modularização do PPI por meio de parâmetros de ajuste:
1. Aumente o parâmetro Maximal Module Size para permitir mais proteínas incluídas nos resultados do PPI. Carregue a rede PPI personalizada para cobrir interações não documentadas, seguindo as etapas 5.4.2-5.4.3.
2. Clique no botão Parâmetros Avançados na parte inferior da página Análise de Início ; uma nova janela de parâmetros aparecerá. Prepare o arquivo PPI personalizado, que contém três colunas no formato de , onnection C e ; aqui são apresentados pelos nomes genéticos oficiais de cada proteína.
3. No Upload de um banco de dados PPI, clique no botão Procurar para carregar o arquivo PPI personalizado.

6. Análise de enriquecimento de caminhos

NOTA: As estruturas hierárquicas derivadas do JUMPn de ambos os clusters de co-expressão e módulos PPI dentro são automaticamente anotadas com vias sobre-representadas usando o teste exato de Fisher. Os bancos de dados de pathway/topology usados incluem Gene Ontology (GO), KEGG, Hallmark e Reactome. Os usuários podem usar opções avançadas para carregar bancos de dados personalizados para a análise (por exemplo, no caso de analisar dados de espécies não humanas).

Por padrão, a análise de enriquecimento de vias é iniciada automaticamente com agrupamento de co-expressão e análise de rede PPI.
Veja os resultados do enriquecimento do caminho:
1. Siga os passos 2.7, 2.12 e 2.15 para visualizar diferentes formatos nas páginas de resultado. Veja resultados detalhados na tabela de publicação de planilhas no arquivo ComprehensiveSummaryTables.xlsx (etapa 2.16).
(Etapa avançada opcional) Carregar banco de dados personalizado para análise de enriquecimento de caminhos:
1. Prepare o arquivo de fundo genético, que normalmente contém os nomes genéticos oficiais de todos os genes de uma espécie.
2. Prepare o arquivo da biblioteca de ontologia seguindo as etapas 6.3.3-6.3.4.
3. Baixe os arquivos da biblioteca de ontologia de sites públicos, incluindo EnrichR⁵³ e MSigDB⁵⁴. Por exemplo, baixe ontologia de Drosophila do site EnrichR⁵⁵.
4. Edite o arquivo baixado para o formato necessário com duas colunas: o nome da via como a primeira coluna e, em seguida, os símbolos genéticos oficiais (separados por "/") como a segunda coluna. O formato detalhado do arquivo é descrito na página Ajuda do software relizado JUMPn R.
  NOTA: Encontre arquivos de exemplo de fundo genético e biblioteca de ontologia (usando Drosophila como exemplo) no site JUMPn GitHub⁵⁶.
5. Clique no botão Parâmetros Avançados na parte inferior da página Análise de Início; uma nova janela de parâmetros aparecerá.
6. Encontre upload de um arquivo em segundo plano para o item Análise de Enriquecimento de Caminhos e clique no Navegador para carregar o arquivo em segundo plano preparado na etapa 6.3.1. Em seguida, na sessão, selecione o plano de fundo a ser usado para análise de enriquecimento de caminhos, clique em Fundo Fornecido pelo Usuário.
7. Encontre upload de um arquivo da biblioteca de ontologia para o item Análise de Enriquecimento de Caminhos e clique no Navegador para carregar o arquivo da biblioteca de ontologia preparado nas etapas 6.3.2-6.3.4. Em seguida, na sessão, selecione bancos de dados para análise de enriquecimento de caminhos, clique em Banco de Dados Fornecido pelo Usuário em .xlsx Formato.
Clique no botão Enviar análise JUMPn no canto inferior direito para iniciar a análise usando o banco de dados personalizado.

7. Análise do conjunto de dados com grande tamanho amostral

NOTA: JUMPn suporta análise de conjunto de dados com grande tamanho amostral (até 200 amostras testadas). Para facilitar a visualização de um grande tamanho de amostra, um arquivo adicional (chamado "meta file") que especifica o grupo de amostra é necessário para facilitar a exibição dos resultados de agrupamento de co-expressão.

Prepare e carregue o meta- arquivo.
1. Prepare o meta-arquivo que especifica informações de grupo (por exemplo, grupos de controle e doenças) para cada amostra seguindo as etapas 7.1.2-7.1.3.
2. Certifique-se de que o arquivo meta contém pelo menos duas colunas: a coluna 1 deve conter os nomes da amostra idênticos aos nomes da coluna e a ordem do arquivo da matriz de quantificação de proteínas (conforme preparado na etapa 3.3); A coluna 2 em diante será usada para atribuição de grupo para qualquer número de recursos definidos pelo usuário. O número de colunas é flexível.
3. Certifique-se de que a primeira linha do arquivo meta contenha os nomes das colunas para cada coluna; a partir da segunda linha em diante, devem ser listadas informações individuais de amostras de grupos ou outras características (por exemplo, sexo, idade, tratamento, etc.)
4. Carregue o meta arquivo clicando no botão Parâmetros Avançados na parte inferior da página Análise de Início ; uma nova janela de parâmetros aparecerá. Prossiga para a etapa 7.1.5
5. Encontre carregar um item meta arquivo e clique em Navegador para carregar o arquivo em segundo plano. Se o formato inesperado ou nomes de amostras incomparáveis forem detectados pelo JUMPn, uma mensagem de erro aparecerá para maior formatação do arquivo meta (etapas 7.1.1-7.1.3).
Ajuste os parâmetros para análise de agrupamento de co-expressão: ajuste a correlação mínima de Pearson como 0,2. Este parâmetro precisa ser relaxado devido ao maior tamanho da amostra.
Clique no botão Enviar análise JUMPn no canto inferior direito para enviar a análise.
Ver os resultados da análise: toda a saída de dados é a mesma, exceto por exibir os padrões de cluster de co-expressão.
1. Na página resultados página 1: WGCNA Output , visualize os clusters de co-expressão como boxplots com amostras estratificadas pelos grupos ou recursos amostrais definidos pelo usuário. Cada ponto na trama representa o eigengene (ou seja, o padrão de consenso do cluster) calculado pelo algoritmo WGCNA.
2. Se o usuário forneceu vários recursos (por exemplo, idade, sexo, tratamento, etc.) para agrupar as amostras, clique na caixa de seleção do formato de expressão para selecionar outro recurso para agrupar as amostras.

Resultados

Utilizamos nossos conjuntos de dados de proteômica profunda publicados 25,26,27,30 (Figuras 5 e Figura 6), bem como simulações de dados⁵⁷ (Tabela 1) para otimizar e avaliar o desempenho do JUMPn. Para a análise de agrupamento de proteínas de co-expressão via WGCNA, recomendamos a utilizaç...

Discussão

Aqui introduzimos nosso software JUMPn e seu protocolo, que foram aplicados em vários projetos para dissecar mecanismos moleculares usando dados de proteômica quantitativa profunda 25,26,27,30,64. O software e o protocolo JUMPn foram totalmente otimizados, incluindo a consideração de proteínas DE para análise de rede de co-expressão, uma compilação de...

Divulgações

Os autores não têm nada a revelar.

Agradecimentos

O apoio ao financiamento foi fornecido pelos Institutos Nacionais de Saúde (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 e U54NS110435) e ALSAC (American Libanbanese Syrian Associated Charities). A análise de MS foi realizada no Centro de Proteômica e Metabolômica do Hospital de Pesquisa Infantil de São Judas, que foi parcialmente apoiado pelo NIH Cancer Center Support Grant (P30CA021765). O conteúdo é de responsabilidade exclusiva dos autores e não representa necessariamente as opiniões oficiais dos Institutos Nacionais de Saúde.

Materiais

Name	Company	Catalog Number	Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7.	Apple Inc.	MacBook Pro 13''	Hardware used for software development and testing
Anoconda	Anaconda, Inc.	version 4.9.2	https://docs.anaconda.com/anaconda/install/
miniconda	Anaconda, Inc.	version 4.9.2	https://docs.conda.io/en/latest/miniconda.html
RStudio	RStudio Public-benefit corporation	version 4.0.3	https://www.rstudio.com/products/rstudio/download/
Shiny Server	RStudio Public-benefit corporation		https://shiny.rstudio.com/articles/shinyapps.html

Referências

Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, 2301-2319 (2021).
. JUMPn Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021)
. Anaconda Available from: https://docs.anaconda.com/anaconda/install/ (2021)
. miniconda Available from: https://docs.conda.io/en/latest/miniconda.html (2021)
. RStudio Available from: https://www.rstudio.com/products/rstudio/download/ (2021)
. Shiny Server Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021)
Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
. R code Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021)
Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
. FlyEn rich r Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021)
. JUMPn GitHub Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly (2021)
Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Reimpressões e Permissões

Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE

Solicitar Permissão

Explore Mais Artigos

Bioqu mica Edi o 176

This article has been published

Video Coming Soon

Keep me updated: