É necessária uma assinatura da JoVE para visualizar este conteúdo. Faça login ou comece sua avaliação gratuita.
Apresentamos CorrelationCalculator e Filigrana, duas ferramentas para construção de redes baseadas em dados e análise de dados metabolômicos. O CorrelationCalculator suporta a construção de uma única rede de interação de metabólitos com base em dados de expressão, enquanto o Filigrana permite a construção de uma rede diferencial, seguida de clustering de rede e análise de enriquecimento.
Um desafio significativo na análise de dados ômicos é extrair conhecimento biológico acionável. A metabolômica não é exceção. O problema geral de relacionar mudanças nos níveis de metabólitos individuais a processos biológicos específicos é agravado pelo grande número de metabólitos desconhecidos presentes em estudos de cromatografia líquida não direcionada acoplada à espectrometria de massas (LC-MS). Além disso, o metabolismo secundário e o metabolismo lipídico são pouco representados nos bancos de dados de vias existentes. Para superar essas limitações, nosso grupo desenvolveu diversas ferramentas para construção e análise de redes baseadas em dados. Estes incluem CorrelationCalculator e filigrana. Ambas as ferramentas permitem que os usuários construam redes baseadas em correlação parcial a partir de dados metabolômicos experimentais quando o número de metabólitos excede o número de amostras. CorrelationCalculator suporta a construção de uma única rede, enquanto Filigrana permite a construção de uma rede diferencial utilizando dados de dois grupos de amostras, seguido de agrupamento de rede e análise de enriquecimento. Descreveremos a utilidade e a aplicação de ambas as ferramentas para a análise de dados metabolômicos da vida real.
Na última década, a metabolômica emergiu como ciência ômica devido aos avanços em tecnologias analíticas como a Cromatografia Gasosa-Espectrometria de Massas (GC-MS) e a Cromatografia Líquida-Espectrometria de Massas (LC-MS). Essas técnicas permitem a medição simultânea de centenas a milhares de metabólitos de pequenas moléculas, criando conjuntos de dados multidimensionais complexos. Os experimentos metabolômicos podem ser realizados em modos direcionados ou não. Experimentos de metabolômica direcionada medem classes específicas de metabólitos. Eles são geralmente orientados por hipóteses, enquanto abordagens não direcionadas tentam medir o maior número possível de metabólitos e são geradoras de hipóteses por natureza. Ensaios direcionados geralmente incluem padrões internos e, portanto, permitem a quantificação absoluta de metabólitos de interesse. Em contraste, ensaios não direcionados permitem quantificação relativa e incluem muitos metabólitos desconhecidos1.
A análise de dados metabolômicos é um processo de várias etapas que utiliza muitas ferramentas de software especializadas1. Ele pode ser dividido em três etapas principais: (1) processamento e controle de qualidade dos dados, (2) análise estatística e (3) interpretação dos dados biológicos. As ferramentas aqui descritas são projetadas para permitir a última etapa da análise.
Uma maneira intuitiva e popular de interpretar dados metabolômicos é mapear as medidas experimentais em vias metabólicas. Inúmeras ferramentas foram projetadas para isso2,3,4,5, incluindo o Metscape, desenvolvido por nosso grupo 6. O mapeamento de vias é frequentemente combinado com a análise de enriquecimento, o que ajuda a identificar as vias mais significativas 7,8. Essas técnicas ganharam destaque na análise de dados de expressão gênica e têm sido aplicadas com sucesso para análise de dados proteômicos e epigenômicos9,10,11,12,13. No entanto, a análise de dados metabolômicos apresenta uma série de desafios para abordagens baseadas em conhecimento. Primeiro, além dos metabólitos endógenos, os ensaios metabolômicos medem compostos exógenos, incluindo aqueles provenientes da nutrição e de outras fontes ambientais. Esses compostos, assim como os metabólitos produzidos por bactérias, não podem ser mapeados em vias humanas ou metabólicas de outros organismos eucarióticos. Além disso, a cobertura das vias do metabolismo secundário e do metabolismo lipídico atualmente não permite um mapeamento de alta resolução em nível que facilmente apoiaria a interpretação biológica dos dados14,15.
Técnicas de análise de rede orientadas por dados podem ajudar a superar esses desafios. Por exemplo, redes baseadas em correlação podem ajudar a derivar relações entre metabólitos conhecidos e desconhecidos e facilitar a anotação das incógnitas16. Embora o cálculo dos coeficientes de correlação de Pearson seja a abordagem mais simples para estabelecer as relações lineares entre metabólitos, a desvantagem é que ele captura associações diretas e indiretas17,18,19. Uma alternativa é calcular coeficientes de correlação parciais que possam distinguir entre associações diretas e indiretas. A modelagem gráfica gaussiana (GGM) pode ser usada para estimar redes de correlação parcial. No entanto, o GGM requer que o tamanho da amostra e o número de características sejam comparáveis. Essa condição raramente é encontrada em dados LC-MS não direcionados que contêm medições para milhares de características metabólicas. Técnicas de regularização podem ser utilizadas para superar essa limitação. Laço gráfico (Glasso) e regressão nodewise são métodos populares para estimação regularizada da rede de correlação parcial16,20.
A primeira das ferramentas de bioinformática aqui apresentadas, a CorrelationCalculator16, baseia-se no algoritmo de correlação parcial esparsa enviesada (DSPC). O DSPC conta com modelagem gráfica de laço desparsificado. A suposição subjacente do algoritmo é que o número de conexões entre os metabólitos é consideravelmente menor do que o número de amostras, ou seja, a rede de correlação parcial de metabólitos é escassa. Essa suposição permite que o DSPC descubra a conectividade entre um grande número de metabólitos usando menos amostras, aproveitando técnicas de regressão regularizada. Além disso, usando uma etapa de debiasing para as estimativas de regressão regularizada, obtém-se distribuições amostrais para os parâmetros de borda que podem ser usadas para construir intervalos de confiança e testar hipóteses de interesse (por exemplo, presença/ausência de uma única ou de um grupo de arestas). A presença ou ausência de uma aresta na rede de correlação parcial pode, portanto, ser formalmente testada usando os valores de p calculados.
O CorrelationCalculator mostrou-se muito útil para análise de grupo único16; No entanto, o objetivo de muitos experimentos metabolômicos é a análise diferencial de duas ou mais condições. Enquanto CorrelationCalculator pode ser empregado em cada um dos grupos separadamente para gerar redes de correlação parcial para cada condição, essa abordagem limita o número de amostras que podem ser usadas para geração de rede. Uma vez que um tamanho de amostra suficientemente grande é uma das maiores considerações na análise orientada por dados, métodos que possam aproveitar todas as amostras disponíveis nos dados para construir redes são altamente desejáveis. Essa abordagem é implementada na segunda ferramenta aqui apresentada, denominada Filigrana21. A filigrana baseia-se no algoritmo Differential Network Enrichment Analysis (DNEA) publicado anteriormente22. A Tabela 1 mostra os aplicativos e o fluxo de trabalho de ambas as ferramentas.
Número de condições experimentais (k) | k = 1 | k = 2 |
Ferramenta de software | CorrelationCalculator | Filigrana |
Dados de entrada | • Metabólitos x Matriz de dados de amostras | • Metabólitos x Matriz de dados de amostras • Grupos experimentais |
Fluxo de trabalho •Pré-tratamento • Estimativa de rede • Clustering de rede • Análise de enriquecimento | • Transformação de logs; dimensionamento automático • DSPC • Através de aplicativos externos •Não | • Transformação de logs; dimensionamento automático • Estimativa de rede conjunta • Agrupamento de consenso • NetGSA |
Visualização de dados | Via aplicativo externo, por exemplo, Cytoscape | Via aplicativo externo, por exemplo, Cytoscape |
Testando módulos metabólicos para a associação com o desfecho de interesse (opcional) | Através de aplicativos externos | Através de aplicativos externos |
Tabela 1: O escopo de aplicação e o fluxo de trabalho de CorrelationCalculator e Filigrana.
1. Calculadora de Correlação:
2. Filigrana
3. Considerações adicionais
Para ilustrar o uso da CorrelationCalculator, construímos uma rede de correlação parcial usando um subconjunto dos dados metabolômicos do estudo populacional KORA descrito em Krumsiek et al.24. O conjunto de dados continha 151 metabólitos e 240 amostras. A Figura 1 mostra a rede de correlação parcial resultante que foi visualizada no Cytoscape. A rede contém 148 nós e 272 bordas. A cor dos nós representa metabólitos pertencentes a diferentes classe...
Métodos de análise de rede baseados em correlação parcial implementados em CorrelationCalculator e Filigrana ajudam a superar algumas das limitações das análises de vias metabólicas baseadas em conhecimento, especialmente para os conjuntos de dados com alta prevalência de metabólitos desconhecidos e cobertura limitada de vias metabólicas (por exemplo, dados lipidômicos). Essas ferramentas têm sido amplamente utilizadas pela comunidade de pesquisa para analisar uma ampla gama de dados metabolômicos e lipidô...
Os autores não têm interesses financeiros concorrentes.
Este trabalho foi apoiado pela concessão NIH 1U01CA235487.
Name | Company | Catalog Number | Comments |
CorrelationCalculator | JAVA | http://metscape.med.umich.edu/calculator.html | |
clusterNet | https://github.com/Karnovsky-Lab/clusterNet | ||
Cytoscape | Cytoscape | https://cytoscape.org/ | |
Filigree | JAVA | http://metscape.med.umich.edu/filigree.html | |
MetScape | Cytoscape | https://apps.cytoscape.org/apps/metscape | Cytoscape application that allows for the creation and exploration of correlation networks. |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados