Method Article
Ao executar a Ferramenta de Estudo da Associação pathway (PAST), seja através do aplicativo Shiny ou através do console R, os pesquisadores podem obter uma compreensão mais profunda do significado biológico de seus resultados de estudo de associação genoma -em todo o genoma (GWAS) investigando as vias metabólicas envolvidas.
Recentemente, uma nova implementação de um método descrito anteriormente para interpretar dados do estudo de associação genoma (GWAS) utilizando a análise metabólica da via foi desenvolvida e liberada. A Ferramenta de Estudo da Associação pathway (PAST) foi desenvolvida para abordar preocupações com a simpatia do usuário e análises de execução lenta. Esta nova ferramenta fácil de usar foi lançada no Bioconductor e no Github. Em testes, o PAST realizou análises em menos de uma hora que antes exigia 24 ou mais horas. Neste artigo, apresentamos o protocolo para usar o aplicativo Shiny ou o console R para executar PAST.
Os estudos de associação genoma (GWAS) são um método popular de estudo de traços complexos e as regiões genômicas associadas a eles1,2,3. Neste tipo de estudo, centenas de milhares de marcadores de polimorfismo de nucleotídeos únicos (SNP) são testados para sua associação com o traço, e a significância das associações é avaliada. Associações de características marcadoras que atendam ao limiar da taxa de descoberta falsa (FDR) (ou algum outro tipo de limiar de significância) são mantidas para o estudo, mas associações verdadeiras podem ser filtradas. Para traços complexos e poligênicos, o efeito de cada gene pode ser pequeno (e, portanto, filtrado), e alguns alelos são expressos apenas em condições específicas que podem não estar presentes no estudo3. Assim, enquanto muitos SNPs podem ser retidos como associados à característica, cada um pode ter um efeito muito pequeno. Muitas chamadas SNP estarão faltando, e uma interpretação do significado biológico e da arquitetura genética do traço pode ser incompleta e confusa. A análise da via metabólica pode ajudar a resolver algumas dessas questões, focando nos efeitos combinados dos genes agrupados de acordo com sua função biológica4,5,6.
Vários estudos foram concluídos utilizando-se uma implementação prévia do método descrito neste artigo. Acúmulo deaflatoxina 7,resistência à minhoca de milho8e biossíntese de óleo9 foram todos estudados com a implementação anterior. Embora essas análises tenham sido bem sucedidas, o processo de análise foi complicado, demorado e complicado, pois as ferramentas de análise foram escritas em uma combinação de R, Perl e Bash, e o pipeline não foi automatizado. Devido ao conhecimento especializado necessário para modificar esse método para cada análise, foi desenvolvido agora um novo método que pode ser compartilhado com outros pesquisadores.
A Ferramenta de Estudo da Associação de Caminhos (PAST)10 foi projetada para resolver as deficiências do método anterior, exigindo menos conhecimento das linguagens de programação e executando análises em um período mais curto. Embora o método tenha sido testado com milho, o PAST não faz suposições específicas de espécies. Past pode ser executado através do console R, como um aplicativo Shiny, e espera-se que uma versão on-line esteja disponível em breve no MaizeGDB.
1. Configuração
2. Personalize a análise brilhante (opcional)
Figura 1. Por favor, clique aqui para ver uma versão maior desta figura.
3. Carregar dados gwas
NOTA: Verifique se os dados do GWAS estão delimitados. Certifique-se de que o arquivo de associação contém as seguintes colunas: característica, nome do marcador, lócus ou cromossomo, posição no cromossomo, valor p e valor R2 para o marcador. Certifique-se de que o arquivo de efeitos contém as seguintes colunas: característica, nome do marcador, lócus ou cromossomo, posição no cromossomo e efeito. A ordem dessas colunas não é importante, pois o usuário pode especificar os nomes das colunas ao carregar os dados. Quaisquer colunas adicionais são ignoradas. TASSEL13 pode ser usado para produzir esses arquivos.
Figura 2. Clique aqui para ver uma versão maior desta figura.
4. Dados de desequilíbrio de ligação de carga (LD)
NOTA: Verifique se os dados de desequilíbrio de ligação (LD) são delimitados por guias e contém os seguintes tipos de dados: Locus, Posição1, Site1, Posição2, Site2, Distância em pares de base entre o valor posição1 e posição2 e R2.
Figura 3. Clique aqui para ver uma versão maior desta figura.
5. Atribuir SNPs aos genes
NOTA: Baixe ou localize anotações em formato GFF. Essas anotações podem ser encontradas frequentemente em bancos de dados online para organismos específicos. Tenha cuidado com as anotações de baixa qualidade, pois a qualidade dos dados das anotações afetará a qualidade da análise da via. Confirme que a primeira coluna dessas anotações (o cromossomo) corresponde ao formato do lócus/cromossomo na associação, efeitos e dados LD. Por exemplo, as anotações não devem chamar o primeiro cromossomo de "chr1" se os arquivos de dados GWAS e LD chamarem o primeiro cromossomo de "1".
Figura 4. Clique aqui para ver uma versão maior desta figura.
6. Descubra caminhos significativos
NOTA: Verifique se o arquivo pathways contém os seguintes dados em formato delimitado por guia, com uma linha para cada gene em cada caminho: Pathway ID - um identificador como "PWY-6475-1"; descrição do caminho - uma descrição mais longa do que os caminhos fazem, como "biossíntese trans-liocopeno"; gene - um gene na via, que deve coincidir com os nomes fornecidos nas anotações. As informações do caminho provavelmente podem ser encontradas em bancos de dados on-line para organismos específicos, como o MaizeGDB. A segunda opção especificada pelo usuário é o modo. "Aumentar" refere-se a fenótipos que refletem quando um valor crescente do traço medido é desejável, como o rendimento, enquanto "diminuir" refere-se a um traço onde uma diminuição nos valores medidos é benéfica, como classificações de danos de insetos. A significância das vias é testada utilizando métodos descritos anteriormente4,6,14.
Figura 5. Clique aqui para ver uma versão maior desta figura.
NOTA: O número de núcleos e o modo definido no início da análise PAST Shiny (Passo 2.2) são usados nesta etapa. O número padrão de genes é atualmente definido em 5 genes, de modo que caminhos com menos genes conhecidos serão removidos. O usuário pode reduzir esse valor para 4 ou 3, para incluir caminhos mais curtos, mas isso correrá o risco de resultados falsos positivos. O aumento desse valor pode aumentar o poder da análise, mas removerá mais caminhos da análise. A alteração do número de permutações utilizadas aumenta e diminui a potência do teste.
7. Veja rugplots
Figura 6. Clique aqui para ver uma versão maior desta figura.
Figura 7. Clique aqui para ver uma versão maior desta figura.
Se os resultados não forem produzidos após uma execução da ferramenta de software PAST, verifique se todos os arquivos de entrada estão corretamente formatados. Uma execução bem-sucedida usando os dados de exemplo no pacote PAST, que são baseados em um GWAS de milho de cor de grão, é mostrado na Figura 8. Esta tabela e a imagem resultante podem ser baixadas usando o botão Download Results. Um exemplo da imagem baixada é mostrado na Figura 210. Configurações incorretas podem levar a resultados que não fazem sentido biológico, mas determinar a incorreção de incorreção deve ser do pesquisador, que deve verificar a validade das configurações escolhidas e considerar todas as evidências conhecidas sobre o traço de interesse.
A Figura 910 mostra o rugplot produzido a partir da análise de caminhos dos resultados gwas criados com um painel de milho de 288 linhas de raça que haviam sido fenotipadas para a cor do grão. Este exemplo simplista, onde os fenótipos eram "brancos" ou "amarelos", foi utilizado porque o caminho responsável pela criação dos pigmentos carotenoides amarelos brilhantes é conhecido e deve ser responsável pela maior parte do fenótipo. Assim, esperávamos ver que a via de biossíntese trans-liocopeno (que produz carotenoides) está significativamente associada à cor do grão, que é. O ID do caminho e o nome estão listados no topo do gráfico. O eixo horizontal do gráfico classifica todos os genes que foram incluídos na análise, dispostos da esquerda para a direita na ordem de maior efeito sobre o traço para o menor. No entanto, apenas os genes na via de biossíntese trans-liocopeno são marcados (no topo do gráfico, como marcas de escotilha, aparecendo no grau genético de seu efeito em comparação com todos os outros genes da análise). Há 7 genes neste caminho. A pontuação de enriquecimento em execução (ES) é plotada ao longo do eixo vertical. O ES para cada gene é adicionado ao total em execução por ordem de efeito e o total é ajustado ao número de genes analisados. Assim, a pontuação muda à medida que se move ao longo do eixo horizontal e tende a aumentar à medida que os genes de efeito maior são incluídos, mas em algum momento, o aumento do efeito é menor do que o ajuste por ter adicionado outro gene, e toda a pontuação começa a diminuir. O ápice da linha ES em execução é marcado com uma linha vertical pontilhada; este é o ES para todo o caminho e é usado pelo programa para determinar se o caminho é escolhido e apresentado como um rugplot.
Figura 8: Execução completa do PAST Shiny. Por favor, clique aqui para ver uma versão maior desta figura.
Figura 9: Imagem de caminho a partir de execução completa de PAST (ou baixado de Shiny). Este valor foi citado por Thrash et al.10. Clique aqui para ver uma versão maior desta figura.
Um objetivo primário do PAST é levar as análises metabólicas das vias metabólicas dos dados do GWAS para um público mais amplo, especialmente para organismos não humanos e não animais. Métodos alternativos ao PAST são frequentemente programas de linha de comando que se concentram em humanos ou animais. A simpatia do usuário foi um objetivo principal no desenvolvimento do PAST, tanto na escolha de desenvolver um aplicativo Shiny quanto na escolha de usar R e Bioconductor para liberar o aplicativo. Os usuários não precisam aprender a compilar programas para usar o PAST.
Como na maioria dos tipos de software de análise, os resultados do PAST são tão bons quanto os dados de entrada; se os dados de entrada tiver erros ou forem formatados incorretamente, o PAST falhará em executar ou produzir resultados não informativos. Garantir que os dados, dados LD, anotações e caminhos do GWAS sejam corretamente formatados é fundamental para receber a saída correta do PAST. O PAST analisa apenas marcadores bieélicos e pode executar apenas uma característica para cada conjunto de dados de entrada. Além disso, os dados GWAS produzidos por mau genotipagem ou fenotipagem incorreta ou imprecisa também não produzem resultados claros ou repetíveis. O PAST pode auxiliar na interpretação biológica dos resultados do GWAS, mas é improvável que esclareça conjuntos de dados caóticos se a variação ambiental, o erro experimental ou a estrutura populacional não foram devidamente contabilizados.
Os usuários podem optar por alterar alguns parâmetros da análise, tanto no aplicativo Shiny quanto passando esses parâmetros para as funções do PAST no console R. Esses parâmetros podem alterar os resultados relatados pelo PAST, e os usuários devem tomar cuidado ao modificá-los dos padrões. Como o LD é medido pelos usuários, normalmente usando o mesmo conjunto de dados marcador que também foi usado no GWAS, as medidas de LD são específicas para a população. Para todos os estudos, especialmente para espécies que não sejam o milho, (particularmente espécies auto-polinizadora, poliploide ou altamente heterogênios), mudanças nos padrões podem ser justificadas.
Os autores não têm nada a revelar.
Nenhum.
Name | Company | Catalog Number | Comments |
Computer | NA | NA | Any computer with 8GB RAM should be sufficient |
R | R Project | NA | R 4.0 or greater is required to install from Bioconductor 3.11 |
An erratum was issued for: A Pathway Association Study Tool for GWAS Analyses of Metabolic Pathway Information. One of the affiliations was updated.
The second affiliation was updated from:
USDA-ARS Corn Host Plant Resistance Research Unit, Mississippi State University
to:
Corn Host Plant Resistance Research Unit, USDA-ARS
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados