JoVE Logo

Entrar

É necessária uma assinatura da JoVE para visualizar este conteúdo. Faça login ou comece sua avaliação gratuita.

Neste Artigo

  • Resumo
  • Resumo
  • Protocolo
  • Resultados
  • Discussão
  • Divulgações
  • Agradecimentos
  • Materiais
  • Referências
  • Reimpressões e Permissões

Resumo

Nosso ponto de mudança Bayesiana (BCP) algoritmo baseia-se no estado-da-arte avanços em modelagem de mudanças de pontos através de modelos ocultos de Markov e os aplica a cromatina imunoprecipitação seqüenciamento (ChIPseq) análise de dados. BCP executa bem em tipos de dados ampla e pontuada, mas supera em identificar com precisão robustos, ilhas reproduzíveis de enriquecimento histona difusa.

Resumo

ChIPseq é uma técnica amplamente utilizada para investigar interacções DNA-proteína. Ler a densidade perfis são gerados usando a próxima sequência de ADN ligado à proteína e alinhando a curto leituras para um genoma de referência. Regiões enriquecidas são revelados como picos, o que muitas vezes diferem dramaticamente de forma, dependendo da proteína alvo 1. Por exemplo, factores de transcrição ligam frequentemente em um local e modo específico da sequência e tendem a produzir picos puntiformes, enquanto que modificações de histonas são mais difusas e caracterizam-se por grandes difusas, ilhas de enriquecimento 2. Confiável identificação dessas regiões foi o foco do nosso trabalho.

Algoritmos de análise de dados ChIPseq empregaram várias metodologias, de heurísticas 3-5 aos mais rigorosos modelos estatísticos, por exemplo, modelos ocultos de Markov (HMM) 6-8. Nós procuramos uma solução que minimizasse a necessidade de difíceis de definir, parâmetros ad hoc, que muitas vezescomprometer resolução e diminuir a possibilidade de utilização intuitiva da ferramenta. Com relação aos métodos baseados em HMM, buscamos reduzir os procedimentos de estimação e de parâmetros simples, classificações de estado finito que são frequentemente utilizados.

Além disso, a análise de dados convencional ChIPseq envolve categorização do esperado ler perfis de densidade como quer punctata ou difusa seguido de posterior aplicação da ferramenta apropriada. Nós ainda como objetivo substituir a necessidade de estes dois modelos distintos com um único modelo mais versátil, que pode competentemente abordar todo o espectro de tipos de dados.

Para atingir estes objectivos, o primeiro construído um quadro estatístico que naturalmente modelados estruturas ChIPseq de dados usando um avanço de ponta em HMMs 9, que utiliza apenas fórmulas explícitas-uma inovação crucial para suas vantagens de desempenho. Modelos mais sofisticados, em seguida, heurísticas, nossa HMM acomoda infinitos estados ocultos através de umModelo Bayesian. Nós aplicamos a identificação de pontos de mudança razoável na densidade de ler, que ainda definir segmentos de enriquecimento. Nossa análise revelou como nosso Bayesiana mudar o ponto algoritmo (BCP) teve uma complexidade computacional reduzido evidenciado por um tempo de execução abreviada e consumo de memória. O algoritmo BCP foi aplicado com sucesso tanto o pico punctata e identificação ilha difusa com precisão robusto e limitados parâmetros definidos pelo usuário. Isto ilustrado tanto a sua versatilidade e facilidade de uso. Conseqüentemente, acreditamos que pode ser implementada facilmente em intervalos amplos de tipos de dados e usuários finais de uma forma que pode ser facilmente comparados e contrastados, tornando-se uma grande ferramenta para ChIPseq análise de dados que pode ajudar na colaboração e corroboração entre grupos de pesquisa. Aqui, demonstramos a aplicação do factor de transcrição de BCP existente 10,11 e 12 epigenéticas dados para ilustrar a sua utilidade.

Protocolo

1. Preparando os arquivos de entrada para o BCP Análise

  1. Alinhe o curta lê produzido a partir de seqüenciamento corridas (Chip e bibliotecas de entrada) para o genoma de referência apropriado, usando o software de alinhamento preferencial curto de leitura. Os locais mapeados devem ser convertidos para as 6 colunas de dados do navegador extensíveis (TCAP) formato 13 (UCSC navegador genoma, http://genome.ucsc.edu/ ), uma linha guia delimitada por mapeada ler indicando o cromossomo mapeada, a posição inicial (baseado em 0), posição final (semi-aberto), leia pontuação, nome (opcional), e vertente.

2a. Difundir Leia Perfis: Chip pré-processamento Leia Densidades para Detecção de Enriquecido Ilhas em Dados Difusos

  1. Estenda o chip e locais de entrada mapeado para um comprimento de fragmentos pré-determinado, ou seja. o tamanho do fragmento alvo durante a digestão enzimática ou sonicação do ADN, normalmente cerca de 200 pb. Contagens de fragmentos são, em seguida, a agregaçãoted em caixas adjacentes. Por padrão, o tamanho da caixa é definido como o comprimento do fragmento estimado de 200 pb.
  2. Qualquer mudança de pontos possíveis em um conjunto de bandejas com idêntica contagem leitura irá mais provável queda nos limites mais exteriores. Consequentemente, é improvável que um ponto de mudança irá ocorrer a um limite interno entre duas caixas com as contagens de leitura mesmos. Então, escaninhos grupo adjacente, com idêntico leituras por bin, em um único bloco, ou seja. bedGraph formato 13.

2b. Puntiformes Perfis Leia: Chip pré-processamento e arquivos CAMA entrada para detecção de picos de Dados puntiformes

  1. Agregado sobreposição lê para Chip vertente mais e menos lê separadamente. As densidades vertente específica de leitura devem formar um perfil bimodal de picos de mais e de menos. Escolha pares mais / menos dos picos mais enriquecidos e usar a distância entre as suas cimeiras como uma estimativa do comprimento do fragmento de biblioteca.
  2. Mudar o chip e entrada lê metade do fragmento length para o centro e recalcular a densidade de leitura do mais mudou e se fundiram e menos vertente lê. Esta metodologia para estimar o tamanho do fragmento foi adotada a partir de Zhang, et al. 3. Posições com contagens idênticas mesclagem deve ser agrupadas em blocos, semelhante ao passo 2A.2.

3. Estimar a média posterior Leia densidade de cada bloco usando nosso aproximação BCMIX

  1. A densidade de cada um dos blocos de leitura é modelado como uma distribuição de Poisson, Pois t), com um parâmetro significativo na sequência de uma mistura de distribuições gama, Γ (α, β), e uma probabilidade anterior de um ponto de mudança ocorre a qualquer limite de bloco de p. Pois condicionado t) em G (α, β) efectivamente torna o modelo de um HMM estado infinito. Estimar o hiper-parâmetros, α, β, e p, usando probabilidade posterior máxima.
  2. Explicitamente calcular as estimativas de Bayes paracada bloco, t θ, como E (θ t | γ Z). Substituir o consumo mais tradicional, mas o tempo para a frente e para trás filtros usados ​​frequentemente em HMMs, com a aproximação mais eficiente computacionalmente Limitado Complexidade Mistura para estimar médias a posteriori, θ c. Os meios resultantes posteriores será "suavizada" em um perfil aproximado piecewise constante para blocos com idêntico, c θ, deve ser mais bloqueado juntamente com limite atualizados coordena.

4a. Difundir Leia Perfis: pós-processo médias a posteriori em segmentos de Enriquecimento difusa

  1. Utilizar o número de entrada de leituras por cada novo bloco c θ como a taxa de fundo, Pois (λ a) e determinar o enriquecimento com um teste de hipótese simples com base em se a média ChIP posterior, θ c, excede algum limiar δ. O 90 º </ Sup> quantil é o padrão d e é apropriado na maioria dos casos.
  2. Mesclar adjacente θ c blocos que excedem o enriquecimento em uma única região e relatório intercalar coordenadas em formato CAMA simples. Alternativamente, pode-se reportar o c θ para cada bloco em formato bedGraph para preservar os detalhes de alta-resolução das estimativas de densidade de leitura.

4b. Punctata Leia Perfis: pós-processo médias a posteriori para candidatos de pico

  1. Definir a taxa de fundo, Pois (λ a), como sendo a média de todos os pontos de leitura (γ 2) e identificar todos os blocos que ultrapassam o limiar, d. Desde picos puntiformes devem ser mais substancialmente enriquecido, o δ padrão é definido como o 99 º quantil de POIs (λ a).
  2. Definir o bloco com o c máxima θ como a cimeira pico candidato e contíguo blocos de acompanhamento que compartilham um antro de leitura semelhantesidade (± 1 leia contar para permitir a pequena variação). Esta região adjacente é definido como um sítio de ligação candidato.
  3. Calcular λ 2 como média das contagens de leitura no local candidato ChIP de ligação e de testes de hipóteses este fundo de entrada versus estavam a hipótese nula, H 0, que é uma λλ 2 e rejeitar H 0 com base num limiar p-valor. Saída picos candidatos em formato CAMA.

Resultados

BCP destaca em identificação de regiões de enriquecimento amplo em dados de modificação de histonas. Como ponto de referência, que anteriormente comparação dos nossos resultados aos de SICER 3, uma ferramenta já existente que tem demonstrado forte desempenho. Para ilustrar melhor as vantagens do BCP, examinamos uma modificação de histonas que tinha sido bem estudado para estabelecer uma base para avaliar as taxas de sucesso. Com isto em mente, é então analisada H3K36me3, uma vez que tem sido demo...

Discussão

Nós nos propusemos a desenvolver um modelo de análise de dados que possam identificar ChIPseq ambas as estruturas puntiformes e difusos dados igualmente bem. Até agora, as regiões de enriquecimento, as regiões particularmente difusas, que refletem a expectativa pressuposto de tamanho grande ilha, têm sido difíceis de identificar. Para resolver esses problemas, foram utilizados os mais recentes avanços na tecnologia de HMM, que possuem muitas vantagens sobre os modelos heurísticos existentes e HMMs menos inovado...

Divulgações

Não há conflitos de interesse declarados.

Agradecimentos

STARR prêmio fundação (MQZ), NIH concessão ES017166 (MQZ), NSF concessão DMS0906593 (HX).

Materiais

NameCompanyCatalog NumberComments
Nome do reagente Companhia Número de catálogo Comentários (opcional)
Baseado em Linux estação de trabalho

Referências

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Reimpressões e Permissões

Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE

Solicitar Permissão

Explore Mais Artigos

Gen ticaEdi o 70Bioinform ticaBiologiaGen mica MolecularBiologia CelularImunologiaCromatina imunoprecipita oChip Seqmodifica es de histonassegmenta oBayesianasmodelos ocultos de Markova epigen tica

This article has been published

Video Coming Soon

JoVE Logo

Privacidade

Termos de uso

Políticas

Pesquisa

Educação

SOBRE A JoVE

Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados