JoVE Logo

Iniciar sesión

Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.

En este artículo

  • Resumen
  • Resumen
  • Protocolo
  • Resultados
  • Discusión
  • Divulgaciones
  • Agradecimientos
  • Materiales
  • Referencias
  • Reimpresiones y Permisos

Resumen

Nuestro punto de cambio bayesiano (BCP) algoritmo se basa en los avances del estado de la técnica de modelado en los puntos de cambio a través de modelos ocultos de Markov y los aplica a la cromatina immunoprecipitation secuenciación (ChIPseq) el análisis de datos. BCP funciona bien en ambos tipos de datos amplios y punteada, pero sobresale en la identificación precisa de las islas robustas, reproducibles de enriquecimiento histona difusa.

Resumen

ChIPseq es una técnica ampliamente utilizada para investigar las interacciones proteína-DNA. Leer los perfiles de densidad se han generado mediante el uso de la siguiente secuencia de ADN unido a proteína y la alineación de la corto lee a un genoma de referencia. Zonas enriquecidas se revelan como los picos, que a menudo difieren dramáticamente en forma, dependiendo de la proteína diana 1. Por ejemplo, los factores de transcripción a menudo se unen en un sitio-específico y secuencia-manera y tienden a producir picos puntiformes, mientras que las modificaciones de histonas son más penetrante y se caracterizan por islas grandes difusas de enriquecimiento 2. Forma fiable la identificación de estas regiones fue el tema central de nuestro trabajo.

Los algoritmos para el análisis de datos ChIPseq han empleado diversos métodos heurísticos, de 3-5 para más modelos estadísticos rigurosos, por ejemplo, Modelos Ocultos de Markov (HMMs) 6-8. Se buscó una solución que minimiza la necesidad de la difícil de definir, ad hoc parámetros que a menudocomprometer resolución y disminuir la utilización intuitiva de la herramienta. Con respecto a los métodos basados ​​en HMM, se intentó limitar los procedimientos de estimación de parámetros y clasificaciones simples de estados finitos que se utilizan con frecuencia.

Además, convencional ChIPseq análisis de datos implica la clasificación de la espera leer perfiles de densidad, ya sea como puntiforme o difusa seguido de la posterior aplicación de la herramienta adecuada. Tenemos además el objetivo de sustituir la necesidad de estos dos modelos distintos con un solo modelo, más versátil, que hábilmente puede abordar todo el espectro de tipos de datos.

Para cumplir con estos objetivos, primero construyó un marco estadístico que, naturalmente, modelados ChIPseq estructuras de datos utilizando un avance de vanguardia en HMMs 9, que utiliza solamente fórmulas explícitas-una innovación crucial para las ventajas de rendimiento. A continuación, los modelos heurísticos más sofisticados, nuestro HMM acomoda infinitos estados ocultos a través de unModelo bayesiano. Lo aplicamos a la identificación de los puntos razonables cambio en la densidad de leer, que además definir los segmentos de enriquecimiento. Nuestro análisis reveló cómo nuestra Cambio Bayesiano Point (BCP) algoritmo tenía una complejidad computacional reducido evidenciado por un tiempo de ejecución abreviada y consumo de memoria. El algoritmo de BCP se aplicó con éxito tanto pico puntiforme y la identificación de islas difusa con precisión robusta y limitados parámetros definidos por el usuario. Esto se ilustra tanto su versatilidad y facilidad de uso. Por lo tanto, creemos que se puede implementar fácilmente a través de amplias gamas de tipos de datos y los usuarios finales de una manera que es fácil de comparar y contrastar, por lo que es una gran herramienta para ChIPseq análisis de datos que pueden ayudar en la colaboración y la corroboración entre grupos de investigación. Aquí, se demuestra la aplicación de BCP a factor de transcripción existente 10,11 y datos epigenéticos 12 para ilustrar su utilidad.

Protocolo

1. Preparación de los ficheros de entrada para el análisis de BCP

  1. Alinee el corto producido a partir de lecturas de secuenciación carreras (ChIP y bibliotecas de entrada) al genoma de referencia apropiado utilizar el software preferido corto alineación de lectura. Las ubicaciones mapeadas deben ser convertidos en los datos de la columna 6 extensibles navegador (BED) Formato 13 (UCSC genoma navegador, http://genome.ucsc.edu/ ), una línea delimitada por tabuladores asignada por leer lo que indica el cromosoma asignada, la posición inicial (0-based), posición final (semiabierta), leer el nombre, la puntuación (opcional), y el capítulo.

2a. Difundir Leer perfiles: Chip Preprocesamiento Leer densidades para la detección de las Islas enriquecido en datos difusos

  1. Extender el chip y lugares de entrada asignada a una longitud de fragmento predeterminado, es decir. el tamaño de los fragmentos dirigidos durante la digestión enzimática o la sonicación de la ADN, generalmente de alrededor de 200 pb. Recuentos fragmento son entonces agregaciónTed en los contenedores adyacentes. De forma predeterminada, el tamaño de bin está en la longitud de los fragmentos de aproximadamente 200 pb.
  2. Cualquier cambio de puntos posible en un conjunto de bandejas con idénticas recuentos de leer lo más probable caída en los límites más exteriores. Por consiguiente, es improbable que un punto de cambio se producirá a un límite interno entre dos compartimientos con los recuentos de leer los mismos. Así, bins grupo adyacente, con idéntico lecturas por bin, en un solo bloque, es decir. bedGraph formato 13.

2b. Leer puntiformes perfiles: Chip Preprocesamiento y archivos de entrada CAMA para la detección de picos en los datos puntiformes

  1. Aggregate superposición lee por ChIP hebra más y menos se lee por separado. La hebra específicos densidades de lectura debe formar un perfil bimodal de los picos de más y menos. Elija pares más / menos de los picos más enriquecidos y utilizar la distancia entre sus cumbres como una estimación de la longitud de los fragmentos de la biblioteca.
  2. Cambie el chip y la entrada se lee la mitad del fragmento length al centro y volver a calcular la densidad de leer el signo más se movió y se fusionaron y se lee menos hebra. Este método para calcular la longitud de los fragmentos fue adoptado de Zhang, et al. 3. Posiciones con idénticos cargos de fusión deben agruparse en bloques, de forma similar al paso 2a.2.

3. Calcule el promedio de lectura de densidad posterior de cada bloque utilizando nuestro Aproximación BCMIX

  1. La densidad de lectura de cada bloque se modela como una distribución de Poisson, Pois t), con un parámetro de seguimiento medio de una mezcla de distribuciones gamma, Γ (α, β), y una probabilidad previa de un punto de cambio que se produzca en cualquier límite de bloque de p. Acondicionamiento Pois t) en G (α, β) efectivamente hace que el modelo HMM un estado infinito. Estimar la hiper-parámetros, α, β, y p, probabilidad posterior uso máximo.
  2. Explícitamente calcular las estimaciones de Bayes paracada bloque, θ t, como E (θ t | γ Z). Vuelva a colocar el consumir más tradicional, pero el tiempo hacia adelante y hacia atrás filtros usados ​​a menudo en HMMs, con la aproximación Complejidad mezcla más eficiente computacionalmente Limita al estimar medias posteriores, θ c. Los medios resultantes posteriores será "suavizada" en un perfil aproximado constante a trozos para bloques con el mismo, θ c, debe seguir bloqueado junto con límite actualizado coordina.

4a. Difundir Leer perfiles: Proceso de Post-Medios posteriores en segmentos de Enriquecimiento difusa

  1. Usar el número de entrada de lecturas por cada nuevo bloque θ c como la tasa de fondo, Pois (λ a) y determinar el enriquecimiento usando una prueba de hipótesis simple en función de si la media posterior ChIP, θ c, supera cierto umbral δ. La 90 ª </ Sup>-cuantil es la d por defecto y es apropiado en la mayoría de los casos.
  2. Combinar adyacente θ c bloques que superen el enriquecimiento en una sola región y el informe de fusionar las coordenadas en formato cama simple. Alternativamente, se puede informar de la c θ para cada bloque en formato bedGraph para preservar los detalles de alta resolución de las estimaciones de la densidad de lectura.

4b. Punteada Leer perfiles: Proceso Post-Medios posteriores a los candidatos Peak

  1. Definir la tasa de fondo, Pois (λ a), como el promedio de todos los recuentos de lectura (γ 2) e identifique todos los bloques que superen el umbral, d. Desde los picos puntiformes se espera que sea más enriquecido sustancialmente, la δ predeterminado se establece en el 99 th-cuantil de Pois (λ a).
  2. Ajuste el bloque con la máxima c θ como la cumbre de pico candidato y bloques contiguos de acompañamiento que comparten una similar den lecturadensidad (± 1 leer contar para permitir la variación leve). Esta región contiguo se define como un sitio de unión candidato.
  3. Calcular λ 2 como los recuentos promedio de lectura en el sitio de unión candidato chip y prueba de hipótesis frente a esta situación de entrada fueron la hipótesis nula H 0, es que λλ 1 2 y rechazar H 0 Basado en un umbral de p-valor. Picos de salida candidatos en formato cama.

Resultados

BCP supera a la identificación de las regiones del enriquecimiento general en los datos de modificación de histonas. Como punto de referencia, que previamente han comparado nuestros resultados con los de SICER 3, una herramienta existente que ha demostrado buenos resultados. Para ilustrar mejor las ventajas del BCP, se analizó una modificación de las histonas que había sido bien estudiada para establecer una base para la evaluación de las tasas de éxito. Con esto en mente, a continuación, analizar H3K...

Discusión

Nos propusimos desarrollar un modelo para el análisis de datos ChIPseq que pudieran identificar tanto las estructuras de datos y puntiforme difusa igual de bien. Hasta ahora, las regiones de enriquecimiento, en particular las regiones difusas, que reflejan la expectativa de presuponía tamaño de la isla grande, han sido difíciles de identificar. Para hacer frente a estos problemas, hemos utilizado los avances más recientes en la tecnología HMM, que poseen muchas ventajas sobre los modelos heurísticos existentes y ...

Divulgaciones

No hay conflictos de interés declarado.

Agradecimientos

STARR Premio de la Fundación (MQZ), NIH subvención ES017166 (MQZ), NSF subvención DMS0906593 (HX).

Materiales

NameCompanyCatalog NumberComments
Nombre del reactivo Empresa Número de catálogo Comentarios (opcional)
Linux estación de trabajo basada

Referencias

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Reimpresiones y Permisos

Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos

Solicitar permiso

Explorar más artículos

Gen ticaN mero 70Bioinform ticaBiolog a Gen mica MolecularBiolog a CelularInmunolog ainmunoprecipitaci n de cromatinaChIP Seqmodificaciones de las histonassegmentaci nbayesianosModelos Ocultos de Markovla epigen tica

This article has been published

Video Coming Soon

JoVE Logo

Privacidad

Condiciones de uso

Políticas

Investigación

Educación

ACERCA DE JoVE

Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados