Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.
Method Article
Nuestro punto de cambio bayesiano (BCP) algoritmo se basa en los avances del estado de la técnica de modelado en los puntos de cambio a través de modelos ocultos de Markov y los aplica a la cromatina immunoprecipitation secuenciación (ChIPseq) el análisis de datos. BCP funciona bien en ambos tipos de datos amplios y punteada, pero sobresale en la identificación precisa de las islas robustas, reproducibles de enriquecimiento histona difusa.
ChIPseq es una técnica ampliamente utilizada para investigar las interacciones proteína-DNA. Leer los perfiles de densidad se han generado mediante el uso de la siguiente secuencia de ADN unido a proteína y la alineación de la corto lee a un genoma de referencia. Zonas enriquecidas se revelan como los picos, que a menudo difieren dramáticamente en forma, dependiendo de la proteína diana 1. Por ejemplo, los factores de transcripción a menudo se unen en un sitio-específico y secuencia-manera y tienden a producir picos puntiformes, mientras que las modificaciones de histonas son más penetrante y se caracterizan por islas grandes difusas de enriquecimiento 2. Forma fiable la identificación de estas regiones fue el tema central de nuestro trabajo.
Los algoritmos para el análisis de datos ChIPseq han empleado diversos métodos heurísticos, de 3-5 para más modelos estadísticos rigurosos, por ejemplo, Modelos Ocultos de Markov (HMMs) 6-8. Se buscó una solución que minimiza la necesidad de la difícil de definir, ad hoc parámetros que a menudocomprometer resolución y disminuir la utilización intuitiva de la herramienta. Con respecto a los métodos basados en HMM, se intentó limitar los procedimientos de estimación de parámetros y clasificaciones simples de estados finitos que se utilizan con frecuencia.
Además, convencional ChIPseq análisis de datos implica la clasificación de la espera leer perfiles de densidad, ya sea como puntiforme o difusa seguido de la posterior aplicación de la herramienta adecuada. Tenemos además el objetivo de sustituir la necesidad de estos dos modelos distintos con un solo modelo, más versátil, que hábilmente puede abordar todo el espectro de tipos de datos.
Para cumplir con estos objetivos, primero construyó un marco estadístico que, naturalmente, modelados ChIPseq estructuras de datos utilizando un avance de vanguardia en HMMs 9, que utiliza solamente fórmulas explícitas-una innovación crucial para las ventajas de rendimiento. A continuación, los modelos heurísticos más sofisticados, nuestro HMM acomoda infinitos estados ocultos a través de unModelo bayesiano. Lo aplicamos a la identificación de los puntos razonables cambio en la densidad de leer, que además definir los segmentos de enriquecimiento. Nuestro análisis reveló cómo nuestra Cambio Bayesiano Point (BCP) algoritmo tenía una complejidad computacional reducido evidenciado por un tiempo de ejecución abreviada y consumo de memoria. El algoritmo de BCP se aplicó con éxito tanto pico puntiforme y la identificación de islas difusa con precisión robusta y limitados parámetros definidos por el usuario. Esto se ilustra tanto su versatilidad y facilidad de uso. Por lo tanto, creemos que se puede implementar fácilmente a través de amplias gamas de tipos de datos y los usuarios finales de una manera que es fácil de comparar y contrastar, por lo que es una gran herramienta para ChIPseq análisis de datos que pueden ayudar en la colaboración y la corroboración entre grupos de investigación. Aquí, se demuestra la aplicación de BCP a factor de transcripción existente 10,11 y datos epigenéticos 12 para ilustrar su utilidad.
1. Preparación de los ficheros de entrada para el análisis de BCP
2a. Difundir Leer perfiles: Chip Preprocesamiento Leer densidades para la detección de las Islas enriquecido en datos difusos
2b. Leer puntiformes perfiles: Chip Preprocesamiento y archivos de entrada CAMA para la detección de picos en los datos puntiformes
3. Calcule el promedio de lectura de densidad posterior de cada bloque utilizando nuestro Aproximación BCMIX
4a. Difundir Leer perfiles: Proceso de Post-Medios posteriores en segmentos de Enriquecimiento difusa
4b. Punteada Leer perfiles: Proceso Post-Medios posteriores a los candidatos Peak
BCP supera a la identificación de las regiones del enriquecimiento general en los datos de modificación de histonas. Como punto de referencia, que previamente han comparado nuestros resultados con los de SICER 3, una herramienta existente que ha demostrado buenos resultados. Para ilustrar mejor las ventajas del BCP, se analizó una modificación de las histonas que había sido bien estudiada para establecer una base para la evaluación de las tasas de éxito. Con esto en mente, a continuación, analizar H3K...
Nos propusimos desarrollar un modelo para el análisis de datos ChIPseq que pudieran identificar tanto las estructuras de datos y puntiforme difusa igual de bien. Hasta ahora, las regiones de enriquecimiento, en particular las regiones difusas, que reflejan la expectativa de presuponía tamaño de la isla grande, han sido difíciles de identificar. Para hacer frente a estos problemas, hemos utilizado los avances más recientes en la tecnología HMM, que poseen muchas ventajas sobre los modelos heurísticos existentes y ...
No hay conflictos de interés declarado.
STARR Premio de la Fundación (MQZ), NIH subvención ES017166 (MQZ), NSF subvención DMS0906593 (HX).
Name | Company | Catalog Number | Comments |
Nombre del reactivo | Empresa | Número de catálogo | Comentarios (opcional) |
Linux estación de trabajo basada |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados