JoVE Logo

登录

需要订阅 JoVE 才能查看此. 登录或开始免费试用。

本文内容

  • 摘要
  • 摘要
  • 研究方案
  • 结果
  • 讨论
  • 披露声明
  • 致谢
  • 材料
  • 参考文献
  • 转载和许可

摘要

我们的贝叶斯变点(BCP)算法的基础上通过隐马尔可夫模型的造型变化点的国家的最先进的进步和应用染色质免疫沉淀测序(ChIPseq)数据分析。 BCP执行在广泛和点状数据类型,但擅长准确地识别健壮的,可重复的岛屿弥漫组蛋白富集。

摘要

ChIPseq是一种广泛使用的技术,用于调查蛋白质-DNA相互作用。读密度分布所产生的使用下一个 - 蛋白结合的DNA测序和对准读取到参考基因组的短。富集的区域显示峰,这往往显着不同的形状,这取决于对目标蛋白1。例如,转录因子通常在现场和序列特异性方式结合,往往会产生点状的山峰,而组蛋白修饰更普遍的特点是广泛的,弥漫性的岛屿富集2。可靠地识别这些地区是我们的工作重点。

算法分析ChIPseq数据采用各种方法,启发式3-5进行更加严格的统计模型, 例如隐马尔可夫模型(HMM模型)6-8。我们试图最小化的必要性难以界定,专案参数,通常的解决方案,妥协的分辨率和减轻直观的工具的可用性。基于HMM的方法,我们的目的是限制参数估计的程序和简单的,有限状态分类,往往利用。

此外,传统ChIPseq的数据分析包括分类的读取密度分布为点状或弥漫性的后续应用适当的工具。我们还旨在取代这两个不同的模型需要一个单一的,更灵活的模型,它可以足够能力解决整个频谱的数据类型。

为了实现这些目标,我们首先构建了一个统计框架,自然为蓝本ChIPseq数据结构尖端提前HMM模型9,利用唯一明确的公式,其性能优势的关键创新。更复杂的启发式模型,通过我们的的HMM可容纳无限的隐藏状态贝叶斯模型。我们把它应用在读取密度,进一步定义丰富的段,确定合理的变化点。我们的分析表明,我们的贝叶斯变点(BCP)算法具有降低计算复杂度,证明了一个简化的运行时间和内存占用。 BCP算法已成功地应用于斑点状的峰值和漫岛的识别与强​​大的精度和有限的用户定义的参数。这所示,它的多功能性和易用性。因此,我们认为它可以容易地实现在广泛的范围内的数据类型和最终用户的方式,很容易比较和对比,使其成为一个伟大的工具ChIPseq数据的分析,可以帮助研究团体之间的协作和佐证。在这里,我们演示了应用程序的BCP现有的转录因子10,11和表观数据来说明它的用处。

研究方案

1。准备输入文件BCP分析

  1. 对齐短期运行(芯片和输入库)使用首选短读校准软件到相应的参考基因组测序读。映射的位置应该被转换为6列浏览器的可扩展的数据格式(BED)13(UCSC基因组浏览器, http://genome.ucsc.edu/ ),制表符分隔的每行对应的读表示映射的染色体,起始位置(从0开始),结束位置(半开),读的名字,得分(可选)和链。

2A。弥漫读取配置文件:预处理芯片的读为检测弥漫数据丰富的群岛密度

  1. 扩展到预定的片段长度, 芯片和输入对应的位置。针对在酶消化或超声处理的DNA的片段大小,通常为约200 bp的。片段数aggrega特德在相邻位置。 bin大小设置为默认情况下,估计片段长度为200 bp的。
  2. 任何可能的变化点中的一组的箱具有相同的读取计数将最有可能下降在最的外边界。因此,这是不可能的,将发生在两个时间窗相同的读计数的内部边界之间的变化点。因此,组相邻位置,以相同的读取每个回收箱,成一个单一的块, 。 bedGraph格式13。

2B。点状读取配置文件:预处理芯片和输入BED检测的峰点状数据文件

  1. 总重叠读取,读取分别为正,负链芯片。链特定的读的密度应形成一个加号和减号峰双峰档案。选择加/减对最丰富的山峰和使用首脑会议库片段长度的估计值之间的距离。
  2. 按住Shift键的芯片和输入读取的片段文件ngth的中心,并重新计算的转移和合并的加号和减号链读取读取密度。这种推定 ​​片段长度的方法是采用从章, 。3。应分组具有相同的合并计数的位置,成块,类似于步骤2A.2。

3。估算后,平均密度每块使用我们的BCMIX逼近

  1. 读取每个块的密度建模为泊松分布,泊松(θt)的,与平均参数Gamma分布的混合物后,Γ(α,β),和先验概率的变化点发生在任何数据块边界空调泊松(θ )G(α,β)。有效的渲染无限的状态HMM模型。估价超参数,α,β, p,使用最大后验似然。
  2. 显式计算的贝叶斯估计每个块,θ 为E(θ 吨|γZ)。更换更传统,但耗费时间向前和向后的过滤器经常使用的HMM模型,更有效地计算界的复杂混合近似估计后验手段,θC。后的手段,将“平滑”成一个近似分段恒定的个人资料,以便块相同,θC,应进一步封锁一起更新的边界坐标。

4A。成段弥漫性增高,弥漫读取配置文件:后处理后的手段

  1. 使用数字输入读取每一个新的θC座为背景率,泊松(λ )每使用一个简单的假设检验的基础上的芯片是否后平均,θC,超过某个阈值δ确定富集。 90 日</ SUP>位数是的默认d和在大多数情况下是合适的。
  2. 合并相邻的θC块,超过了浓缩成一个单一的地区和报表合并简单的床格式的坐标。或者,用户可以为每个块在bedGraph格式保持高分辨率的细节的读出的密度估计θc报告。

4B。点状到山顶考生的阅读概况:后处理后的手段

  1. 定义背景率,泊松(λ ),作为平均的所有读出的计数(γ2)和拣选超过阈值,D的所有块。由于点状峰预期更基本上富集,默认δ被设置为99 泊松(λ ) -分位数。
  2. 设置块最大的θc为候选峰值首脑会议的毗邻的侧翼块共享一个类似的读巢穴SITY(±1读取数允许有轻微的变化)。此邻接的候选结合位点的区域被定义为。
  3. 计算λ2作为沉淀的候选结合位点与假设检验的平均读取计数,这与输入的背景是零假设H 0,λ1≥λ2拒绝 H 0的基础上的p-值的阈值。输出候选人峰在床上格式。

结果

BCP擅长识别组蛋白修饰数据的广泛富集的地区。作为一个参照点,我们以前相比,我们的研究结果的SICER 3,现有的工具,已显示出强大的性能。为了更好地说明BCP的优势,我们研究了组蛋白的修饰,得到了很好的研究,建立评估成功率的基础。然后考虑到这一点,我们分析H3K36me3,因为它已经显示出强烈的积极转录基因体( 图1)关联。相反,H3K36me3也被证明是互斥H3K27me3压?...

讨论

我们的目标是建立一个模型分析ChIPseq数据同样可以识别点状和弥漫性两种数据结构。到现在为止,富集的地区,尤其是弥漫性的地区,这反映了先决条件预期的大岛,大小,已经难以辨认。为了解决这些问题,我们利用最新进展在HMM的技术,具有许多优点,现有的的的启发式模型和缺乏创新的HMM模型。

我们的模型使用明确的公式与贝叶斯框架。从其他HMM模型,这是一个关键?...

披露声明

没有利益冲突的声明。

致谢

斯塔尔基金会奖(MQZ),美国国立卫生研究院授予ES017166(MQZ),美国国家科学基金会:授予DMS0906593(HX)。

材料

NameCompanyCatalog NumberComments
的试剂的名称 公司 目录编号 评论(可选)
基于Linux的工作站

参考文献

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

转载和许可

请求许可使用此 JoVE 文章的文本或图形

请求许可

探索更多文章

70 ChIP seq

This article has been published

Video Coming Soon

JoVE Logo

政策

使用条款

隐私

科研

教育

关于 JoVE

版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。