JoVE Logo

サインイン

このコンテンツを視聴するには、JoVE 購読が必要です。 サインイン又は無料トライアルを申し込む。

この記事について

  • 要約
  • 要約
  • プロトコル
  • 結果
  • ディスカッション
  • 開示事項
  • 謝辞
  • 資料
  • 参考文献
  • 転載および許可

要約

当社ベイジアン変化点(BCP)のアルゴリズムは変化点隠れマルコフモデルを経由してモデリングの最先端の進歩に基づいて構築され、クロマチン免疫沈降シーケンス(ChIPseq)データ解析に適用します。 BCPは、広範かつ点状の両方のデータ·タイプではうまく実行されますが、正確にびまん性ヒストン濃縮の堅牢で再現性の島々を識別するのに優れています。

要約

ChIPseqは、タンパク質-DNA相互作用を調査するために広く使われているテクニックです。読む密度プロファイルは、タンパク質に結合したDNAの次世代シーケンシングを使用しており、リファレンスゲノムに読む短いを整列させることによって生成されます。濃縮された領域は、多くの場合、標的タンパク質1に応じて、形状が大幅に異なるピークとして明らかにされています。例えば、転写因子は、多くの場合、サイトと配列特異的に結合し、ヒストン修飾がより普及していると濃縮2の広い、びまん性の島々によって特徴付けられる一方で、点状のピークを生成する傾向があります。確実にこれらの地域を特定することが我々の仕事の中心だった。

ChIPseqデータを解析するためのアルゴリズムはヒューリスティクス3月5日から、より厳密な統計モデルに様々な方法、 例えば 、隠れマルコフモデル(HMM)6-8を採用してきた。我々は困難な定義、アドホックパラメータそれほど頻繁にする必要性を最小限に抑えるソリューションを求めて解像度を妥協し、ツールの直感的な使いやすさを軽減。 HMMベースの方法につきましては、パラメータ推定の手順としばしば利用されているシンプルな、有限状態分類を抑制することを目的とした。

さらに、従来のChIPseqデータ分析はの分類を含む適切なツールのその後のアプリケーションに続いて点状またはびまん性のいずれかとして密度プロファイルを読んで期待した。我々は、さらに上手にデータ型のスペクトル全体を扱うことができ、単一の、より汎用性の高いモデルで、これら二つの異なるモデルの必要性を置き換えることを目的とした。

これらの目的を満たすために、我々は最初だけ明示的な式-その性能の優位性に不可欠な技術革新を利用したHMM 9における最先端の進歩を使用して、統計的枠組み自然にモデル化したChIPseqデータ構造を構築した。ヒューリスティックモデルより洗練された、私たちのHMMはを通して無限隠れ状態に対応しベイズモデル。我々は、さらに濃縮のセグメントを定義読ん密度で合理的な変更点を識別に適用した。我々の分析では、私たちのベイジアン変化点(BCP)のアルゴリズムは演算量の増加を抑え、証明抄訳実行時間とメモリフットプリントを持っていた方法で明らかにした。 BCPのアルゴリズムが正常に堅牢な正確さと限られたユーザー定義のパラメータを使用して点状のピークおよびびまん島の識別の両方に適用した。これは、その汎用性と使いやすさの両方を示す。従って、我々はそれがそれの研究グループ間の連携と確証するのを助けることができるChIPseqデータ解析のための偉大なツールとなって、簡単に比較し、対比された方法でのデータ型およびエンドユーザの幅広い範囲にわたって容易に実現できると信じています。ここでは、その有用性を説明するために、既存の転写因子10,11およびエピジェネティックなデータ12にBCPのアプリケーションを示しています。

プロトコル

1。 BCPの解析用の入力ファイルを準備する

  1. 優先短い読み取りアラインメントソフトウェアを使用して、適切なリファレンスゲノムに実行(ChIPと入力ライブラリ)シークエンシングから生産読み取るショートの位置を合わせます。マップされた場所は、拡張可能なデータ(BED)形式13(UCSCゲノムブラウザ、6カラムブラウザに変換する必要がありますhttp://genome.ucsc.edu/開始位置は、マップされたあたり)、タブ区切り線は、マップされた染色体を示す読み出し(0ベース)、終了位置(ハーフオープン)、名前、スコア(オプション)、およびストランドをお読みください。

2A。プロファイルを読む拡散:前処理チップは、びまん性に富むデータ諸島の検出のための密度を読む

  1. 所定の断片の長さ、 すなわちにチップと入力マップ場所を拡張します。フラグメントサイズは​​、通常200 bpの周りには、DNAの酵素消化または超音波処理時にターゲットに。フラグメント計数し、その後凝集アール隣接したビンでテッド。デフォルトでは、ビンのサイズは200 bpの推定断片長に設定されています。
  2. 同一の読み取りカウントを持つビンのセット内の任意の可能な変化点は、最も外側の境界において、最も可能性の高い分類されます。従って、変化点が同じ読み取りカウントを持つ2つのビンの間の内部境界で発生することはありそうにない。だから、同じグループと隣接したビンは、単一のブロック、 すなわちに、ビンごとに読み取ります。 bedGraph形式13。

図2b。点状読むプロフィール:点状のデータのピークの検出のための前処理チップと入力BEDファイル

  1. プラスとマイナス鎖チップが別々に読み取るために重複集計を読み取ります。ストランド特定の読み取り密度はプラスとマイナスのピークの二峰性のプロファイルを形成すべきである。最も濃縮されたピークのプラス/マイナスのペアを選択し、ライブラリの断片の長さのための推定値としてそれらの首脳間の距離を使用します。
  2. ChIPをシフトして、入力は半分フラグメントルを読み取りシフトと合併し、プラスとマイナス鎖の読み取りの読み取り密度と中心を再計算するngth。断片の長さを推定するためのこの方法論は、チャン 3から採用されました。同じマージカウントの位置が2a.2をステップと同様のブロックにグループ化する必要があります。

3。当社BCMIX近似法を用いた各ブロックの事後平均読む密度を推定

  1. 各ブロックの読み出し密度はガンマ分布の混合後の平均パラメータ、Γ(α、β)と(θt)はPOIを、ポアソン分布としてモデル化され、変化点の事前確率は、任意のブロック境界で発生しているp。GのコンディショニングPOIS(θt)が(α、β)を効果的にモデルに無期限の状態のHMMをレンダリングします。最大事後確率を用いて、ハイパーパラメータα、β、 および p 推定する
  2. 明示のためのベイズ推定値を計算する各ブロック、θT、としてE(θT |γZ)です 。後部手段を推定するより計算効率有界複雑混合近似で、しばしばHMMのに使用される、より伝統的な前進が、時間がかかり、後方にフィルターを交換して、θC。結果として事後手段は同じで、θcを持つブロックのでおおよその区分的に一定のプロファイルに"平滑化"になり、さらに更新された境界の座標と一緒にブロックする必要があります。

図4a。拡散濃縮のセグメントにポストプロセス臼歯手段:プロファイルを読む拡散

  1. 入力数(λA)POIS、背景率としてそれぞれの新しいθCブロックごとに読み込みを使用し、ChIP事後平均は、θC、いくつかの閾値δを超えているかどうかに基づいて、単純な仮説検定を用いて濃縮を決定します。 90 回</ SUP>-クオンタイルはデフォルトdである、ほとんどの場合に適しています。
  2. シンプルな床形式の単一の領域およびレポートマージ座標に濃縮を超える隣接θCブロックをマージします。あるいは、1は読み取り密度推定の高解像度の詳細を保持するbedGraph形式で、各ブロックのθcを報告することができます。

図4b。点状読むプロフィール:ピーク候補にポストプロセス臼歯手段

  1. すべての読み取り回数の平均値(γ2)のように、(λA)POIS、背景率を定義し、しきい値は、dを超えてすべてのブロックを識別します。点状のピークがそれ以上の実質的富化されると予想されるので、デフォルトのδはPOIの99 番目 -変位値(λA)に設定されます。
  2. 候補ピークの頂上として最大のθCでブロックを設定し、同様の読み取りdenを共有ブロックに隣接する隣接sity(±1は若干のばらつきを考慮するためにカウントを読み取る)。この隣り合う領域は候補結合部位として定義されています。
  3. ChIPの候補結合部位と仮説検定の平均読み取りカウントとしてλ2を計算 、この対の入力背景は帰無仮説があったが、H 0は 、つまり、λ1 p値のしきい値に基づい≥λ2H 0を棄却。ベッドの形式で出力候補ピーク。

結果

BCPは、ヒストン修飾データに幅広い濃縮の領域を同定するに優れています。基準点として、我々は以前SICER 3、強力な性能を実証した既存のツールの方々に結果を比較した。最高のBCPの利点を説明するために、我々はよく成功率を評価するための基盤を確立するために検討されていたヒストン修飾を検討した。それは積極的に転写された遺伝子の本体( 図1)と強く結合?...

ディスカッション

我々は、同様にうまく斑点およびびまん性両方のデータ構造を識別することができるChIPseqデータを分析するためのモデルを開発するために着手した。今までは、濃縮の地域では、大きな島の大きさの前提期待を反映して、特に拡散領域は、特定することは困難であった。これらの問題に対処するために、我々は既存のヒューリスティック·モデルと少ない革新的なHMMを比べて多くの利点を持?...

開示事項

特別な利害関係は宣言されません。

謝辞

STARR財団賞(MQZ)、NIHの助成金ES017166(MQZ)、NSFの助成DMS0906593(HX)。

資料

NameCompanyCatalog NumberComments
試薬の名称 会社 カタログ番号 コメント(オプション)
Linuxベースのワークステーション

参考文献

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

転載および許可

このJoVE論文のテキスト又は図を再利用するための許可を申請します

許可を申請

さらに記事を探す

70 ChIP seq

This article has been published

Video Coming Soon

JoVE Logo

個人情報保護方針

利用規約

一般データ保護規則

研究

教育

JoVEについて

Copyright © 2023 MyJoVE Corporation. All rights reserved