JoVE Logo

Oturum Aç

Bu içeriği görüntülemek için JoVE aboneliği gereklidir. Oturum açın veya ücretsiz deneme sürümünü başlatın.

Bu Makalede

  • Özet
  • Özet
  • Protokol
  • Sonuçlar
  • Tartışmalar
  • Açıklamalar
  • Teşekkürler
  • Malzemeler
  • Referanslar
  • Yeniden Basımlar ve İzinler

Özet

Bizim Bayesian Değişim Noktası (BCP) algoritması Saklı Markov Modelleri ile modelleme değişim noktaları state-of-the-art gelişmeler üzerine inşa ve kromatin immünopresipitasyon sekans (ChIPseq) veri analizi uygular. BCP geniş ve noktasal hem de veri türleri iyi performans sergilediğini, ancak doğru diffüz histon zenginleştirme sağlam, tekrarlanabilir adalar belirlenmesinde öne çıkmaktadır.

Özet

ChIPseq protein-DNA etkileşmeleri araştırmak için yaygın olarak kullanılan bir tekniktir. Oku yoğunluğu profilleri proteine ​​bağlı DNA sonraki sıralama kullanarak ve bir referans genomuna okur kısa hizalayarak tarafından oluşturulur. Zenginleştirilmiş bölgeler genellikle hedef protein 1 bağlı olarak, şekil olarak büyük ölçüde farklılık dorukları, olarak ortaya çıkar. Örneğin, transkripsiyon faktörleri genellikle site ve sekans-spesifik bir şekilde bağlamak ve histon modifikasyonları daha yaygındır ve zenginleştirme 2 geniş, diffüz adalar ile karakterize edilirken, punktat zirveleri üretme eğilimindedir. Güvenilir bu bölgelerin belirlenmesi Çalışmalarımızın odak noktası oldu.

ChIPseq verilerin analiz edilmesi için algoritmalar buluşsal 3-5 den daha titiz istatistiksel modeller için çeşitli yöntemler, örneğin Hidden Markov Modellerinin (HMM'ler) 6-8 istihdam var. Biz zor olan tanımlamak, geçici parametrelerin sık sık gerekliliğini minimize çözüm aranmasıçözünürlük uzlaşma ve aracı sezgisel kullanılabilirlik azaltmak. HMM tabanlı yöntemler ile ilgili olarak, biz parametre kestirimi usul ve sıklıkla kullanılmaktadır basit, sonlu durumlu sınıflandırmalar kısaltmak amaçlanmıştır.

Ayrıca, geleneksel ChIPseq veri analizi kategorizasyonu içermektedir uygun aracı müteakip uygulaması takip noktasal veya diffüz ya olarak yoğunluk profilleri okumak bekleniyor. Biz daha capably veri türleri tüm spektrumu hitap edebilecek bir tek, daha çok yönlü bir model, bu iki farklı modelleri için ihtiyaç yerini amaçladık.

Bu hedeflere ulaşmak için, öncelikle istatistiksel bir çerçeve inşa sadece açık kullanır HMM'ler 9 bir kesme kenarı peşin, formüller-bir performans avantajları için önemli yeniliği kullanarak doğal modellenmiş ChIPseq veri yapıları. Daha sofistike sonra sezgisel modelleri, bizim SMM Bir aracılığıyla sonsuz gizli durumlar barındırmaktadırBayes modeli. Biz daha zenginleştirme kesimleri tanımlamak okumak yoğunluğu, makul değişim noktaları tanımlamak için uygulanır. Bizim analizimiz bizim Bayesian Değişim Noktası (BCP) algoritması azaltılmış bir hesaplama karmaşıklığı-kanıtladığı kısaltılmış çalışma süresi ve bellek izi tarafından vardı gözler önüne serdi. BCP algoritma başarıyla sağlam doğruluğu ve sınırlı kullanıcı tanımlı parametreler ile noktasal tepe ve diffüz ada tanımlama hem de uygulandı. Bu resimli, çok yönlülüğü ve kullanım kolaylığı hem de. Sonuç olarak, biz onu araştırma grupları arasındaki işbirliği ve corroboration yardımcı olabilir ChIPseq veri analizi için harika bir araç yapma, kolaylıkla karşılaştırılmış ve bir şekilde veri tipleri ve son kullanıcılara geniş aralıkları boyunca kolaylıkla uygulanabilir inanıyorum. Burada, yararlılığını göstermek için mevcut transkripsiyon faktörü 10,11 ve epigenetik verileri 12 BCP uygulamasını göstermek.

Protokol

1. BCP Analiz için giriş Dosyalarının Hazırlanması

  1. Tercih edilen kısa okuma hizalama yazılımı kullanılarak uygun referans genomu ile çalışır (ChIP ve giriş kütüphaneleri) dizilim elde okur kısa hizalayın. Eşlenen yerle 6 sütun tarayıcı genişletilebilir veri (BED) biçiminde 13 (UCSC genom tarayıcı, dönüştürülmesi gerekir http://genome.ucsc.edu/ pozisyonu başlatmak), eşlenen başına bir sekme ile sınırlandırılmış satır okumak eşlenmiş kromozomun belirten (0-tabanlı), son konum (yarı-açık), adı, skoru (isteğe bağlı) ve iplikçik okuyun.

2a. Profiller okuyun Diffüz: Önişleme ChIP Diffüz Veri Zenginleştirilmiş Adaları tespiti için Yoğunlukları okuyun

  1. Önceden belirlenmiş bir parça uzunluk, yani ChIP ve giriş eşlenmiş yerle uzatın. Parçanın boyutu genellikle 200 bp etrafında, DNA'nın enzim sindirimi veya sonication sırasında hedef. Fragment sayımları ardından agregabilitesi vardırBitişik bidonları ted. Varsayılan olarak, kutu boyutu 200 bp tahmini parçası uzunluğu ayarlanır.
  2. Olabilecek herhangi bir değişiklik noktaları aynıdır okumak sayımları ile kutuları bir dizi olacak en dış sınırlarında büyük olasılıkla sonbaharda. Buna göre, bir değişim noktası aynı okuma sayıları iki depo arasında bir iç sınır meydana gelmesi ihtimal dışıdır. Yani, aynı olan grup bitişik kutuları, tek bir blok, yani içine, bin başına okur. bedGraph formatında 13.

2b. Punktat okuyun Profilleri: Punktat Veri Peaks tespiti için Önişleme ChIP ve Giriş YATAK Dosyalar

  1. Örtüşen Agrega artı ve eksi iplikçik ChIP ayrı okur için okur. Iplikçik Belirli okumak yoğunlukları artı ve eksi doruklarına bimodal profili oluşturmalıdır. En zenginleştirilmiş doruklarına artı / eksi çiftleri seçin ve kütüphane fragment uzunluk için bir tahmin olarak zirve arasındaki mesafe kullanmak.
  2. ChIP Shift ve giriş yarısı fragmanı le okurdeğiştirdi ve birleştirilmiş artı ve eksi iplikçik okur ve okunan yoğunluk merkezi ve yeniden hesaplamak için ngth. Fragman uzunluğu tahmin edilmesi için bu metodoloji Zhang ve diğ. 3. kabul edilmiştir. Aynı birleştirme sayıları ile Pozisyonlar 2a.2 adıma benzer bloklar halinde gruplandırılmış edilmelidir.

3. Tahmin Posterior bizim BCMIX Yaklaşım kullanan her Blok Yoğunluğu okuyun ortalama

  1. Her bir bloğun okuma yoğunluk Gamma dağılımları bir karışımı ardından ortalama bir parametre, Γ (α, β) ile, t) Pois, bir Poisson dağılım olarak modellenir ve bir değişim noktası bir olasılık önceki herhangi bir blok sınır meydana geliyor p. on G Pois Tertibatı t) (α, β) etkili modeli sonsuz bir devlet SMM vermektedir. Maksimum posterior olabilirlik kullanarak hiper-parametreleri, α, β, ve p, tahmin edin.
  2. Açıkça için Bayes tahminleri hesaplamakHer blok, θ, t olarak E (θ t | γ Z). Ileriye daha geleneksel ama zaman alıcı değiştirin ve geri hesaplama daha verimli Sınırlı Karmaşıklık Karışım yaklaşımı ile sık sık HMM'ler kullanılan filtreler, posterior anlamı tahmin etmek, θ c. Çıkan posterior yollarla aynıdır, θ c, bloklar daha da güncellendi sınır koordinatları ile birlikte bloke edilmelidir böylece yaklaşık bir parçalı değişmez profil içine "yumuşatılmış" olacaktır.

4a. Diffüz Zenginleştirme Kesimleri içine Post-proses Posterior Ortalamalar: Profiller okuyun Diffüz

  1. Giriş sayısı (λ a) Pois, plan oranı olarak her yeni θ c blok başına okur kullanın ve ChIP sonsal ortalama, θ c, bazı eşik δ aşıp aşmadığını dayanan basit bir hipotez testi kullanılarak zenginleştirme belirler. 90. </>-Kantil varsayılan d ve çoğu durumda uygun sup.
  2. Birleştirme bitişik θ c tek bir bölge ve rapor basit YATAK formatında koordinatları birleştirme içine zenginleştirme aşan blokları. Alternatif olarak, bir okuma yoğunluğu tahminlerinin yüksek çözünürlüklü ayrıntılarını korumak için bedGraph formatında her blok için θ c bildirebilirsiniz.

4b. Tepe Adaylar içine post-proses Posterior Ortalamalar: Punktat Profilleri okuyun

  1. Tüm okumak sayıları ortalaması (γ 2) olarak, (λ a) Pois, plan oranı tanımlayın ve eşik, d aşan tüm blokları tanımlamak. Punktat zirveleri daha büyük ölçüde zenginleştirilmiş olması bekleniyor olduğundan, varsayılan δ Pois arasında 99 inci-kantila) ayarlanır.
  2. Aday zirve zirve olarak maksimal θ c blok ayarlayın ve benzer bir salt den paylaşmak sınırdaş blokları yan yanaversitesi (± 1 küçük değişimlerle için izin sayılır okuyun). Bu bitişik bölge bir aday bağlanma yeri olarak tanımlanır.
  3. ChIP aday bağlanma yeri ve hipotez test ortalaması okumak sayar gibi λ 2 hesaplayın Bu karşı girişi arka hipotezi vardı, H 0, yani λ 1 bir p-değeri eşik dayalı ≥ λ 2 ve H 0 red. YATAK formatında çıkış adayı zirveleri.

Sonuçlar

BCP histon modifikasyonu veri geniş zenginleştirme bölgelerinin saptanması üstünlük sağladı. Bir referans noktası olarak, daha önce SICER 3, güçlü bir performans göstermiştir varolan aracı olanlara sonuçlarını karşılaştırdık. Iyi BCP avantajları göstermek için, biz de başarı oranları değerlendirmek için bir vakıf kurmak için çalışılmış bir histon modifikasyonu incelenmiştir. Aktif olarak kopyalanamaz gen organları (Şekil 1) ile güçlü ilişkilendi...

Tartışmalar

Biz eşit derecede iyi hem noktasal ve yaygın veri yapılarını tanımlayabilir ChIPseq verilerin analiz edilmesi için bir model geliştirmek için yola çıktı. Şimdiye kadar, zenginleştirme bölgelerinde, büyük ada boyutu önvarsayıyordu beklentilerini yansıtan, özellikle diffüz bölgeleri, tespit etmek zor olmuştur. Bu sorunları çözmek için, varolan sezgisel model ve daha az yenilikçi HMM'ler üzerinde birçok avantajı sahip SMM teknolojisindeki en son gelişmeler, kullandı.

Açıklamalar

Çıkar çatışması ilan etti.

Teşekkürler

STARR vakıf ödülü (MQZ), NIH hibe ES017166 (MQZ), NSF hibe DMS0906593 (HX).

Malzemeler

NameCompanyCatalog NumberComments
Reaktif Adı Şirket Katalog numarası Yorumlar (isteğe bağlı)
Linux tabanlı iş istasyonu

Referanslar

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Yeniden Basımlar ve İzinler

Bu JoVE makalesinin metnini veya resimlerini yeniden kullanma izni talebi

Izin talebi

Daha Fazla Makale Keşfet

GenetikSay 70BiyoinformatikGenomikMolek ler BiyolojiH cre Biyolojisimm nolojiKromatin imm nopresipitasyonChIP Seqhiston modifikasyonlarsegmentasyonBayesHidden Markov Modelleriepigenetik

This article has been published

Video Coming Soon

JoVE Logo

Gizlilik

Kullanım Şartları

İlkeler

Araştırma

Eğitim

JoVE Hakkında

Telif Hakkı © 2020 MyJove Corporation. Tüm hakları saklıdır