JoVE Logo

Sign In

A subscription to JoVE is required to view this content. Sign in or start your free trial.

In This Article

  • Summary
  • Abstract
  • Protocol
  • النتائج
  • Discussion
  • Disclosures
  • Acknowledgements
  • Materials
  • References
  • Reprints and Permissions

Summary

تغيير وجهة نظرنا النظرية الافتراضية (BCP) خوارزمية يستند دولة من بين الفن النمذجة التقدم في التغيير عبر نقاط نماذج ماركوف المخفية ويطبقها على لونين مناعي التسلسل (ChIPseq) تحليل البيانات. BCP يؤدي جيدا في كل أنواع البيانات واسعة النطاق والمنقط، ولكن تتفوق في تحديد بدقة قوية والجزر استنساخه من تخصيب هيستون منتشر.

Abstract

ChIPseq هو أسلوب يستخدم على نطاق واسع للتحقيق في البروتين DNA التفاعلات. يتم إنشاء ملفات تعريف الكثافة قراءة باستخدام التسلسل التالي من البروتين DNA محددة وقصيرة محاذاة يقرأ إلى الجينوم مرجعية. وكشف مناطق التخصيب والقمم، والتي تختلف في كثير من الأحيان بشكل كبير في الشكل، اعتمادا على البروتين الهدف 1. على سبيل المثال، غالبا ما تربط عوامل النسخ في موقع وبطريقة تسلسل معين وتميل إلى إنتاج الذروة نقطي، بينما هي تعديلات بسيطة أكثر انتشارا وتتميز الجزر، واسعة الانتشار من تخصيب 2. تحديد هذه المناطق بشكل موثوق كان محور عملنا.

استخدمت خوارزميات لتحليل البيانات ChIPseq منهجيات مختلفة، من الاستدلال 3-5 على نماذج أكثر صرامة الإحصائية، على سبيل المثال نماذج ماركوف المخفية (HMMs) 6-8. سعينا إلى حل تقلل من ضرورة يصعب تحديد والمخصصة المعلمات التي غالبا ماتنازلات القرار ويقلل من قابليتها للاستخدام بديهية من الأداة. فيما يتعلق HMM القائم على الأساليب، ونحن تهدف للحد من إجراءات تقدير المعلمة وبسيطة، والتصنيفات الدولة محدودة التي تستخدم في كثير من الأحيان.

بالإضافة إلى ذلك، تحليل البيانات التقليدية ChIPseq ينطوي التصنيف من المتوقع قراءة ملامح كثافة نقطية أو إما منتشر ثم طلب بعد ذلك الأداة المناسبة. نحن تهدف إلى زيادة الحاجة إلى استبدال هذين النموذجين متميزة مع نموذج واحد أكثر تنوعا، والتي يمكن أن تعالج باقتدار طائفة كاملة من أنواع البيانات.

لتحقيق هذه الأهداف، ونحن لأول مرة بناء إطار إحصائي أن غرار طبيعي ChIPseq هياكل البيانات باستخدام مسبقا في طليعة HMMs والتي تستخدم فقط الصيغ الصريحة، والابتكار حاسما لمزايا أدائها. نماذج الكشف عن مجريات الأمور أكثر تعقيدا بعد ذلك، لدينا تسع دول HMM مخفي لا حصر له من خلالالنظرية الافتراضية النموذج. طبقنا لتحديد نقاط تغيير معقول في كثافة القراءة، التي تحدد مزيد من شرائح تخصيب اليورانيوم. كشف تحليلنا كيف لنا نقطة تغيير النظرية الافتراضية (BCP) خوارزمية كان التعقيد يشهد انخفاض الحسابية من قبل وقت التشغيل مختصرة وأثر الذاكرة. تم تطبيق الخوارزمية بنجاح BCP إلى كل من الذروة ونقطي منتشر تحديد الجزيرة مع دقة قوية ومحدودة المعلمات المعرفة من قبل المستخدم. هذا يتضح كلا من براعة وسهولة الاستخدام. وبناء على ذلك، فإننا نعتقد أنه يمكن تنفيذها بسهولة في مدى واسع من أنواع البيانات والمستخدمين النهائيين على نحو تتم مقارنة بسهولة ويتناقض، مما يجعلها أداة عظيمة لتحليل البيانات ChIPseq التي يمكن أن تساعد في التعاون وتأييد بين المجموعات البحثية. هنا، علينا أن نبرهن تطبيق BCP إلى عامل النسخ الموجودة والبيانات 10،11 اللاجينية 12 إلى توضيح فائدتها.

Protocol

1. إعداد ملفات الإدخال لتحليل BCP

  1. محاذاة قصيرة التسلسل يقرأ المنتجة من أشواط (رقاقة والمكتبات المدخلات) إلى الجينوم مرجعية مناسبة باستخدام المحاذاة المفضل قراءة قصيرة البرمجيات. ينبغي تحويل المواقع تعيينها إلى 6 بيانات العمود الموسعة متصفح (BED) شكل 13 (UCSC متصفح الجينوم، http://genome.ucsc.edu/ )، وهو خط المفصول في قراءة معين مما يدل على كروموسوم معين، تبدأ الموقف (0-إلى)، نهاية الموقف (نصف مفتوحة)، وقراءة الاسم ونقاط (اختياري)، وحبلا.

2A. نشر مقروءة الملامح: تشيب تجهيزها لقراءة كثافات الكشف عن اليورانيوم في جزر البيانات منتشر

  1. تمديد رقاقة والمواقع الإدخال تعيينها إلى طول القطعة محددة سلفا، أي. حجم جزء استهدفت خلال عملية الهضم الانزيم أو sonication من الحمض النووي، وعادة حوالي 200 سنة مضت. التهم هي جزء ثم aggregaتيد في صناديق المجاورة. افتراضيا، يتم تعيين حجم بن لطول جزء تقدر ب 200 BP.
  2. إن أي تغيير محتمل في نقاط مجموعة من صناديق متطابقة مع قراءة معظم التهم سقوط المحتمل في الحدود الخارجية أكثر. وبناء عليه، فإنه ليس واردا أن نقطة التغيير سوف يحدث في الحدود الداخلية بين اثنين من صناديق مع التهم قراءة نفسه. لذلك، مجموعة صناديق المجاورة، مع مطابقة يقرأ في بن، في كتلة واحدة، أي. bedGraph شكل 13.

2B. منقط ملامح القراءة: رقاقة تجهيزها وملفات الإدخال BED لكشف البيانات في قمم المنقط

  1. تداخل الكلي ليقرأ المعالج حبلا زائد وناقص يقرأ بشكل منفصل. ينبغي أن حبلا محددة كثافة قراءة تشكيل الملف الشخصي ذات النسقين من قمم زائد وناقص. بالإضافة إلى اختيار أزواج / ناقص من قمم معظم المخصب واستخدام المسافة بين القمة على أنها تقدير لمكتبة طول القطعة.
  2. تحويل شريحة والمدخلات يقرأ نصف جنيه جزءngth إلى المركز وإعادة حساب الكثافة للقراءة بالإضافة إلى تحول ودمج وناقص يقرأ حبلا. اعتمد هذه المنهجية لتقدير طول جزء من تشانغ، وآخرون. 3. ينبغي تجميع مواقف متطابقة مع دمج التهم إلى كتل، على غرار الخطوة 2a.2.

3. تقدير متوسط ​​الخلفي كلمة كثافة استخدام كل كتلة لدينا تقريب BCMIX

  1. وعلى غرار كثافة قراءة كل كتلة وتوزيع بواسون، تغييرنقاط POI ر)، مع معلمة يعني بعد خليط من توزيعات غاما، Γ (α، β)، واحتمال مسبقة من نقطة التغيير التي تحدث في أي كتلة الحدود ع. تكييف تغييرنقاط POI ر) على G (α، β) يجعل نموذج فعال لHMM الدولة لانهائية. تقدير فرط المعلمات، α، β، و ف، وذلك باستخدام أقصى احتمال الخلفي.
  2. حساب تقديرات بايز صراحة عنكل كتلة، ر θ، وE (θ ر | γ Z). استبدال المستهلكة التقليدية ولكن الوقت إلى الأمام والخلف الفلاتر غالبا ما تستخدم في HMMs، مع تقريب التعقيد أكثر كفاءة خليط حسابيا لتقدير وسائل يحدها الخلفي، θ ج. وسوف تنتج وسائل الخلفي يكون "ممهدة" في ملف تعريف تقريبي المستمر piecewise ولذلك يجب كتل مع ج، θ متطابقة، ومنعت كذلك مع الحدود تحديث الإحداثيات.

4A. نشر مقروءة الملامح: ما بعد العملية يعني الخلفي إلى قطاعات لتخصيب منتشر

  1. استخدام عدد من المدخلات يقرأ في كل كتلة جديدة ج θ، حيث وصل سعر الخلفية، تغييرنقاط POI (λ أ) وتحديد تخصيب باستخدام اختبار فرضية بسيطة، تنبني على ما إذا كان يعني رقاقة الخلفي، θ ج، يتجاوز بعض δ العتبة. ال 90 </ سوب>-quantile هو د الافتراضي وغير مناسبة في معظم الحالات.
  2. دمج المجاورة θ ج الكتل التي يتجاوز تخصيب في منطقة واحدة ودمج التقرير في شكل إحداثيات BED بسيطة. بدلا من ذلك، يمكن للمرء أن تقرير θ ج لكل كتلة في شكل bedGraph للحفاظ على تفاصيل عالية الدقة للتقديرات الكثافة قراءة.

4B. منقط مقروءة الملامح: ما بعد العملية يعني الخلفي إلى المرشحين الذروة

  1. تحديد النسبة الخلفية، تغييرنقاط POI (λ أ)، ومتوسط ​​قراءة جميع التهم الموجهة إليه (γ 2) وتحديد جميع الكتل التي تتجاوز عتبة، د. ومن المتوقع منذ قمم منقط إلى أن تكون أكثر بكثير المخصب، يتم تعيين الافتراضي إلى δ-quantile ال 99 من النقاط المهمة (λ أ).
  2. تعيين كتلة (ج) مع θ القصوى كمرشح قمة الذروة وتجاور كتل المرافقة التي تشترك في دين قراءة مماثلةsity (± 1 قراءة الاعتماد للسماح اختلاف طفيف). يتم تعريف هذه المنطقة ملاصقة كموقع مرشح ملزمة.
  3. حساب λ (2)، التهم متوسط ​​قراءة في موقع المرشح المعالج اختبار الفرضية الملزمة وهذه الخلفية المدخلات مقابل كانت فرضية العدم، H هو أن λ 1λ (2) ورفض H 0 استنادا عتبة ف القيمة. قمم مرشح الإخراج في تنسيق BED.

النتائج

BCP تتفوق في تحديد مناطق واسعة في تخصيب تعديل البيانات هيستون. كنقطة مرجعية، ونحن في السابق مقارنة نتائجنا لتلك التي SICER أداة القائمة التي أثبتت أداء قويا. لتوضيح مزايا أفضل BCP، ودرسنا على تعديل هيستون التي تم دراستها بشكل جيد لإرساء أساس لتقييم معدلات النجاح. ?...

Discussion

شرعنا في تطوير نموذج لتحليل البيانات التي يمكن أن ChIPseq تحديد كل منقط ومنتشر بشكل جيد على قدم المساواة هياكل البيانات. حتى الآن، كانت مناطق التخصيب، ولا سيما المناطق المنتشر، والتي تعكس حجم التوقع يفترض من جزيرة كبيرة ويصعب التعرف عليها. لمعالجة هذه المشاكل، ونحن است?...

Disclosures

الإعلان عن أي تضارب في المصالح.

Acknowledgements

STARR مؤسسة جائزة (MQZ)، NIH منحة ES017166 (MQZ)، NSF منحة DMS0906593 (HX).

Materials

NameCompanyCatalog NumberComments
اسم كاشف شركة كتالوج رقم التعليقات (اختياري)
لينكس على أساس محطة العمل

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Explore More Articles

70

This article has been published

Video Coming Soon

JoVE Logo

Privacy

Terms of Use

Policies

Research

Education

ABOUT JoVE

Copyright © 2025 MyJoVE Corporation. All rights reserved