JoVE Logo

Sign In

A subscription to JoVE is required to view this content. Sign in or start your free trial.

In This Article

  • Summary
  • Abstract
  • Protocol
  • תוצאות
  • Discussion
  • Disclosures
  • Acknowledgements
  • Materials
  • References
  • Reprints and Permissions

Summary

נקודת השינוי בייס שלנו (BCP) אלגוריתם בונה על התקדמות מדינה-of-the-art בדוגמנות שינוי נקודות באמצעות מודלי מרקוב נסתרים וחייל אותם על הכרומטין immunoprecipitation ניתוח נתוני רצף (ChIPseq). BCP מבצע היטב בסוגי נתונים רחבים וpunctate, אבל מצטיין בזיהוי איים חזקים, לשעתק של העשרת היסטון מפוזרת באופן מדויק.

Abstract

ChIPseq היא טכניקה המשמשת באופן נרחב לחקר אינטראקציות-DNA חלבון. קראו פרופילי צפיפות נוצרים באמצעות הבא של רצף ה-DNA של חלבון נישא ויישור הקצר קורא לגנום הפניה. אזורים מועשרים מתגלים כפסגות, אשר לעתים קרובות נבדלים באופן דרמטי במצב, תלוי בחלבון המטרה 1. לדוגמה, לעתים קרובות גורמי שעתוק להיקשר באתר ואופן רצף ספציפי ונוטים לייצר פסגות punctate, תוך שינויי היסטון הם נפוצים יותר ומאופיינים באיים רחבים, מפוזרים של העשרה 2. אמין זיהוי אזורים אלה היה המוקד של העבודה שלנו.

אלגוריתמים לניתוח נתוני ChIPseq העסיקו מתודולוגיות שונות, משיטות היוריסטיות 3-5 ליותר מודלים סטטיסטיים קפדניים, מודלי מרקוב נסתרים (למשל הממ) 6-8. אנחנו חפשנו פתרון שהקטין את הצורך לקשה להגדרה, אד הוק פרמטרים שלעתים קרובותהרזולוציה להתפשר ולהפחית את השימושיות אינטואיטיבית של הכלי. עם כל כבוד לשיטות HMM מבוססים, אנו מכוונים לצמצום שיטות אמידות פרמטרים וסיווגים פשוטים, סופיים מדינה שלעתים קרובות מנוצלים.

בנוסף, ניתוח נתוני ChIPseq קונבנציונלי כרוך סיווג צפוי לקרוא פרופילי צפיפות כאחד punctate או מפוזר ואחרי היישום הבא של הכלי המתאים. אנחנו עוד מטרה להחליף את הצורך בשני דגמים שונים אלה עם מודל יחיד, תכליתי יותר, שיכול לטפל בכשרון את כל הספקטרום של סוגי נתונים.

כדי לעמוד ביעדים אלה, אנו נבנינו מסגרת סטטיסטית הראשונים שככבו באופן טבעי מבני ChIPseq נתונים באמצעות מראש חוד חנית ב9 הממ, אשר מנצל מפורשות רק נוסחות-חדשנות חיונית ליתרונות הביצועים שלה. מודלים מתוחכמים יותר אז האוריסטי, HMM להכיל מצבים נסתרים אינסופיים דרךמודל ייס. אנחנו יישמנו אותו לזיהוי נקודתי שינוי סבירות בצפיפות לקרוא, אשר נוסף להגדיר מקטעים של העשרה. הניתוח שלנו גילה כמה ייס שינוי נקודת האלגוריתם שלנו (BCP) הייתה מורכבות חישובית, שמעידות מופחתות זמן ריצה מתומצת וגודל פיזי של זיכרון. אלגוריתם BCP יושם בהצלחה לשניהם שיא punctate והזדהות אי מפוזרת עם דיוק חזק ופרמטרים מוגדרים משתמש מוגבלים-. זה מאויר הן צדדי וקל שימוש שלה. כתוצאה מכך, אנו מאמינים כי ניתן ליישם בקלות בטווח הרחב של סוגי הנתונים ומשתמשי קצה באופן שהוא קל להשוואה וניגוד, מה שהופך אותו לכלי מצוין לניתוח נתוני ChIPseq שיכול לסייע בשיתוף פעולה ואימות בין קבוצות מחקר. הנה, אנחנו מדגימים את היישום של חומר לגורם שעתוק קיים ונתוני 10,11 epigenetic 12 כדי להמחיש את השימושיות שלה.

Protocol

1. הכנת קבצי קלט לBCP ניתוח

  1. יישר הקצר קורא מופק מריצות רצף (שבב וספריות קלט) לגנום הייחוס המתאים באמצעות תוכנת יישור המועדפת קצרה לקריאה. המקומות הממופים יש להמיר לפורמט (BED) 13 (דפדפן UCSC הגנום, 6 נתונים להרחבת דפדפן עמודות http://genome.ucsc.edu/), קו מופרד באמצעות טאבים לממופים לקרוא המציין כרומוזום הממופה, יתחילו עמדה (0 מבוססים), עמדה בסוף (פתוח למחצה), קוראה את השם, ציון (לא חובה), וגדיל.

2 א. לפזר קראו פרופילים: שבב preprocessing נקרא צפיפות לאיתור של איים מועשרים בנתונים לדיה

  1. להאריך את השבב ומקומות קלט ממופים לאורך קבוע מראש שבר, כלומר. גודל השבר ממוקד במהלך עיכול או sonication אנזים של ה-DNA, בדרך כלל סביב 200 נקודתי בסיס. ספירת Fragment היא אז aggregaטד בפחים סמוכים. כברירת מחדל, גודל סל מוגדר אורך הקטע המשוער של 200 נ"ב.
  2. כל שינוי אפשרי ב- נקודתי קבוצה של פחים עם ספירת קריאה זהה ייפול סביר ביותר ברוב הגבולות החיצוניים. בהתאם לכך, אין זה סביר שנקודת שינוי תתרחש בגבול פנימי בין שני פחים עם את ספירת הקריאה. אז, פחים סמוכים קבוצה, עם זהה קוראים לסל, לגוש אחד, כלומר. פורמט bedGraph 13.

2b. פרופילי Punctate לקרוא: שבב preprocessing וקבצי BED קלט לאיתור של פיקס בנתוני Punctate

  1. הצבירה החופפת קוראה לשבב הגדיל פלוס מינוס קורא בנפרד. צפיפות הגדיל הספציפית לקרוא צריכה טופס פרופיל bimodal של פסגות חיבור וחיסור. בחר זוגות פלוס / מינוס של הפסגות המועשרות ביותר ולהשתמש במרחק בין פסגותיהם כאומדן לאורך בר הספרייה.
  2. Shift השבב והקלט קורא חצי מהבר length למרכז ולחשב את הצפיפות של הקריאה השתנתה והתמזגה פלוס מינוס גדיל קורא. מתודולוגיה זו להערכת אורך הקטע אומצה מג'אנג, et al. 3. עמדות עם ספירת מיזוג זהה צריכות להיות מקובצים לגושים, בדומה לצעד 2a.2.

3. מעריך האחורי Mean נקרא צפיפות של כל בלוק באמצעות קירוב BCMIX

  1. הצפיפות לקרוא כל בלוק היא במתכונת כהתפלגות פואסון, נקודתי עניין t), עם ממוצע פרמטר בעקבות תערובת של הפצות גמא, Γ (α, β), והסתברות מראש של נקודת שינוי המתרחשת בכל גבול בלוק של p. מיזוג POIs t) על G (α, β) יעיל הופך את המודל HMM מדינה אינסופית. מעריך-פרמטרי היפר, α, β, ו-p, באמצעות סבירות אחורית מרבית.
  2. במפורש לחשב את ההערכות לBayesכל בלוק, לא θ, כמו E (θ t | γ Z). החלף את הצריכה מסורתית יותר, אבל זמן קדימה ואחורה מסננים המשמשים לעתים קרובות בהממ, עם קירוב תערובת מורכבות תחומה יותר מחשוב יעיל להעריך אמצעי אחורי, θ ג. האמצעי האחורי שיתקבל יהיה "מוחלק" בפרופיל קבוע piecewise משוער כך בלוקים עם זהה, ג θ, יש לחסום יחד נוסף עם גבול מתעדכן מרכז.

4 א. לפזר קראו פרופילים: אמצעי אחורי לאחר התהליך למקטעים של העשרה מפוזרת

  1. השתמש במספר הקלט קורא לθ כל בלוק ג חדש כשיעור רקע, נקודתי עניין (λ) ולקבוע העשרה באמצעות בדיקה פשוטה המבוססת על השערה האם הממוצע האחורי השבב, θ ג, עולה על כ δ סף. 90 השנה </ Sup>-quantile הוא ד ברירת המחדל ומתאים ברוב המקרים.
  2. מיזוג סמוך θ ג לוקים כי יעלו ההעשרה לאזור ודוח יחיד למזג קואורדינטות בפורמט המיטה פשוטה. לחלופין, אפשר לדווח ג θ עבור כל בלוק בפורמט bedGraph לשמור את הפרטים ברזולוציה גבוהה של אומדני צפיפות הקריאה.

4 ב. Punctate קרא פרופילים: אמצעי אחורי לאחר התהליך למועמדי שיא

  1. הגדר את קצב הרקע, נקודתי עניין (λ), כממוצע של כל הספירות קראו (γ 2) ולזהות את כל הבלוקים העולים על הסף, ד. מאז פסגות punctate צפויות להיות יותר משמעותי מועשר, δ מוגדר כברירת המחדל של 99 ה-quantile של נקודתי עניין (λ).
  2. הגדר את הבלוק עם ג θ המקסימאלי כפסגת שיא המועמד ולצרף את לוקי איגוף שחולקים דן קריאה דומהsity (± 1 לקרוא לסמוך כדי לאפשר וריאציה קלה). אזור צמוד זו מוגדר כאתר מועמד מחייב.
  3. חישוב λ 2 כספירות קראו הממוצעות באתר שבב המועמד המחייב ובדיקת השערת רקע הקלט לעומת זו היה השערת האפס, H 0, 1 הוא שλλ 2 ונדחה H 0 על בסיס סף p-value. פסגות מועמד תפוקה בפורמט המיטה.

תוצאות

BCP מצטיין בזיהוי האזורים של העשרה רחבה בנתוני השינוי היסטון. כנקודת התייחסות, השוו את התוצאות שלנו בעבר לאלה של 3 SICER, כלי קיים אשר הוכיח ביצועים חזקים. הטוב ביותר להמחיש את היתרונות של BCP, בדק שינוי היסטון שנחקר היטב הוא ליצור בסיס להערכת שיעורי הצלחה. עם זה בחשבו?...

Discussion

אנחנו יצאנו לפתח מודל לניתוח נתוני ChIPseq שיכולים לזהות את שני מבני נתוני punctate ומפוזרים היטב באותה מידה. עד עכשיו, אזורים של העשרה, אזורים מפוזרים במיוחד, המשקפים את ציפיות גודל נחת האי גדול, שהיו קשים לזיהוי. כדי לטפל בבעיות אלה, אנו נצלנו את החידושים האחרונים בטכנולוגי...

Disclosures

אין ניגודי האינטרסים הכריזו.

Acknowledgements

פרס סטאר יסוד (MQZ), מענק NIH ES017166 (MQZ), NSF מענק DMS0906593 (HX).

Materials

NameCompanyCatalog NumberComments
שם המגיב חברה מספר קטלוגים תגובות (אופציונלי)
תחנת עבודה מבוססת לינוקס

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Explore More Articles

70immunoprecipitationseq

This article has been published

Video Coming Soon

JoVE Logo

Privacy

Terms of Use

Policies

Research

Education

ABOUT JoVE

Copyright © 2025 MyJoVE Corporation. All rights reserved