JoVE Logo

Войдите в систему

Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.

В этой статье

  • Резюме
  • Аннотация
  • протокол
  • Результаты
  • Обсуждение
  • Раскрытие информации
  • Благодарности
  • Материалы
  • Ссылки
  • Перепечатки и разрешения

Резюме

Наши байесовского Точка изменения (BCP) алгоритм основывается на состоянии самой современной прогресс в области моделирования изменения точки через скрытых Марковских моделей и применяет их к иммунопреципитации хроматина секвенирования (ChIPseq) анализ данных. BCP хорошо работает как в широком и точечные типов данных, но превосходит точно идентифицировать надежные, воспроизводимые острова диффузного гистонов обогащения.

Аннотация

ChIPseq is a widely used technique for investigating protein-DNA interactions. Read density profiles are generated by using next-sequencing of protein-bound DNA and aligning the short reads to a reference genome. Enriched regions are revealed as peaks, which often differ dramatically in shape, depending on the target protein1. For example, transcription factors often bind in a site- and sequence-specific manner and tend to produce punctate peaks, while histone modifications are more pervasive and are characterized by broad, diffuse islands of enrichment2. Reliably identifying these regions was the focus of our work.

Algorithms for analyzing ChIPseq data have employed various methodologies, from heuristics3-5 to more rigorous statistical models, e.g. Hidden Markov Models (HMMs)6-8. We sought a solution that minimized the necessity for difficult-to-define, ad hoc parameters that often compromise resolution and lessen the intuitive usability of the tool. With respect to HMM-based methods, we aimed to curtail parameter estimation procedures and simple, finite state classifications that are often utilized.

Additionally, conventional ChIPseq data analysis involves categorization of the expected read density profiles as either punctate or diffuse followed by subsequent application of the appropriate tool. We further aimed to replace the need for these two distinct models with a single, more versatile model, which can capably address the entire spectrum of data types.

To meet these objectives, we first constructed a statistical framework that naturally modeled ChIPseq data structures using a cutting edge advance in HMMs9, which utilizes only explicit formulas-an innovation crucial to its performance advantages. More sophisticated then heuristic models, our HMM accommodates infinite hidden states through a Bayesian model. We applied it to identifying reasonable change points in read density, which further define segments of enrichment. Our analysis revealed how our Bayesian Change Point (BCP) algorithm had a reduced computational complexity-evidenced by an abridged run time and memory footprint. The BCP algorithm was successfully applied to both punctate peak and diffuse island identification with robust accuracy and limited user-defined parameters. This illustrated both its versatility and ease of use. Consequently, we believe it can be implemented readily across broad ranges of data types and end users in a manner that is easily compared and contrasted, making it a great tool for ChIPseq data analysis that can aid in collaboration and corroboration between research groups. Here, we demonstrate the application of BCP to existing transcription factor10,11 and epigenetic data12 to illustrate its usefulness.

протокол

1. Подготовка входных файлов для анализа BCP

  1. Совместите короткий читает производится из последовательности серий (чип и ввод библиотеки) к соответствующим геном ссылки с использованием предпочтительного короткие программного обеспечения выравнивания чтения. Отображаемых мест должны быть преобразованы в 6 колонке обозревателя расширяемых данных (BED) формата 13 (УСК геноме браузера, http://genome.ucsc.edu/ ), табуляции линии на отображенные читать с указанием отображенных хромосомы, исходное положение (0-основе), конечное положение (полуоткрытые), прочитать название, оценка (опционально), и пряди.

2а. Диффузный Читайте профили: Предварительная обработка ChIP Читать плотности для обнаружения Обогащенный островов в диффузных данных

  1. Расширение Чип и ввод отображаемых мест до заданной длины фрагмента, то есть. размер фрагмента мишенью в ферментативного расщепления или ультразвуком ДНК, как правило, около 200 пар. Фрагмент подсчеты, то агрегацииТед в соседних ячеек. По умолчанию бен установлен размер расчетная длина фрагмента 200 п.н..
  2. Любое возможное изменение точки в набор контейнеров с одинаковым читать рассчитывает, скорее всего, падение на внешнем самых границ. Таким образом, маловероятно, что изменение точки будет происходить на внутренней границе двух бункеров с тем же рассчитывает чтения. Таким образом, группа соседних бункерах, с одинаковыми говорится в мусорное ведро, в единый блок, то есть. bedGraph формате 13.

2b. Точечные Читайте профили: Chip предварительной обработки и входных файлов кровать для обнаружения пиков в мелкоточечный данных

  1. Совокупный перекрытия говорится в плюс и минус нити ChIP читает отдельно. Нить конкретные читать плотность должна стать бимодального профиля плюс и минус пиков. Выберите плюс / минус пар из наиболее обогащенных пики и использовать расстояние между их встречами на высшем уровне, как оценка длины фрагмента библиотеки.
  2. Сдвиг Чип и ввод читает половина фрагмент леngth к центру и пересчитать читать плотность смещается и объединены плюс и минус нить читает. Эта методология для оценки длины фрагмента была принята от Zhang, и др.. 3. Позиции с одинаковым счетом слияния должны быть сгруппированы в блоки, похожие на шаг 2а.2.

3. Оцените Задний средний Читать плотность каждого блока с помощью нашего приближения BCMIX

  1. Читать плотность каждого блока моделируется как распределение Пуассона, объекты POI т), со средним параметром следующие смеси гамма-распределений, Γ (α, β), и перед вероятность изменения, происходящие точки в любой границы блока р. принадлежности POI т) на G (α, β) эффективно делает модель бесконечной HMM государства. Оцените гипер-параметров, α, β, р, максимально используя задние правдоподобия.
  2. Явно вычислить байесовской оценкикаждого блока, θ т, а E (θ T | γ Z). Заменить более традиционный, но много времени вперед и назад, фильтры часто используются в ПММ, с более вычислительно эффективно Ограниченные приближении Смесь Сложность оценить задние средств, θ с. В результате задние средства будут "размазанной" в приближенных кусочно-постоянной профиль, чтобы блоки с одинаковыми, θ с, следует продолжить их вместе с обновленной границы координаты.

4а. Диффузный Читайте профили: Post-процессов Задний средств в сегменты Диффузный обогащению

  1. Используйте количество входных говорится в каждый новый блок с θ в качестве фона ставки, объекты POI (λ) и определить обогащения с помощью простого теста гипотеза, основанная на чипе ли задний средний, θ с, превышает некоторый порог δ. 90-й </ SUP>-квантиль по умолчанию D и подходит в большинстве случаев.
  2. Слияние соседних θ с блоками, которые превышают обогащения в одном регионе и доклад слияния координаты в простом формате BED. Кроме того, можно сообщить о θ с для каждого блока в формате bedGraph сохранить высокое разрешение деталей для чтения оценках плотности.

4б. Точечные Читайте профили: Post-процессов Задний средства в пик кандидатов

  1. Определить фоне ставки, объекты POI (λ), а в среднем по всем прочитать отсчетов (γ 2) и выявления всех блоков, которые превышают порог, г. Так как точечные пики ожидается, будет более существенно обогатили по умолчанию δ установлен в 99-е-квантиль POI (λ).
  2. Установите блок с максимальным θ с, как саммит пик кандидата и примыкающие фланговые блоки, которые имеют аналогичные ден чтенияплотности (± 1 прочитаны, чтобы обеспечить небольшие изменения). Это присоединенных регион определен как кандидат сайт связывания.
  3. Рассчитать λ 2, средняя читать рассчитывает в чип кандидата сайта связывания и проверки гипотезы этом фоне в зависимости от входного была нулевой гипотезы, H 0, является то, что λ 1λ 2 и отклонить H 0 на основе р-порогового значения. Выходные кандидата пика в постели формате.

Результаты

BCP выделяется на выявление регионов широком обогащения гистонов модификации данных. В качестве точки отсчета, ранее мы сравнивали наши результаты с результатами SICER 3, существующий инструмент, который продемонстрировал высокие показатели. Чтобы лучше проиллюстрировать преимуще...

Обсуждение

Мы задались целью разработать модель для анализа ChIPseq данных, которые могут идентифицировать как точечные и диффузные структуры данных, одинаково хорошо. До сих пор регионы обогащения, в частности, диффузные регионов, которые отражают предполагает ожидание больших размеров остров, бы?...

Раскрытие информации

Нет конфликта интересов объявлены.

Благодарности

STARR основу премии (MQZ), NIH грант ES017166 (MQZ), NSF гранта DMS0906593 (HX).

Материалы

NameCompanyCatalog NumberComments
Название реагента Компания Номер в каталоге Комментарии (по желанию)
Linux рабочих станций на базе

Ссылки

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Перепечатки и разрешения

Запросить разрешение на использование текста или рисунков этого JoVE статьи

Запросить разрешение

Смотреть дополнительные статьи

70Seq

This article has been published

Video Coming Soon

JoVE Logo

Исследования

Образование

О JoVE

Авторские права © 2025 MyJoVE Corporation. Все права защищены