JoVE Logo

Anmelden

Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.

In diesem Artikel

  • Zusammenfassung
  • Zusammenfassung
  • Protokoll
  • Ergebnisse
  • Diskussion
  • Offenlegungen
  • Danksagungen
  • Materialien
  • Referenzen
  • Nachdrucke und Genehmigungen

Zusammenfassung

Unsere Bayesian ändern Point (BCP)-Algorithmus baut auf state-of-the-art Fortschritte in der Modellierung change-Punkten über Hidden-Markov-Modelle und wendet sie auf Chromatinimmunpräzipitation Sequenzierung (ChIPseq) Datenanalyse. BCP funktioniert gut sowohl breit und punktförmige Datentypen, sondern zeichnet sich durch genaue Identifizierung robust, reproduzierbar Inseln diffuse Histon Bereicherung.

Zusammenfassung

ChIPseq ist eine weit verbreitete Technik zur Untersuchung von Protein-DNA-Wechselwirkungen. Lesedichte Profile werden unter Verwendung der nächsten Sequenzierung von Protein-gebundener DNA und Ausrichten des kurzen liest einem Bezugsgenom erzeugt. Angereicherte Regionen als Peaks, die oft drastisch unterscheiden in der Form, in Abhängigkeit von dem Zielprotein 1 offenbart. Zum Beispiel Transkriptionsfaktoren binden oft in einem Standort-und sequenzspezifische Weise und neigen kann punktförmige Spitzen zu produzieren, während Histonmodifikationen weiter verbreitet sind und durch breite, diffuse Inseln Anreicherung 2 gekennzeichnet. Zuverlässig Abgrenzung dieser Regionen lag der Schwerpunkt unserer Arbeit.

Algorithmen zur Analyse ChIPseq Daten wurden verschiedene Methoden, von Heuristiken 3-5 bis strengeren statistischen Modelle, wie zB Hidden Markov Modellen (HMMs) 6-8 eingesetzt. Wir suchten eine Lösung, die die Notwendigkeit für schwierig zu definieren, Ad-hoc-Parameter, die oft minimiertKompromisse Auflösung und verringern die intuitive Bedienbarkeit des Werkzeugs. Mit Bezug auf HMM-basierten Methoden, wollten wir Parameterschätzung Verfahren und einfache, endlichen Klassifikationen, die oft verwendet werden beschneiden.

Darüber hinaus beinhaltet konventionelle ChIPseq Datenanalyse Kategorisierung der erwarteten Lesedichte Profile entweder als punktförmige oder diffuse durch nachfolgende Anwendung des geeigneten Werkzeug gefolgt. Wir weiter das Ziel, die Notwendigkeit für diese zwei unterschiedlichen Modelle mit einem einzigen, vielseitiger Modell, das kompetent adressieren kann das gesamte Spektrum von Datentypen zu ersetzen.

Um diese Ziele zu erreichen, haben wir zunächst eine statistische Rahmen konstruiert, dass natürlich modelliert ChIPseq Datenstrukturen mit einer Schneidkante Fortschritt in HMMs 9, die nur explizite nutzt Formeln-eine Innovation entscheidend für die Performance-Vorteile. Komplexere dann heuristische Modelle beherbergt unsere HMM unendliche versteckten Zustände durch eineBayes-Modell. Wir wandten sie identifizieren vernünftigen Änderung Punkte zu lesen Dichte, die weiter zu definieren Segmente Bereicherung. Unsere Analyse ergab, wie unsere Bayesian ändern Point (BCP)-Algorithmus eine reduzierte Komplexität-nachgewiesen durch eine verkürzte Laufzeit und Speicherbedarf hatte. Die BCP-Algorithmus wurde erfolgreich sowohl punktförmige Spitze und diffuse Insel Identifikation mit robusten Genauigkeit und begrenzte benutzerdefinierten Parametern aufgebracht. Diese illustrierte sowohl ihre Vielseitigkeit und einfache Handhabung. Daher glauben wir, dass es leicht in weiten Bereichen von Datentypen und Endanwender in einer Weise, die einfach verglichen und gegenübergestellt umgesetzt werden, so dass es ein großes Werkzeug für ChIPseq Datenanalyse, die in Zusammenarbeit und Bestätigung zwischen Forschergruppen unterstützen können. Hier zeigen wir die Anwendung der BCP bestehende Transkriptionsfaktor 10,11 und epigenetische Daten 12 seiner Nützlichkeit zu illustrieren.

Protokoll

Ein. Vorbereiten Input Files für BCP Analysis

  1. Richten Sie den kurzen liest aus Sequenzierung läuft (ChIP und Input-Bibliotheken) der entsprechenden Referenz-Genoms unter Verwendung der bevorzugten kurzen read Alignment-Software produziert. Die abgebildeten Orte sollten an die 6-Säule Browser erweiterbare Daten (BED) Format 13 (UCSC Genom-Browser, umgewandelt werden http://genome.ucsc.edu/ ), eine Tab-getrennte Zeile pro mapped lesen, die den abgebildeten Chromosom, Startposition (0-basiert), Endlage (half-open), lesen Sie Name, Punktzahl (optional) und Strang.

2a. Diffuse Lesen Profile: Vorverarbeitung ChIP Lesen Dichten für die Erkennung von Enriched Inseln im Diffuse Daten

  1. Erweitern ChIP und Eingang zugeordneten Standorten zu einer vorbestimmten Fragment Länge, dh. das Fragment Größe während Enzymverdau oder Beschallung der DNA gezielt, in der Regel rund 200 bp. Fragment zählt, sind dann Aggregationted in benachbarten Fächern. Standardmäßig ist bin Größe der geschätzten Fragment Länge von 200 bp eingestellt.
  2. Jede mögliche Änderung-Punkten in einem Satz von Behältern mit gleichen gelesen wird höchstwahrscheinlich Zählungen fallen an den äußersten Grenzen. Dementsprechend ist es unwahrscheinlich, dass eine Änderung Punkt wird bei einer internen Grenze zwischen zwei Behältern mit gleichem Lese Zählungen auftreten. So liest Gruppe benachbarten Behältern, mit identischen pro Bin, in einem einzigen Block, dh. bedGraph Format 13.

2b. Punctata Lesen Profile: Vorverarbeitung ChIP und Input BED Dateien zur Erkennung von Peaks in punctata Daten

  1. Aggregate überlappenden liest für Plus-und Minus-Strang ChIP separat liest. Der Strang spezifischen lesen Dichten sollten bilden eine bimodale Profil von plus und minus Gipfel. Wählen plus / minus Paare der meisten bereichert Gipfeln und verwenden Sie den Abstand zwischen ihren Gipfeln als Schätzung für die Bibliothek-Fragment-Längen.
  2. Verschieben Sie den Chip und Eingabe liest die Hälfte des Fragments lenge zum Zentrum und Neuberechnung der Lesedichte der verschobenen und fusionierte Plus-und Minus-Strang liest. Diese Methodik zur Schätzung der Fragmentlänge wurde von Zhang, et al. 3 angenommen. Positionen mit identischen merge Counts sollten in Blöcken, ähnlich 2a.2 Schritt zusammengefasst werden.

3. Schätzen Sie die Posterior Mittelwert Lesen Dichte von jedem Block mit unseren BCMIX Approximation

  1. Der gelesene Dichte jeder Block als eine Poisson-Verteilung modelliert, Pois t), mit einer mittleren Parameter nach einer Mischung von Gamma-Verteilungen, Γ (α, β), und eine frühere Wahrscheinlichkeit einer Änderung in jedem beliebigen Punkt Blockgrenze von p. Conditioning Pois t) auf G (α, β) effektiv macht das Modell eine unendliche Zustand HMM. Schätzen Sie die hyper-Parameter α, β und p, mit maximalen posterior Wahrscheinlichkeit.
  2. Explizit berechnen die Bayes Schätzungen fürjeder Block, θ t, wie E (θ t | γ Z). Ersetzen Sie das traditionelle, aber zeitaufwendig vorwärts und rückwärts Filter oft in HMMs verwendet, mit der rechnerisch effizient Bounded Complexity Mischung Annäherung an hinteren Mittel abzuschätzen, θ c. Die daraus resultierenden hinteren Mittel wird "geglättet" in eine ungefähre stückweise konstanten Profil, so Blöcken mit identischen, θ c, weitere sollten blockiert werden zusammen mit aktualisierte Begrenzung koordiniert sein.

4a. Diffuse Lesen Profile: Post-Prozess Posterior Mittel in Segmente Diffuse Enrichment

  1. Verwenden Sie die Anzahl der Eingangs-Lesevorgänge pro jeder neuen θ c Block als Hintergrund Rate, Pois (λ a) und bestimmen die Anreicherung mit Hilfe eines einfachen Hypothesentest, ob die ChIP posterior Mittelwert, θ c, überschreitet bestimmte Schwelle δ basiert. Die 90 th </ Sup>-Quantil ist die Standardeinstellung d und ist in den meisten Fällen angemessen.
  2. Merge angrenzenden θ c Blöcke, die die Anreicherung überschreiten in einer einzigen Region und Bericht zusammenführen Koordinaten in einfachen BED Format. Alternativ kann man die berichten θ c für jeden Block in bedGraph Format, um die hochauflösenden Daten der gelesenen Dichte Schätzungen bewahren.

4b. Punctata Lesen Profile: Post-Prozess Posterior Mittel in Peak-Kandidaten

  1. Definieren Sie die Basalrate, Pois (λ a), wie der Durchschnitt aller Lese zählt (γ 2) und identifizieren Sie alle Blöcke, die die Schwelle, d überschreiten. Da punktförmige Gipfel erwartet werden mehr deutlich angereichert ist, wird die Standard-δ der 99 th-Quantil der Pois (λ a) gesetzt.
  2. Setzen Sie den Block mit der maximalen θ c als Kandidat pike und grenzen an flankierenden Blöcke, die eine ähnliche read Den Aktiensity (± 1 gelesen zählen für leichte Variation zu ermöglichen). Diese angrenzendem Region wird als ein Kandidat Bindungsstelle definiert.
  3. Berechnen λ 2 als die durchschnittliche Lese zählt in der ChIP Kandidaten Bindungsstelle und Hypothesentest dies gegenüber der Eingangsleistung Hintergrund waren die Nullhypothese, H 0, ist, dass λ 1λ 2 und lehnen H 0 auf einem p-Wert Schwellenwert. Output Kandidaten Gipfel BED Format.

Ergebnisse

BCP zeichnet zu identifizieren Regionen breite Anreicherung in Histonmodifikation Daten. Als Bezugspunkt, wir vorher unsere Ergebnisse mit denen von SICER 3, ein vorhandenes Werkzeug, das starke Leistung gezeigt hat verglichen. Um am besten veranschaulichen BCP die Vorteile, untersuchten wir eine Histon-Modifikation, die gut studiert hatte, um eine Grundlage für die Beurteilung der Erfolgsquoten zu etablieren. In diesem Sinne haben wir dann analysiert H3K36me3, da es sich gezeigt hat, stark assoziieren mit a...

Diskussion

Wir wollten ein Modell zur Analyse ChIPseq Daten, die sowohl punktförmige und diffuse Datenstrukturen identifizieren konnte ebenso gut entwickeln. Bis jetzt haben Regionen der Bereicherung, vor allem diffuse Regionen, die die vorausgesetzte Erwartung große Insel groß nachzudenken, war schwer zu identifizieren. Um diese Probleme anzugehen, nutzten wir die jüngsten Fortschritte in der HMM-Technologie, die viele Vorteile gegenüber bestehenden heuristische Modelle und weniger innovative HMMs besitzen.

Offenlegungen

Keine Interessenskonflikte erklärt.

Danksagungen

Starr Foundation Award (MQZ), NIH ES017166 (MQZ), NSF DMS0906593 (HX).

Materialien

NameCompanyCatalog NumberComments
Name des Reagenzes Firma Katalog-Nummer Kommentare (optional)
Linux-basierte Workstation

Referenzen

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Nachdrucke und Genehmigungen

Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden

Genehmigung beantragen

Weitere Artikel entdecken

GenetikBioinformatikGenomicsMolekularbiologieZellbiologieImmunologieChromatin Immunopr zipitationChIP SeqHiston ModifikationenSegmentierungBayesianHidden Markov ModelsEpigenetik

This article has been published

Video Coming Soon

JoVE Logo

Datenschutz

Nutzungsbedingungen

Richtlinien

Forschung

Lehre

ÜBER JoVE

Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten