JoVE Logo

S'identifier

Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.

Dans cet article

  • Résumé
  • Résumé
  • Protocole
  • Résultats
  • Discussion
  • Déclarations de divulgation
  • Remerciements
  • matériels
  • Références
  • Réimpressions et Autorisations

Résumé

Notre point de changement bayésien (BCP) algorithme s'appuie sur l'état de l'art des progrès de la modélisation ruptures par modèles de Markov cachés et les applique à immunoprécipitation de la chromatine séquençage (ChIPseq) l'analyse des données. BCP se comporte bien dans les types de données à la fois larges et ponctuées, mais il excelle dans l'identification précise robustes, reproductibles îles de l'enrichissement d'histone diffuse.

Résumé

ChIPseq est une technique largement utilisée pour étudier les interactions protéine-ADN. Des profils de densité de lecture sont générés à l'aide de la prochaine séquence d'ADN lié à une protéine et l'alignement du lit court à un génome de référence. Régions enrichies sont révélés comme des pics, qui diffèrent souvent de façon spectaculaire dans la forme, en fonction de la protéine cible 1. Par exemple, des facteurs de transcription se lient souvent dans un site et la séquence de manière spécifique et ont tendance à produire des pics ponctuées, alors que les modifications des histones sont plus omniprésents et sont caractérisés par de larges îles diffuses d'enrichissement 2. De manière fiable l'identification de ces régions a été au centre de notre travail.

Algorithmes pour l'analyse des données ChIPseq ont eu recours à diverses méthodes heuristiques, à partir de 3-5 pour plus rigoureuses modèles statistiques, p.ex. modèles de Markov cachés (HMM) 6-8. Nous avons cherché une solution qui réduit au minimum la nécessité de difficile à définir, ad hoc paramètres qui sont souventcompromettre la résolution et de réduire l'utilisation intuitive de l'outil. En ce qui concerne les méthodes basées sur HMM, nous avons cherché à limiter les procédures d'estimation de paramètres et simples, les classifications à états finis qui sont souvent utilisés.

En outre, l'analyse des données ChIPseq conventionnelle implique catégorisation de la lecture devrait profils de densité que soit ponctuée diffuse ou suivie par l'application ultérieure de l'outil approprié. Nous avons également pour but de remplacer la nécessité pour ces deux modèles distincts avec un seul modèle plus polyvalent, qui peut répondre avec compétence l'ensemble du spectre des types de données.

Pour atteindre ces objectifs, nous avons d'abord construit un cadre statistique qui, naturellement, modelés ChIPseq structures de données en utilisant une avance fine pointe de la HMM 9, qui utilise uniquement des formules explicites, une innovation cruciale pour ses avantages de performance. Des modèles plus sophistiqués, puis heuristiques, notre HMM accueille infinies états cachés par unModèle bayésien. Nous l'avons appliquée à l'identification des points de changement de la densité raisonnables lire, ce qui a encore définir des segments de l'enrichissement. Notre analyse a révélé la façon dont notre Changement de point de Bayes (BCP) algorithme a une complexité de calcul réduite, témoigne d'un moment de l'exécution abrégée et empreinte mémoire. L'algorithme PCA a été appliquée avec succès à la fois de pointe et ponctuée d'identification île diffuse avec une précision robuste et limités paramètres définis par l'utilisateur. Cette illustré à la fois sa polyvalence et sa facilité d'utilisation. Par conséquent, nous croyons qu'il peut être mis en œuvre facilement à travers de larges gammes de types de données et les utilisateurs finaux d'une façon qui est facilement comparés et contrastés, ce qui en fait un excellent outil pour ChIPseq analyse de données qui peuvent aider à la collaboration et à la corroboration entre les groupes de recherche. Ici, nous démontrons l'application de la BCP au facteur de transcription existante et les données épigénétiques 10,11 12 à illustrer son utilité.

Protocole

1. Préparation des fichiers d'entrée pour l'analyse PCA

  1. Alignez le lit court produite à partir du séquençage pistes (ChIP et les bibliothèques d'entrée) au génome de référence appropriée en utilisant le logiciel préféré courte alignement lecture. Les emplacements mappées devraient être convertis en des 6 données de la colonne navigateur extensibles (LIT) format 13 (UCSC Genome Browser, http://genome.ucsc.edu/ ), une ligne délimité par des tabulations par mappé lecture indiquant le chromosome mappé, la position de départ (0-based), position finale (semi-ouvert), lire le nom, le score (en option), et le volet.

2a. Lire diffuser profils: ChIP Prétraitement Lire densités pour la détection des îles enrichi en données diffuses

  1. Étendre la puce et emplacements d'entrée mappées à une longueur prédéterminée fragment, c'est à dire. la taille du fragment cible lors de la digestion enzymatique ou sonication de l'ADN, généralement autour de 200 pb. Compte fragments sont ensuite agrégationted dans les bacs adjacents. Par défaut, la taille bin est réglé sur la longueur du fragment estimé à 200 pb.
  2. Tout changement de points possible dans un ensemble de bacs identiques avec chefs lecture sera très probablement à l'automne des limites les plus externes. Par conséquent, il est improbable qu'un point de changement se produira à une limite interne entre deux bacs avec les comtes de lecture mêmes. Alors, les poubelles groupe adjacents identiques, avec des lectures par bac, en un seul bloc, c'est à dire. Format bedGraph 13.

2b. Ponctuées profils lus: ChIP Prétraitement et fichiers LIT entrée pour la détection de pics dans les données ponctuées

  1. Agrégat lectures chevauchantes pour ChIP brin positif et négatif lit séparément. Les brins des densités lues doivent former un profil bimodal de pics positifs et négatifs. Choisissez des paires plus / moins des sommets les plus enrichis et utiliser la distance entre leurs sommets comme une estimation de la longueur des fragments de la bibliothèque.
  2. Déplacer la puce et l'entrée se lit la moitié du fragment length du centre et de recalculer la densité de lecture de l', plus décalée et fusionné et moins brin lit. Cette méthode d'estimation de la longueur du fragment a été adoptée à partir de Zhang, et al. 3. Positions dont la numération de fusion identiques doivent être regroupés en blocs, semblables à l'étape 2a.2.

3. Estimer la moyenne a posteriori Lire la densité de chaque bloc à l'aide de notre rapprochement BCMIX

  1. Lire la densité de chaque bloc est modélisée comme une distribution de Poisson, Pois t), avec une moyenne de paramètre suivant un mélange de distributions Gamma, Γ (α, β), et une probabilité a priori d'un point de changement se produisant à une limite de bloc de p. climatisé Pois t) sur G (α, β) rend effectivement le modèle HMM un état ​​infini. Estimer l'hyper-paramètres, α, β et p, en utilisant au maximum la probabilité a posteriori.
  2. Explicitement calculer les estimations de Bayes pourchaque bloc, θ t, E (θ t | γ Z). Remplacez la consommation plus traditionnelle, mais le temps vers l'avant et vers l'arrière filtres souvent utilisés dans les HMMs, avec le rapprochement Mélange complexité de calcul plus efficacement borné à estimer les moyennes a posteriori, θ c. Les moyens résultant postérieures sera "lissé" dans un profil approximatif constante par morceaux afin blocs identiques, θ c, devrait être bloqué avec nouveau contour coordonnées.

4a. Lire diffuser profils: Post-process moyennes a posteriori dans les segments de l'enrichissement diffus

  1. Utiliser le numéro d'entrée de lit par chaque nouveau bloc θ c en tant que le taux d'arrière-plan, Pois (λ a) et déterminer l'enrichissement à l'aide d'un test d'hypothèse simple basé sur la moyenne si ChIP postérieure, θ c, δ dépasse un certain seuil. Le 90 e </ Sup> quantile est le défaut d est approprié dans la plupart des cas.
  2. Fusionner adjacente θ c blocs qui dépassent l'enrichissement en une seule région et le rapport de fusionner les coordonnées au format LIT simple. Alternativement, on peut signaler le c θ pour chaque bloc au format bedGraph de préserver les détails en haute résolution des estimations de la densité de lecture.

4b. Ponctuée Lire profils: Post-process moyennes a posteriori en pointe candidats

  1. Définir la fréquence de fond, Pois (λ a), comme étant la moyenne de tous les chiffres de lecture (γ 2) et identifier tous les blocs qui dépassent le seuil, d. Depuis pics ponctuées devraient être plus largement enrichie, le δ par défaut est réglée sur le 99 e quantile de Pois (λ a).
  2. Régler le bloc avec le c maximal θ comme le sommet pic candidat et jouxtent blocs adjacents qui partagent un même den lecturesité (± 1 lire comptent pour permettre une légère variation). Cette région attenante est défini comme un site de liaison candidat.
  3. Calculer λ 2, comme les comptes moyens de lecture dans le site candidat ChIP contraignant et test d'hypothèse dans ce contexte d'entrée en fonction ont fait l'hypothèse nulle, H 0, c'est que λ 1λ 2 et rejeter H 0 basé sur un seuil de p-value. Pics candidats de sortie au format LIT.

Résultats

BCP excelle à identifier les régions d'enrichissement large dans les données de modification des histones. Comme point de référence, nous avons déjà comparé nos résultats à ceux de SICER 3, un outil existant qui a réalisé une excellente performance. Pour mieux illustrer les avantages de BCP, nous avons examiné une modification des histones qui avait été bien étudié pour établir une base pour évaluer les taux de réussite. Dans cet esprit, nous avons ensuite analysé H3K36me3, car il a ?...

Discussion

Nous avons cherché à développer un modèle d'analyse de données permettant d'identifier ChIPseq deux structures ponctuées et diffuse des données aussi bien. Jusqu'à présent, les régions de l'enrichissement, notamment des régions diffuses, qui reflètent les attentes présupposé de taille grande île, ont été difficiles à identifier. Pour résoudre ces problèmes, nous avons utilisé les plus récentes avancées en matière de technologie HMM, qui possèdent de nombreux avantages par rapport...

Déclarations de divulgation

Aucun conflit d'intérêt déclaré.

Remerciements

STARR Prix de la Fondation (MQZ), NIH ES017166 (MQZ), NSF grant DMS0906593 (HX).

matériels

NameCompanyCatalog NumberComments
Nom du réactif Entreprise Numéro de catalogue Commentaires (optionnel)
Linux station de travail

Références

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Réimpressions et Autorisations

Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE

Demande d’autorisation

Explorer plus d’articles

G n tiqueNum ro 70bioinformatiqueg nomiquebiologie mol culairebiologie cellulaireimmunologieimmunopr cipitation de la chromatineChIP Seqmodifications des histonessegmentationbay siensmod les de Markov cach sl pig n tique

This article has been published

Video Coming Soon

JoVE Logo

Confidentialité

Conditions d'utilisation

Politiques

Recherche

Enseignement

À PROPOS DE JoVE

Copyright © 2025 MyJoVE Corporation. Tous droits réservés.