Method Article
Dieses Protokoll beschreibt die Capture Hi-C-Methode, die verwendet wird, um die 3D-Organisation von megabasierten Zielgenomregionen mit hoher Auflösung zu charakterisieren, einschließlich der Grenzen topologisch assoziierender Domänen (TADs) und langreichweitiger Chromatininteraktionen zwischen regulatorischen und anderen DNA-Sequenzelementen.
Die räumliche Organisation des Genoms trägt zu seiner Funktion und Regulation in vielen Kontexten bei, einschließlich Transkription, Replikation, Rekombination und Reparatur. Das Verständnis der genauen Kausalität zwischen Genomtopologie und -funktion ist daher von entscheidender Bedeutung und zunehmend Gegenstand intensiver Forschung. Technologien zur Erfassung von Chromosomenkonformationen (3C) ermöglichen es, auf die 3D-Struktur des Chromatins zu schließen, indem die Häufigkeit der Interaktionen zwischen einer beliebigen Region des Genoms gemessen wird. Hier beschreiben wir ein schnelles und einfaches Protokoll zur Durchführung von Capture Hi-C, einer 3C-basierten Target-Anreicherungsmethode, die die allelspezifische 3D-Organisation von megabasierten genomischen Targets mit hoher Auflösung charakterisiert. Bei Capture Hi-C werden die Zielregionen mit einer Reihe von biotinylierten Sonden erfasst, bevor eine nachgeschaltete Hochdurchsatzsequenzierung erfolgt. Dadurch wird eine höhere Auflösung und Allelspezifität erreicht und gleichzeitig die Zeiteffektivität und Erschwinglichkeit der Technologie verbessert. Um seine Stärken zu demonstrieren, wurde das Capture Hi-C-Protokoll auf das X-Inaktivierungszentrum (Xic) der Maus angewendet, den wichtigsten regulatorischen Ort der X-Chromosomen-Inaktivierung (XCI).
Das lineare Genom enthält alle Informationen, die ein Organismus benötigt, um die Embryonalentwicklung zu durchlaufen und das gesamte Erwachsenenalter zu überleben. Die Anweisung genetisch identischer Zellen, unterschiedliche Funktionen auszuführen, ist jedoch von grundlegender Bedeutung, um genau zu kontrollieren, welche Informationen in bestimmten Kontexten verwendet werden, einschließlich verschiedener Gewebe und/oder Entwicklungsstadien. Es wird angenommen, dass die dreidimensionale Organisation des Genoms an dieser genauen räumlich-zeitlichen Regulation der Genaktivität beteiligt ist, indem sie die physikalische Interaktion zwischen regulatorischen Elementen, die im linearen Genom durch mehrere hundert Kilobasen voneinander getrennt sein können, erleichtert oder verhindert (für Übersichtsarbeiten 1,2,3). In den letzten 20 Jahren hat sich unser Verständnis des Zusammenspiels zwischen Genomfaltung und -aktivität rapide verbessert, was vor allem auf die Entwicklung von Technologien zur Erfassung von Chromosomenkonformationen (3C) zurückzuführen ist (für Review 4,5,6,7). Diese Methoden messen die Häufigkeit von Interaktionen zwischen beliebigen Regionen des Genoms und beruhen auf der Ligation von DNA-Sequenzen, die sich in unmittelbarer 3D-Nähe innerhalb des Zellkerns befinden. Die gebräuchlichsten 3C-Protokolle beginnen mit der Fixierung von Zellpopulationen mit einem Vernetzungsmittel wie Formaldehyd. Das vernetzte Chromatin wird dann mit einem Restriktionsenzym verdaut, obwohl auch der MNase-Verdau verwendet wurde 8,9. Nach dem Verdauen werden freie DNA-Enden in unmittelbarer räumlicher Nähe religiert und die Vernetzung rückgängig gemacht. Dieser Schritt führt zur 3C-"Bibliothek" oder "Vorlage", einem gemischten Pool von Hybridfragmenten, in dem Sequenzen, die sich in 3D-Nähe zum Zellkern befanden, eine höhere Wahrscheinlichkeit haben, im selben DNA-Fragment ligiert zu werden. Die nachgelagerte Quantifizierung dieser Hybridfragmente ermöglicht es, auf die 3D-Konformation von Genomregionen zu schließen, die im linearen Genom Tausende von Basenpaaren voneinander entfernt liegen, aber im 3D-Raum interagieren könnten.
Es wurden viele verschiedene Ansätze entwickelt, um die 3C-Bibliothek zu charakterisieren, die sich sowohl darin unterscheiden, welche Untergruppen von Ligationsfragmenten analysiert werden, als auch in der Technologie, die für ihre nachgelagerte Quantifizierung verwendet wird. Das ursprüngliche 3C-Protokoll stützte sich auf die Auswahl von zwei Regions of Interest und die Quantifizierung ihrer "Eins-gegen-Eins"-Interaktionshäufigkeit mittels PCR10,11. Der 4C-Ansatz (Circular Chromosome Conformation Capture) misst die Wechselwirkungen zwischen einem einzelnen Locus von Interesse (d. h. dem "View-Point") und dem Rest des Genoms ("one versus all")12,13,14. In 4C durchläuft die 3C-Bibliothek eine zweite Runde des Aufschlusses und der Religation, um kleine zirkuläre DNA-Moleküle zu erzeugen, die durch View-Point-spezifische Primer mittels PCR amplifiziert werden15. 5C (Chromosome Conformation Capture Carbon Copy) ermöglicht die Charakterisierung von 3D-Wechselwirkungen über größere Regionen von Interesse hinweg und liefert Einblicke in die Chromatinfaltung höherer Ordnung innerhalb dieser Region ("viele gegen viele")16. In 5C wird die 3C-Bibliothek zu einem Pool von Oligonukleotiden hybridisiert, die sich mit Restriktionsstellen überlappen, die anschließend durch Multiplex-PCR mit Universalprimern15 amplifiziert werden können. Sowohl in 4C als auch in 5C wurden die informativen DNA-Fragmente zunächst durch Microarrays und später durch Next-Generation-Sequencing (NGS) quantifiziert17,18,19. Diese Strategien charakterisieren bestimmte Regionen von Interesse, können aber nicht auf die Kartierung genomweiter Interaktionen angewendet werden. Letzteres Ziel wird mit Hi-C erreicht, einer 3C-basierten Hochdurchsatzstrategie, bei der eine massiv parallele Sequenzierung des 3C-Templates die unverzerrte Charakterisierung der Chromatinfaltung auf genomweiter Ebene ("all versus all") ermöglicht20. Das Hi-C-Protokoll umfasst den Einbau eines biotinylierten Rests an den Enden der verdauten Fragmente, gefolgt von einem Herunterziehen von Ligationsfragmenten mit Streptavidin-Kügelchen, um die Rückgewinnung ligierter Fragmentezu erhöhen 20.
Hi-C zeigte, dass die Genome von Säugetieren im 3D-Zellkern auf mehreren Ebenen strukturell organisiert sind. Auf der Megabasen-Skala wird das Genom in Regionen mit aktivem und inaktivem Chromatin, die A- bzw. B-Kompartimente, unterteilt20,21. Die Existenz weiterer Subkompartimente, die durch unterschiedliche Chromatin- und Aktivitätszustände repräsentiert werden, wurde ebenfalls nachträglich gezeigt22. Bei höherer Auflösung wird das Genom weiter in selbstinteragierende Sub-Megabasen-Domänen unterteilt, die als topologisch assoziierende Domänen (TADs) bezeichnet werden, die erstmals durch Hi-C- und 5C-Analysen der Genome von Mensch und Maus aufgedeckt wurden23,24. Im Gegensatz zu Kompartimenten, die gewebespezifisch variieren, sind TADs tendenziell konstant (obwohl es viele Ausnahmen gibt). Wichtig ist, dass die TAD-Grenzen über Spezies25 hinweg erhalten bleiben. In Säugetierzellen umfassen TADs häufig Gene, die die gleiche regulatorische Landschaft teilen, und es hat sich gezeigt, dass sie einen strukturellen Rahmen darstellen, der die Koregulation von Genen erleichtert und gleichzeitig die Interaktionen mit benachbarten regulatorischen Domänen begrenzt (für Review 3,26,27,28). Darüber hinaus können innerhalb von TADs Wechselwirkungen aufgrund von CTCF-Stellen an der Basis von Cohesin-extrudierten Schleifen die Wahrscheinlichkeit von Promotor-Enhancer- oder Enhancer-Enhancer-Wechselwirkungen erhöhen (für Review29).
In Hi-C können Kompartimente und TADs mit einer Auflösung von 1 Mb bis 40 kb detektiert werden, aber eine höhere Auflösung kann erreicht werden, um Kontakte auf kleinerer Skala zu charakterisieren, wie z. B. Schleifenwechselwirkungen zwischen distalen Elementen auf der Skala von 5-10 kb. Die Erhöhung der Auflösung, um solche Schleifen effizient durch HiC detektieren zu können, erfordert jedoch eine deutliche Erhöhung der Sequenziertiefe und damit der Sequenzierungskosten. Dies wird noch verschärft, wenn die Analyse allelspezifisch sein muss. In der Tat erfordert eine X-fache Erhöhung der Auflösung eine X2-fache Erhöhung der Sequenzierungstiefe, was bedeutet, dass hochauflösende und allelspezifische genomweite Ansätze unerschwinglich teuer sein können30.
Um die Kosteneffizienz und Erschwinglichkeit zu verbessern und gleichzeitig eine hohe Auflösung beizubehalten, können die Zielregionen von Interesse nach ihrer Hybridisierung mit komplementären Biotin-markierten Oligonukleotidsonden vor der nachgelagerten Sequenzierung physisch aus genomweiten 3C- oder Hi-C-Bibliotheken gezogen werden. Diese Strategien zur Target-Anreicherung werden als Capture-C-Methoden bezeichnet und ermöglichen die Untersuchung von Interaktionen von Hunderten von Zielorten, die über das Genom verstreut sind (z. B. Promoter Capture (PC) Hi-C; Capture-C der nächsten Generation (NG); Low Input (LI) Capture-C; Kerntitrierte (NuTi) Capture-C; Tri-C)31,32,33,34,35,36,37,38,39,40 oder über Regionen hinweg, die sich über mehrere Megabasen erstrecken (z. B. Capture HiC; HYbrid Capture Hi-C (Hi-C2); Kachel-C)41,42,43. Zwei Aspekte können bei Capture-basierten Methoden variieren: (1) die Art und das Design von biotinylierten Oligonukleotiden (d. h. RNA oder DNA, einzelne Oligos, die disperse genomische Ziele erfassen, oder mehrere Oligos, die eine Region von Interesse bedecken); und (2) die Vorlage, die zum Herunterziehen von Zielen verwendet wird, bei denen es sich um die 3C- oder Hi-C-Bibliothek handeln kann, wobei letztere aus biotinylierten Restriktionsfragmenten besteht, die aus der 3C-Bibliothek heruntergezogen wurden.
Hier wird ein Capture Hi-C-Protokoll beschrieben, das auf der Anreicherung von Zielkontakten aus der 3C-Bibliothek basiert. Das Protokoll beruht auf dem Design eines maßgeschneiderten Kachelarrays von biotinylierten RNA-Sonden und kann in 1 Woche von der Präparation der 3C-Bibliothek bis zur NGS-Sequenzierung durchgeführt werden. Das Protokoll ist schnell, einfach und ermöglicht die Charakterisierung der 3D-Organisation höherer Ordnung von Regions of Interest in Megabase-Größe bei einer Auflösung von 5 kb bei gleichzeitiger Verbesserung der Zeiteffektivität und Erschwinglichkeit im Vergleich zu anderen 3C-Methoden. Das Capture Hi-C-Protokoll wurde auf den regulatorischen Master-Locus der X-Chromosomen-Inaktivierung (XCI), das X-Inaktivierungszentrum (Xic), angewendet, das die nicht-kodierende Xist-RNA beherbergt. Der Xic war bereits Gegenstand umfangreicher Struktur- und Funktionsanalysen (für Review44,45). Bei Säugetieren kompensiert XCI die Dosis von X-chromosomalen Genen zwischen Weibchen (XX) und Männchen (XY) und beinhaltet das transkriptionelle Silencing fast der gesamten beiden X-Chromosomen in weiblichen Zellen. Das Xic stellt einen leistungsstarken Goldstandard-Locus für Studien zur 3D-Genomtopologie und dem Zusammenspiel mit der Genregulationdar 44. Die 5C-Analyse des Xic in embryonalen Stammzellen (mESCs) der Maus führte zur Entdeckung und Benennung von TADs und lieferte damit erste Einblicke in die funktionelle Relevanz der topologischen Partitionierung und der Koregulation von Genen24. In der Folge konnte gezeigt werden, dass die topologische Organisation des Xic entscheidend am geeigneten Entwicklungszeitpunkt der Xist-Hochregulation und XCI 46 beteiligt ist, und auch im Xic47,48,49 wurden kürzlich unerwartete cis-regulatorische Elemente entdeckt, die die Genaktivität innerhalb und zwischen TADs beeinflussen können. Die Anwendung von Capture Hi-C auf 3 MB des X-Chromosoms der Maus, das den Xic überspannt, demonstriert die Leistungsfähigkeit dieses Ansatzes bei der Analyse großflächiger Chromatinfaltung mit hoher Auflösung. Es wird ein detailliertes und leicht verständliches Protokoll bereitgestellt, beginnend mit dem Design des Arrays biotinylierter Sonden an jeder DpnII-Restriktionsstelle innerhalb der interessierenden Region über die Generierung der genomweiten 3C-Bibliothek, die Hybridisierung und Erfassung von Zielkontakten bis hin zur nachgelagerten Datenanalyse. Ein Überblick über die geeigneten Qualitätskontrollen und die erwarteten Ergebnisse wird ebenfalls gegeben, und sowohl die Stärken als auch die Grenzen des Ansatzes werden im Lichte ähnlicher bestehender Methoden diskutiert.
Die in dieser Studie verwendeten embryonalen Stammzellen (mES-Zellen) der Maus wurden aus einer Kreuzung eines TX/TX R26 rtTA/ rtTA-Weibchens50 mit einem Mus musculus castaneus-Männchen gemäß den Tierpflegerichtlinien des Institut Curie (Paris)51 gewonnen.
1. Sonden-Design
2. Versuchsablauf
3. Datenanalyse
Das beschriebene Capture Hi-C Protokoll basiert auf der Präparation des genomweiten 3C-Templates mit Hilfe eines Four-Basen-Cutters (DpnII). Die anschließende Anreicherung von Ligationsfragmenten über die interessierende genomische Region wird durch Hybridisierung eines Arrays von Kachel-RNA-Sonden und deren Streptavidin-basierter Erfassung gemäß dem in dieser Studie verwendeten Zielanreicherungssystem erreicht (Abbildung 1). Biotinylierte RNA-Sonden wurden ausgewählt, da sie im Vergleich zu DNA-Sonden eine engere Bindungsaffinität zu ihren Zielen aufweisen52,60. Die erfassten Bibliotheken werden dann indiziert und für die gemultiplexte Hochdurchsatzsequenzierung zusammengefasst. Capture-Hi-C-Daten können als hochauflösende Hi-C-Interaktionskarten, aber auch als 4C-ähnliche Single-View-Point-Kontaktkarten visualisiert werden, um die Wechselwirkungen kleinerer Sequenzen wie Promotoren oder Enhancer innerhalb der gesamten erfassten Region gezielt zu visualisieren. Der Workflow des Protokolls ist in Abbildung 4 dargestellt. Die Qualitätskontrollen vor der Sequenzierung sind in Abbildung 2 dargestellt und umfassen die Bewertung des ordnungsgemäßen Aufschlusses und der Religation des 3C-Templates sowie seiner effizienten Abscherung und Reinigung über die verschiedenen Schritte des Protokolls hinweg. Es wird erwartet, dass die gescherte 3C-Templat-DNA zwischen 150 und 700 bp verläuft, und es sollte keine Anreicherung von Fragmenten >2 kb nachgewiesen werden. In den folgenden Schritten werden mehrere Bead-basierte DNA-Aufreinigungs- und Größenauswahlschritte durchgeführt, zuerst nach dem Scheren, dann nach den Pre-Capture- und Post-Capture-PCRs. Die gereinigten Bibliotheken zeigen ein deutliches Fragmentanreicherungsprofil, wie es auf einem hochempfindlichen DNA-Bioanalysator visualisiert wurde (Abbildung 2). Die mittlere Fragmentgröße nimmt im Laufe der Bibliothekspräparation aufgrund der Ligation von Adaptoren, Sequenzierungs- und Indexierungsprimern zu. Die Qualitätskontrollen nach der Sequenzierung werden über Hi-C Pro durchgeführt und sind in Abbildung 3 dargestellt. Viele verschiedene Bioinformatik-Softwareanwendungen wurden für die 3C-ähnliche Datenverarbeitung und -analyse vorgeschlagen. Unter ihnen ist die HiC-Pro-Pipeline eine der beliebtesten Lösungen, die die Verarbeitung von Rohsequenzierungsdaten zu den endgültigen Kontaktkarten mit verschiedenen Auflösungen ermöglicht55. HiC-Pro verwendet eine zweistufige Kartierungsstrategie, um die Sequenzierungs-Reads auf das Referenzgenom abzustimmen. Die 3C-Produkte werden dann rekonstruiert und herausgefiltert, um nicht-informative Kontaktpaare zu entfernen und die Kontaktkarten zu erstellen. Darüber hinaus ist es in der Lage, eine Liste bekannter Polymorphismen zu verwenden, um eine allelspezifische Analyse durchzuführen und die Kontakte, die von den beiden elterlichen Allelen stammen, in unterschiedlichen Kontaktkarten zu trennen. In jüngerer Zeit wurde HiC-Pro in das nf-core-Framework (nf-core-hic) aufgenommen und erweitert, wodurch eine hochgradig skalierbare und reproduzierbare Community-gesteuerte Pipeline bereitgestelltwird 61,62.
Um den Maus-Xic zu erfassen, wurde ein Array von 28.913 RNA-Sonden entworfen, die 3 Mb des X-Chromosoms kacheln. Diese Region umfasst den Hauptakteur in XCI, das lange nicht-kodierende Gen Xist, und seine bekannte regulatorische Landschaft von ~800 kb (Abbildung 5). Diese ~800 kb große Region ist in zwei TADs unterteilt: eine, die den Xist-Promotor und seine bekannten positiven Regulatoren (d.h. die nicht-kodierenden Transkripte Ftx, Jpx und Xert und das proteinkodierende Gen Rnf12) enthält, und die benachbarte TAD, die die negativen cis-Regulatoren von Xist umfasst (d.h. das Antisense-Transkript Tsix, das Enhancer-Element Xite und das nicht-kodierende Transkript Linx) (für Review44, 45).
Durch die Anwendung des beschriebenen Capture Hi-C-Protokolls auf den Xic konnte die topologische Organisation dieses Locus mit bisher unerreichter Auflösung ermittelt werden (Abbildung 6 und Abbildung 7). Dies wird besonders deutlich, wenn man das Capture Hi-C-Profil mit dem zuvor veröffentlichten 5C47 vergleicht (Abbildung 6 und Abbildung 7; Ergänzende Tabelle 1) und Hi-C61 (Abbildung 6 und Abbildung 7; Ergänzende Tabelle 1) Profile. Zum Beispiel sind Sub-TAD-Strukturen deutlicher – die TAD, die den Xist-Promotor ( Xist-TAD ) enthält, ist deutlich in zwei kleinere Domänen unterteilt (Abbildung 6A, blaue Pfeilspitze). Bisher konnte dies nur visuell aus dem 5C-Profil "erahnt" werden (Abbildung 6B), allerdings durch die Erkennung einer Grenze in diesem Bereich mit dem Isolations-Score-Algorithmus. Ebenso ermöglicht die Auflösung des Capture Hi-C-Profils die Identifizierung zweier kleinerer Domänen in der benachbarten TAD (Abbildung 6A, B), die den Promotor des Tsix-Locus ( Tsix-TAD ) enthält; Dies wurde bisher mit 5C nicht erreicht (Abbildung 6B). Bemerkenswert ist, dass topologische Grenzen, die durch den Isolationswert aus den Capture Hi-C- und 5C-Daten bestimmt werden, im Allgemeinen an leicht unterschiedlichen Positionen und mit unterschiedlichen relativen Stärken erkannt werden.
Darüber hinaus sind andere Sub-TAD-Strukturen, wie z. B. Kontaktschleifen, aus den Capture Hi-C-Daten deutlich sichtbar, wie z. B. die Schleife zwischen Xist und Ftx (Abbildung 7A), die zuvor mit Capture-C63 identifiziert wurde, und die Schleife zwischen Xist und Xert (Abbildung 7B), die kürzlich mit einem ähnlichen Protokoll für Capture Hi-C48 identifiziert wurde. Aufgrund der höheren Auflösung der Capture Hi-C-Profile können auch andere Kontakte genauer abgebildet werden, wie z. B. diejenigen, die die bekannten Kontakt-Hotspots innerhalb des Tsix-TAD zwischen den Linx-, Chic1- und Xit-Loci bilden (Abbildung 7A).
Im Vergleich zu den in Abbildung 7 gezeigten Hi-C-Daten ermöglichte Capture Hi-C eine vierfache Erhöhung der Auflösung, benötigte jedoch nur ein Viertel der Sequenziertiefe (d. h. 126 Mio. Lesevorgänge gegenüber 571 M) (ergänzende Tabelle 1). Diese Erhöhung der Auflösung ermöglicht die Detektion von SubTADs und Schleifenwechselwirkungen, die von Hi-C bei der in Abbildung 6 und Abbildung 7 gezeigten Sequenziertiefe nicht detektiert werden konnten. Das beschriebene Protokoll für Capture Hi-C ermöglicht somit eine wesentlich detailliertere, hochauflösende Charakterisierung einer großen genomischen Region von Interesse im Vergleich zu bisherigen Ansätzen.
Abbildung 1: Sondendesign. Schematische Darstellung der Strategie, die für das Sondendesign verwendet wird. Regionen von 300 bp stromaufwärts und stromabwärts jeder DpnII-Restriktionsstelle in der 3-Mb-Zielregion wurden ausgewählt und mit überlappenden biotinylierten RNA-Sonden gekachelt. Eine dieser ausgewählten Regionen wird angezeigt, chrX: 102.474.805-102.475.500. In jeder Sonde sind nicht mehr als 40 Basen mit sich wiederholenden Sequenzen zulässig. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.
Abbildung 2: Erfassung von Hi-C-Qualitätskontrollen vor der Sequenzierung . (A) Repräsentatives Beispiel für Qualitätskontrollen von 3C-Vorlagen. 200 ng DNA wurden auf ein 1%iges Agarosegel geladen. Bahn 1: 1 kb Leiter. Bahn 2: Unverdautes, vernetztes und intaktes Chromatin läuft als scharfe Bande bei >10 kb. Spur 3: DpnII-verdautes vernetztes Chromatin läuft als Abstrich zwischen 1 kb und 3 kb groß. Bahn 4: Finale 3C-Bibliothek oder -Vorlage; Freie Enden von verdauten vernetzten DNA-Fragmenten werden religiert. Der DNA-Abstrich mit geringerer Molekulargröße ist fast nicht nachweisbar, und das Ligationsprodukt wird als Bande von >10 kb nachgewiesen. (B) Repräsentative Beispiele für hochempfindliche DNA-Profile von Bioanalysatoren. Oben links: Erfolgreich gescherte 3C-Bibliothek mit einer Verteilung der Fragmentgröße zwischen 150 bp und 700 bp. Oben rechts: unbefriedigende gescherte 3C-Bibliothek. Ungescherte DNA wird als breite Anreicherung von Fragmenten >2 kb nachgewiesen. (C) Unten links: gescherte DNA-Probe nach einer 1:1-Auswahl der linken Seite unter Verwendung von SPRI-Kügelchen. Fragmente von ~300 bp werden angereichert. Unten Mitte: Pre-Capture-PCR-Profil nach Ligation von Paired-End-Adaptern gemäß dem Protokoll des Herstellers. Unten rechts: endgültige Capture Hi-C-Bibliothek mit Adaptern, Sequenzierung und Indizierungsprimern für die Multiplex-Sequenzierung. Abkürzungen: bp = Basenpaare, FU = beliebige Fluoreszenzeinheit. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.
Abbildung 3: Erfassung von Hi-C-Qualitätskontrollen nach der Sequenzierung mit HiC-Pro . (A) Beispiel für die Kartierungsrate des ersten Partners der Sequenzierungspaare auf dem Referenzgenom. Der hellblaue Anteil stellt die von HiC-Pro ausgerichteten Reads dar, die sich über eine Ligationsverbindung erstrecken. Diese Metrik kann somit verwendet werden, um den experimentellen Ligationsschritt zu validieren. (B) Sobald die Sequenzierungspartner auf dem Genom ausgerichtet sind, werden nur noch eindeutig ausgerichtete Lesepaare für die Analyse aufbewahrt. (C) Nicht gültige Paare (in rot), wie z. B. baumelndes Ende, Selbstkreis oder Religation, werden aus der Analyse verworfen. Der Anteil der gültigen Paare ist ein guter Indikator für die Ligatur und die Pulldown-Effizienz. (D) Die gültigen Paare können weiter unterteilt werden in intra-/interchromosomale und kurz-/langreichweitige Kontakte. Duplizierte Lesepaare, bei denen es sich wahrscheinlich um PCR-Artefakte handelt, werden aus der Analyse ausgeschlossen. (E) Für die allelspezifische Analyse gibt HiC-Pro die Anzahl der allelischen Reads an, die entweder von einem oder zwei Partnern für jedes elterliche Genom unterstützt werden (d. h. C57BL/6J x CASTEi/J). Es wird der gleiche Anteil an Reads erwartet, die dem mütterlichen und väterlichen Allel zugeordnet sind. (F) Schließlich werden nur gültige Paare ausgewählt, die die Erfassungsregion überlappen, um die Kontaktkarten zu erstellen. Capture-Capture-Paare stellen Kontakte innerhalb der Zielregion dar, während Capture-Reporter-Paare eine Interaktion zwischen der Zielregion und einer Off-Target-Region beinhalten. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.
Abbildung 4: Workflow des Capture Hi-C-Protokolls. Schematische Darstellung verschiedener Protokollschritte. Um das genomweite 3C-Template zu erzeugen, wird Chromatin zunächst mit Formaldehyd vernetzt und dann mit dem DpnII-Restriktionsenzym verdaut. Freie DNA-Enden werden dann religiert, die Quervernetzung rückgängig gemacht und die DNA gereinigt. Zur Anreicherung von Fragmenten, die die Zielregion umfassen, wird eine Reihe von biotinylierten RNA-Sonden an die 3C-Matrize hybridisiert und durch Streptavidin-vermittelten Pulldown eingefangen. Capture-Bibliotheken werden für die Multiplex-Sequenzierung verarbeitet und gültige Ligationsfragmente werden quantifiziert, um auf die Häufigkeit von Chromatinkontakten im gesamten Target zu schließen, die als hochauflösende Interaktionskarten visualisiert werden. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.
Abbildung 5: Übersicht über die Region, die den Xic auf dem X-Chromosom der Maus umfasst. Schematische Darstellung des X-Chromosoms der Maus und Vergrößerung der 3 Mb großen erfassten Region (ChrX: 102.475.000-105.475.000). Die Zielregion umfasst ~800 kb DNA, die dem Xic, dem regulatorischen Hauptlocus von XCI, entspricht. Das Xic umfasst die langen nicht-kodierenden Gene, Xist, einen wichtigen Akteur von XCI, und seine regulatorische Landschaft. Positive Regulatoren von Xist sind grün und negative Regulatoren violett dargestellt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.
Abbildung 6: Erfassen von Hi-C-, 5C- und Hi-C-Interaktionskarten in der erfassten 3-MB-Region. (A) Erfassung der Hi-C-Interaktionskarte des 3-MB-Ziels, das den Maus-Xic mit einer Auflösung von 10 kb umfasst (diese Studie). (B) 5C-Interaktionskarte der gleichen Zielregion wie in A mit einer Auflösung von 6 kb (Daten von47 neu verarbeitet). Sich wiederholende Bereiche, die nicht in die Analysen einbezogen werden, werden weiß maskiert. Die 5C-Daten erfordern eine eigene bioinformatische Verarbeitung (siehe47). Nach der Bereinigung und Ausrichtung werden die 5C-Maps mit der Primerauflösung unter Verwendung eines laufenden Medians (Fenster = 30 kb, Schritt = 5) klassifiziert, um eine endgültige Auflösung von 6 kb zu erreichen. (C) Hi-C-Interaktionskarte der gleichen genomischen Region wie in A und B mit einer Auflösung von 40 kb (Daten von64 neu verarbeitet). Alle Interaktionskarten wurden aus Maus-ESCs generiert. Der Isolationswert wurde mit Cooltools berechnet und wird als Histogramme mit Isolationsminimas an TAD-Grenzen dargestellt. TAD-Grenzen werden als vertikale Linien unterhalb der Karte angezeigt. Die Höhe jeder Linie gibt die Begrenzungsstärke an. Gene werden als Pfeile dargestellt, die in Transkriptionsrichtung zeigen. Sub-TAD-Grenzen, die ausschließlich oder genauer in Capture Hi-C-Maps erkannt werden, werden durch magentafarbene bzw. blaue Pfeilspitzen für Sub-TADs in den Tsix- bzw. Xist-TADs angezeigt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.
Abbildung 7: Erfassung von Hi-C-, 5C- und Hi-C-Interaktionskarten über 1 MB innerhalb der erfassten Region. (A) Erfassung der Hi-C-Interaktionskarte der 1-MB-Genomregion, die den Maus-Xic mit einer Auflösung von 5 kb umfasst (diese Studie). (B) 5C-Interaktionskarte der gleichen Genomregion wie in A. mit einer Auflösung von 6 kb (Daten von47 neu verarbeitet). Sich wiederholende Bereiche, die nicht in die Analysen einbezogen werden, werden weiß maskiert. Bemerkenswert ist, dass die 5C-Daten eine eigene bioinformatische Verarbeitung erfordern (siehe47). Nach der Bereinigung und Ausrichtung werden die 5C-Maps mit der Primerauflösung unter Verwendung eines laufenden Medians (Fenster = 30 kb, Schritt = 5) klassifiziert, um eine endgültige Auflösung von 6 kb zu erreichen. (C) Hi-C-Interaktionskarte der gleichen Genomregion wie in A und B von Hi-C mit einer Auflösung von 20 kb (Daten von64 weiterverarbeitet). Alle Interaktionskarten wurden aus mESCs generiert. Der Isolationswert wurde mit Cooltools berechnet und wird als Histogramme mit Isolationsminimas an TAD-Grenzen dargestellt. TAD-Grenzen werden als vertikale Linien unterhalb der Karte angezeigt. Die Höhe jeder Linie gibt die Begrenzungsstärke an. Gene werden als Pfeile dargestellt, die in die Richtung der Transkription zeigen. Kontaktschleifen, die ausschließlich oder genauer in Capture Hi-C detektiert werden, werden durch magentafarbene bzw. blaue Sternchen für Schleifen in den Tsix- bzw. Xist-TADs gekennzeichnet. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.
Ergänzende Tabelle 1: Post-Sequenzierungsstatistiken für die in diesem Manuskript verwendeten Datensätze: Capture Hi-C (diese Studie), Hi-C64 und 5C47. Bitte klicken Sie hier, um diese Datei herunterzuladen.
Hier beschreiben wir ein relativ schnelles und einfaches Capture Hi-C Protokoll zur Charakterisierung der übergeordneten Organisation von Megabasen-Genomregionen mit einer Auflösung von 5-10 kb. Capture Hi-C gehört zur Familie der Capture-C-Technologien, die entwickelt wurden, um gezielte Chromatin-Interaktionen aus genomweiten 3C- oder Hi-C-Templates anzureichern. Bisher wurde die große Mehrheit der Capture-C-Anwendungen genutzt, um Chromatinkontakte relativ kleiner regulatorischer Elemente zu kartieren, die über das gesamte Genom verstreut sind. Im ersten Capture-C-Protokoll wurden mehrere überlappende RNA-biotinylierte Sonden verwendet, um >400 vorselektierte Promotoren in 3C-Bibliotheken einzufangen, die aus erythroiden Zellen hergestellt wurden31. Die gleiche Strategie wurde später in Next Generation (NG) und Nuclear Titrated (NuTi) Capture-C verbessert, um hochauflösende Interaktionsprofile von >8.000 Promotoren zu erreichen, indem einzelne 120-bp-DNA-Köder verwendet wurden, die einzelne Restriktionsstellen und zwei aufeinanderfolgende Fangrunden umfassten, um die Anreicherung informativer Ligationsfragmente zu maximieren32,40. Diese Strategien führten zur funktionellen Zerlegung von cis-wirkenden Elementen in vielen verschiedenen Kontexten, einschließlich der embryonalen Entwicklung der Maus, der Zelldifferenzierung, der Inaktivierung des X-Chromosoms und der Fehlregulation von Genen unter pathologischen Bedingungen 46,63,65,66,67,68,69,70,71.
Bei Promoter Capture Hi-C (PCHi-C) wurden >22.000 annotierte Promotoren, die Restriktionsfragmente enthielten, durch Hybridisierung einzelner RNA 120-mer biotinylierter Sonden an einem oder beiden Enden des Restriktionsfragments aus Hi-C-Bibliotheken gezogen34,72. Diese Methode ermöglichte die Dissektion des Interaktoms von Tausenden von Promotoren in einer schnell wachsenden Anzahl von Zelltypen, darunter embryonale Stammzellen der Maus, fetale Leberzellen und Adipozyten 34,35,72,73, aber auch menschliche lymphoblastoide Linien, hämatopoetische Vorläuferzellen, epidermale Keratinozyten und pluripotente Zellen 37,74,75,76,77.
Im Vergleich zu diesen Technologien zur Target-Anreicherung zielt Capture Hi-C auf zusammenhängende genomische Regionen bis auf die Megabasen-Skala ab, wobei es sich über einen oder mehrere TADs erstreckt und regulatorische Landschaften von Genen umfasst. Die gesamte interessierende Region muss mit einer Reihe von biotinylierten Sonden gekachelt werden, die jede DpnII-Restriktionsstelle innerhalb des Ziels umfassen. Die Hybridisierung des biotinylierten Arrays mit dem 3C-Template, seine anschließende Streptavidin-basierte Erfassung und Verarbeitung für die Multiplex-Sequenzierung erfolgt unter Verwendung eines Target-Anreicherungssystems für die Illumina Paired-End Multiplex-Sequenzierung. Das gesamte Protokoll ist schnell, da es von der 3C-Bibliotheksvorbereitung bis zur NGS-Sequenzierung in 1 Woche durchgeführt werden kann und nur geringfügige Anpassungen und/oder kundenspezifische Fehlerbehebungen erfordert.
Das Protokoll bietet auch Vorteile im Vergleich zu anderen 3C-basierten Methoden. Um Interaktionskarten mit einer Auflösung von 5-10 kb zu erhalten, sequenzierten wir 100-120 M Paired-End-Reads. Zum Vergleich haben wir hier einen Hi-C-Datensatz von 571 Mio. Lesevorgängen verwendet, um eine Auflösung von 20 kb64 (GSM2053973) zu erreichen, und mindestens 1 Milliarde Lesevorgänge wären erforderlich, um eine Auflösung von 5 kb mit chromosomenweitem Hi-C22 zu erreichen.
Capture Hi-C, wie es in der vorliegenden Studie verwendet wird, erreicht eine viel höhere Auflösung als das zuvor veröffentlichte 5C, das auf einem 6-bp-Cutter-Restriktionsenzym47 basiert (ergänzende Tabelle 1). Wichtig ist, dass die Strategie, die darauf abzielt, gezielte Interaktionen in 5C anzureichern und zu verstärken, keine allelspezifische Analyse von Chromatininteraktionen zulässt. Im Gegenteil, Capture Hi-C-Daten können allelspezifisch kartiert werden, was die Zerlegung der 3D-Strukturlandschaften von Paaren homologer Chromosomen ermöglicht, beispielsweise in menschlichen Zellen oder in F1-Hybridzelllinien, die durch Kreuzung genetisch unterschiedlicher Mausstämme entstandensind 78. Um allelspezifische Capture Hi-C-Interaktionskarten mit einer Auflösung von 5 kb zu erstellen, sequenzierten wir 150 bp Paired-End-Reads, um die SNP-Abdeckung zu erhöhen. Ähnliche Allel-spezifische Ansätze können auf humane Zelllinien angewendet werden, für die die Annotation von SNPs verfügbar ist22.
Wichtig ist, dass, obwohl Capture Hi-C im Allgemeinen eine hohe Auflösung gewährleistet und gleichzeitig die Erschwinglichkeit der Sequenzierungskosten verbessert, die Herstellung maßgeschneiderter biotinylierter Oligonukleotide einen Einfluss auf die Gesamtkosten dieser Methode hat. Daher ist die Wahl der am besten geeigneten 3C-Methode für verschiedene Anwendungen unterschiedlich und hängt von der biologischen Fragestellung und der erforderlichen Auflösung sowie von der Größe der interessierenden Region ab. Andere entwickelte Capture Hi-C-Protokolle haben wichtige Funktionen mit dem hier beschriebenen Protokoll gemeinsam. Zum Beispiel wurde eine Capture Hi-C-Strategie angewendet, um ~50 kb bis 1 Mb Genomregionen zu charakterisieren, die nicht-kodierende Varianten umfassen, die mit dem Brust- und Darmkrebsrisiko assoziiert sind. In diesem Protokoll wurden Zielregionen aus Hi-C-Bibliotheken herausgezogen, indem 120-mer-RNA-Köder hybridisiert wurden, wobei die Zielregionen mit einer 3-fachen Abdeckungvon 33,38,79 gekachelt wurden. In ähnlicher Weise wurde HYbrid Capture Hi-C (Hi-C 2) verwendet, um Interaktionen innerhalb von Regions of Interest bis zu2 Mb80 anzuvisieren. In beiden Protokollen erhöhte die Verwendung eines Hi-C-Templates, das für Biotin-Pulled-Down-Ligationsfragmente angereichert wurde, den Prozentsatz der gesamten informativen Reads im Vergleich zu unserem Protokoll. In dem Hi-C-Datensatz, den wir hier für den Vergleich64 verwendet haben (GSM2053973), ist beispielsweise der Prozentsatz der gültigen Paare nach dem Entfernen von Duplikaten 4,8-mal höher als die in Capture Hi-C erhaltenen gültigen Paare, wie in Abbildung 3 und ergänzender Tabelle 1 beschrieben. Das aufeinanderfolgende Herunterziehen von biotinylierten ligierten Fragmenten und hybridisierten Sonden macht das Protokoll jedoch deutlich komplexer und zeitaufwändiger, während die Komplexität der erfassten Region möglicherweise verringert wird.
Eine weitere verfügbare Methode zur Anreicherung von 3C-Templates mit Kachelsonden ist Tiled-C, die zur Untersuchung der Chromatinarchitektur mit hoher räumlicher und zeitlicher Auflösung während der erythroiden Differenzierung der Maus eingesetzt wurde43. In Tiled-C wird ein Panel von 70 bp biotinylierten Sonden verwendet, um Kontakte in großräumigen Regionen in zwei aufeinanderfolgenden Erfassungsrunden anzureichern, um sehr hochauflösende Karten gezielter Interaktionen zu erstellen43,81. Die doppelte Capture-Anreicherung macht das Protokoll im Vergleich zu Capture Hi-C auch länger und komplexer. Im Gegensatz zu den Capture-C-Strategien, die auf einzelne Restriktionsstellen abzielen, scheint die zweite Erfassungsrunde in Tiled-C die Erfassungseffizienz jedoch nicht signifikant zu erhöhen und kann daher wahrscheinlich weggelassen werden43. Schließlich wurde ein ähnlicher Kachelansatz, der auf der gleichen Zielanreicherungsstrategie basiert, die in dieser Studie verwendet wurde, auf die Analyse von regulatorischen Landschaften angewendet, die strukturelle Varianten umfassen, die bei Patienten mit angeborenen Fehlbildungen beschrieben und in transgenen Mäusen neu entwickelt wurden41,42. In diesem Fall wurde die Kachelanordnung von Sonden über das gesamte Ziel und nicht in der Nähe von DpnII-Restriktionsstellen41 entworfen. Nichtsdestotrotz war diese Arbeit wegweisend, um die Sensitivität und Leistungsfähigkeit dieser Strategie zur hochauflösenden Charakterisierung großer genomischer Regionen in verschiedenen Kontexten hervorzuheben41,42,48.
Zusammenfassend lässt sich sagen, dass das hier beschriebene Protokoll eine einfache, robuste und leistungsfähige Strategie für die hochauflösende 3D-Charakterisierung beliebiger genomischer Regionen von Interesse darstellt. Die Anwendung dieses Ansatzes auf verschiedene Modellsysteme, Zelltypen, entwicklungsregulierte Chromatinlandschaften und Genregulation unter gesunden und pathologischen Bedingungen dürfte unser Verständnis des Zusammenspiels und der Kausalität zwischen Genomtopologie und Genregulation erleichtern, eine der grundlegenden offenen Fragen im Bereich der Epigenetik. Darüber hinaus hat die Anwendung von Capture Hi-C zur Kartierung von langreichweitigen Interaktionen und Chromatinfaltung höherer Ordnung, die in GWAS-Studien identifiziert wurden, das Potenzial, die funktionelle Relevanz von nicht-kodierenden genomischen Loci aufzudecken, die mit menschlichen Krankheiten in verschiedenen Kontexten assoziiert sind, und damit neue Einblicke in die Prozesse zu gewinnen, die möglicherweise der Pathogenese zugrunde liegen.
Kai Hauschulz ist Field Application Scientist bei Agilent Technologies - Diagnostic and Genomics Group. Alle anderen Autoren erklären keine Interessenkonflikte.
Die Arbeit im Heard-Labor wurde durch einen Advanced Investigator Award des Europäischen Forschungsrats (XPRESS - AdG671027) unterstützt. A.L. wird durch ein Marie-Skłodowska-Curie-Stipendium der Europäischen Union (IF-838408) unterstützt. A.H. wird vom ITN Innovative and Interdisciplinary Network ChromDesign im Rahmen der Marie-Skłodowska-Curie-Grant-Vereinbarung 813327 unterstützt. Die Autoren danken Daniel Ibrahim (MPI für molekulare Genetik, Berlin) für hilfreiche technische Ratschläge, der NGS-Plattform am Institut Curie (Paris) und Vladimir Benes und der Genomics Core Facility am EMBL (Heidelberg) für die Unterstützung und Hilfe.
Name | Company | Catalog Number | Comments |
10x PBS pH 7.4 | Gibco | 10010-023 | |
37% (vol/vol) paraformaldehyde solution | Electron Microscopy Sciences | 15686 | single use glass-vials; do not reuse |
50 mL PP conical tube | Falcon | 352070 | |
Agarose | Sigma | A9539-500g | |
Bioanalyzer | Agilent | G2939BA | |
Cell Scrapers - 25 cm Handle and 3.0 cm Blade | Falcon | 353089 | |
CHIR99021 | Axon Medchem BV | Axon 1386 | |
cOmplete Mini, Protease inhibitor cocktail (EDTA-free) | Merck | 11836170001 | |
Countess Cell Counting Chamber Slides | Invitrogen | C10228 | |
Countess II FL | Invitrogen | ZGEXSCCOUNTESS2FL | Automated cell counter |
Covaris S2 | Covaris | 500217 | Sonicator |
DNA LoBind tube, 1.5 mL | Eppendorf | 30108051 | |
DpnII (50000 units/mL) | New England Biolabs | R0543M | |
Dulbecco's Modified Eagle Medium (DMEM) | Merck | D6429 | |
Ethanol (100%) | Merck | 1.00983.2500 | |
Fetal Bovine Serum (FBS) | Thermo Scientific | 10270106 | |
gelatine from porcine skin | Sigma | G1890 | |
GeneRuler 1 kb Plus DNA Ladder | Thermo Scientific | SM0313 | |
GlycoBlue | Thermo Scientific | AM9516 | Coprecipitant |
High-Sensitivity Bioanlayzer chips | Agilent | 5067-4626 | |
Large Cooling Centrifuge 5920 R | Eppendorf | 5948000018 | |
leukaemia inhibitory factor (LIF) | Merck | ESG1107 | |
Liquiport | KNF | NF300 | Benchtop aspiration system |
Low-binding filter tips | Biozym | VT0260U, VT0240, VT0220, VT0200U | |
Molecular biology grade water | Merck | W3500-6x500ML | |
Next Seq 500 | Illumina | SY-415-1001 | |
Next Seq 500 High Output v2 Kit (300 cycles) | Illumina | FC-404-2004 | |
Nonidet P40 Substitute (NP40) | Merck | 11332473001 | |
PD0325901 | Axon Medchem BV | Axon 1408 | |
Protease inhibitor cocktail (EDTA-free) | Merck | 11873580001 | |
Proteinase K - recombinant, PCR-grade (20 mg/mL) | Thermo Scientific | EO0491 | |
Qubit 2.0 | Thermo Scientific | Q32871 | |
Qubit assay tubes | Thermo Scientific | Q32856 | |
Qubit dsDNA High Sensitivity kit | Thermo Scientific | Q32851 | |
RNase A (10 mg/mL) | Thermo Scientific | EN0531 | |
Sodium acetate pH 5.2 (3M) | Merck | S7899 | |
speed vacuum concentrator | Eppendorf | EP5305000100-1EA | |
Agencourt AMPureXP | Beckman Coulter | A63881 | SPRI beads |
SureSelect Target Enrichment Box 1 | Agilent | 5190-8645 | |
SureSelect Target Enrichment Kit ILM Indexing Hyb Module Box 2 | Agilent | 5190-4455 | |
SureSelect XT Library Prep Kit ILM | Agilent | 5500-0132 | |
T4 ligase (30 units/µL) | Thermo Scientific | EL0013 | |
table-top Centrifuge 5427 R | Eppendorf | 5409000012 | |
Triton-X-100 (500 mL) | Merck | X100-500ML | |
Trypan Blue | Invitrogen | T10282 | |
Trypsine | Thermo Scientific | 25300054 | |
UltraPure Glycine | Thermo Scientific | 15527013 | |
β-mercaptoethanol | Thermo Scientific | 31350010 |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten