Method Article
Ce protocole décrit la méthode Capture Hi-C utilisée pour caractériser l’organisation 3D de régions génomiques ciblées de taille mégamétrique à haute résolution, y compris les limites des domaines topologiquement associés (TAD) et les interactions chromatines à longue distance entre les éléments de séquence d’ADN régulateurs et autres.
L’organisation spatiale du génome contribue à sa fonction et à sa régulation dans de nombreux contextes, y compris la transcription, la réplication, la recombinaison et la réparation. Comprendre la causalité exacte entre la topologie et la fonction du génome est donc crucial et fait de plus en plus l’objet de recherches intensives. Les technologies de capture de conformation chromosomique (3C) permettent de déduire la structure 3D de la chromatine en mesurant la fréquence des interactions entre n’importe quelle région du génome. Nous décrivons ici un protocole rapide et simple pour effectuer Capture Hi-C, une méthode d’enrichissement de cible basée sur 3C qui caractérise l’organisation 3D spécifique à l’allèle de cibles génomiques de taille mégamétrique à haute résolution. Dans Capture Hi-C, les régions cibles sont capturées par un ensemble de sondes biotinylées avant le séquençage à haut débit en aval. Ainsi, une résolution et une spécificité allèle plus élevées sont obtenues tout en améliorant le temps et l’abordabilité de la technologie. Pour démontrer ses points forts, le protocole Capture Hi-C a été appliqué au centre d’inactivation X ( Xic) de la souris, le locus régulateur principal de l’inactivation du chromosome X (XCI).
Le génome linéaire contient toutes les informations nécessaires pour qu’un organisme subisse un développement embryonnaire et survive tout au long de l’âge adulte. Cependant, demander à des cellules génétiquement identiques de remplir différentes fonctions est fondamental pour contrôler avec précision quelles informations sont utilisées dans des contextes spécifiques, y compris différents tissus et / ou stades de développement. On pense que l’organisation tridimensionnelle du génome participe à cette régulation spatio-temporelle précise de l’activité des gènes en facilitant ou en empêchant l’interaction physique entre des éléments régulateurs qui peuvent être séparés par plusieurs centaines de kilobases dans le génome linéaire (pour les revues 1,2,3). Au cours des 20 dernières années, notre compréhension de l’interaction entre le repliement du génome et l’activité s’est rapidement améliorée, en grande partie grâce au développement de technologies de capture de conformation chromosomique (3C) (pour la revue 4,5,6,7). Ces méthodes mesurent la fréquence des interactions entre toutes les régions du génome et reposent sur la ligature de séquences d’ADN qui sont à proximité 3D dans le noyau. Les protocoles 3C les plus courants commencent par la fixation des populations cellulaires avec un agent de réticulation tel que le formaldéhyde. La chromatine réticulée est ensuite digérée avec une enzyme de restriction, bien que la digestion de la MNase ait également été utilisée 8,9. Après la digestion, les extrémités de l’ADN libre à proximité spatiale sont re-ligaturées et la réticulation est inversée. Cette étape donne naissance à la « bibliothèque » 3C ou « modèle », un pool mixte de fragments hybrides dans lequel les séquences qui étaient à proximité 3D du noyau ont plus de chances d’être ligaturées dans le même fragment d’ADN. La quantification en aval de ces fragments hybrides permet de déduire la conformation 3D de régions génomiques situées à des milliers de paires de bases dans le génome linéaire, mais qui pourraient interagir dans l’espace 3D.
De nombreuses approches différentes ont été développées pour caractériser la bibliothèque 3C, différant à la fois en termes de sous-ensembles de fragments de ligature analysés et de technologie utilisée pour leur quantification en aval. Le protocole 3C original reposait sur la sélection de deux régions d’intérêt et la quantification de leur fréquence d’interaction « un contre un » par PCR10,11. L’approche 4C (capture circulaire de conformation chromosomique) mesure les interactions entre un seul locus d’intérêt (c.-à-d. le « point de vue ») et le reste du génome (« un contre tous »)12,13,14. En 4C, la bibliothèque 3C subit un deuxième cycle de digestion et de re-ligature pour générer de petites molécules d’ADN circulaires qui sont amplifiées par des amorces spécifiques au point de vue15. 5C (chromosome conformation capture carbon copy) permet la caractérisation des interactions 3D dans de plus grandes régions d’intérêt, fournissant des informations sur le repliement de la chromatine d’ordre supérieur dans cette région (« plusieurs contre plusieurs »)16. En 5C, la bibliothèque 3C est hybridée à un pool d’oligonucléotides chevauchant des sites de restriction qui peuvent ensuite être amplifiés par PCR multiplex avec amorces universelles15. Dans 4C et 5C, les fragments d’ADN informatifs ont d’abord été quantifiés par des puces à ADN et plus tard par séquençage de nouvelle génération (NGS)17,18,19. Ces stratégies caractérisent les régions d’intérêt ciblées, mais ne peuvent pas être appliquées pour cartographier les interactions à l’échelle du génome. Ce dernier objectif est atteint avec Hi-C, une stratégie à haut débit basée sur 3C dans laquelle le séquençage massivement parallèle du modèle 3C permet la caractérisation impartiale du repliement de la chromatine au niveau du génome (« tous contre tous »)20. Le protocole Hi-C comprend l’incorporation d’un résidu biotinylé aux extrémités des fragments digérés, qui est suivi d’une réduction des fragments de ligature avec des billes de streptavidine pour augmenter la récupération des fragments ligaturés20.
Hi-C a révélé que les génomes des mammifères sont structurellement organisés à plusieurs échelles dans le noyau 3D. À l’échelle de la mégabase, le génome est divisé en régions de chromatine active et inactive, les compartiments A et B, respectivement20,21. L’existence d’autres sous-compartiments représentés par différents états de chromatine et d’activité a également été démontrée par la suite22. À une résolution plus élevée, le génome est ensuite partitionné en domaines d’auto-interaction sous-mégabase appelés domaines d’association topologique (TAD), révélés pour la première fois par l’analyse Hi-C et 5C des génomes humain et murin23,24. Contrairement aux compartiments qui varient d’une manière spécifique aux tissus, les TAD ont tendance à être constants (bien qu’il existe de nombreuses exceptions). Il est important de noter que les limites TAD sont conservées pour toutes les espèces25. Dans les cellules de mammifères, les TAD englobent souvent des gènes partageant le même paysage régulateur et il a été démontré qu’ils représentent un cadre structurel qui facilite la corégulation des gènes tout en limitant les interactions avec les domaines régulateurs voisins (pour la revue 3,26,27,28). De plus, au sein des TAD, les interactions dues aux sites CTCF à la base des boucles extrudées de cohésine peuvent augmenter la probabilité d’interactions promoteur-amplificateur ou amplificateur-amplificateur (pour la revue29).
En Hi-C, les compartiments et les TAD peuvent être détectés à une résolution de 1 Mb à 40 kb, mais une résolution plus élevée peut être obtenue pour caractériser des contacts à plus petite échelle, tels que les interactions en boucle entre éléments distaux à l’échelle de 5 à 10 kb. Cependant, l’augmentation de la résolution pour pouvoir détecter efficacement de telles boucles par HiC nécessite une augmentation significative de la profondeur de séquençage et, par conséquent, des coûts de séquençage. Ceci est exacerbé si l’analyse doit être spécifique à l’allèle. En effet, une augmentation X de la résolution nécessite une augmentation X2 de la profondeur de séquençage, ce qui signifie que les approches à haute résolution et spécifiques à l’allèle à l’échelle du génome peuvent être prohibitives30.
Pour améliorer la rentabilité et l’abordabilité tout en maintenant une haute résolution, les régions cibles d’intérêt peuvent être physiquement extraites des bibliothèques 3C ou Hi-C à l’échelle du génome après leur hybridation avec des sondes oligonucléotidiques complémentaires marquées à la biotine avant le séquençage en aval. Ces stratégies d’enrichissement de la cible sont appelées méthodes de capture-C et permettent l’interrogation des interactions de centaines de loci cibles dispersés dans le génome (c.-à-d. Promoter Capture (PC) Hi-C; Capture C de nouvelle génération (NG); Capture à faible entrée (LI) en C ; Capture nucléaire titrée (NuTi) en C; Tri-C)31,32,33,34,35,36,37,38,39,40, ou dans des régions couvrant jusqu’à plusieurs mégabases (c.-à-d. Capture HiC; HYbrid Capture Hi-C (Hi-C2); Tuilé-C)41,42,43. Deux aspects peuvent varier dans les méthodes basées sur la capture : (1) la nature et la conception des oligonucléotides biotinylés (c.-à-d. ARN ou ADN, oligos uniques capturant des cibles génomiques dispersées ou oligos multiples marquant une région d’intérêt); et (2) le modèle utilisé pour abattre les cibles qui peuvent être la bibliothèque 3C ou Hi-C, cette dernière étant constituée de fragments de restriction biotinylés tirés de la bibliothèque 3C.
Ici, un protocole Capture Hi-C basé sur l’enrichissement des contacts cibles à partir de la bibliothèque 3C est décrit. Le protocole repose sur la conception d’un réseau de pavage sur mesure de sondes d’ARN biotinylées et peut être réalisé en 1 semaine de la préparation de la bibliothèque 3C au séquençage NGS. Le protocole est rapide, simple et permet de caractériser l’organisation 3D d’ordre supérieur des régions d’intérêt de la taille d’une mégabase à une résolution de 5 Ko tout en améliorant l’efficacité temporelle et l’abordabilité par rapport aux autres méthodes 3C. Le protocole Capture Hi-C a été appliqué au locus régulateur maître de l’inactivation du chromosome X (XCI), le centre d’inactivation X (Xic), qui héberge l’ARN non codant Xist. Le Xic a déjà fait l’objet d’analyses structurelles et fonctionnelles approfondies (pour examen44,45). Chez les mammifères, XCI compense le dosage des gènes liés à l’X entre les femelles (XX) et les mâles (XY) et implique le silence transcriptionnel de la quasi-totalité de l’un des deux chromosomes X dans les cellules femelles. Le Xic a représenté un puissant locus de référence pour les études sur la topologie du génome 3D et l’interaction avec la régulation des gènes44. L’analyse 5C de la Xic dans les cellules souches embryonnaires de souris (CSEm) a conduit à la découverte et à la dénomination des TAD, fournissant les premiers aperçus de la pertinence fonctionnelle de la partition topologique et de la corégulation génique24. L’organisation topologique du Xic s’est par la suite révélée être impliquée de manière critique dans le moment approprié du développement de la régulation positive de Xist et de XCI 46, et des éléments cis-régulateurs insoupçonnés qui peuvent influencer l’activité des gènes dans et entre les TAD ont également été récemment découverts dans le Xic47,48,49. L’application de Capture Hi-C à 3 Mo du chromosome X de la souris couvrant le Xic démontre la puissance de cette approche pour disséquer le repliement de la chromatine à grande échelle à haute résolution. Un protocole détaillé et facile à suivre est fourni, allant de la conception de la gamme de sondes biotinylées sur chaque site de restriction DpnII dans la région d’intérêt à la génération de la bibliothèque 3C à l’échelle du génome, à l’hybridation et à la capture des contacts cibles et à l’analyse des données en aval. Un aperçu des contrôles de qualité appropriés et des résultats attendus est également inclus, et les forces et les limites de l’approche sont discutées à la lumière de méthodes similaires existantes.
Les cellules souches embryonnaires de souris (CSEm) utilisées dans cette étude proviennent d’un croisement d’une femelle TX/TX R26 rtTA/rtTA 50 avec un mâle Mus musculus castaneus selon les directives de soins aux animaux de l’Institut Curie (Paris)51.
1. Conception de la sonde
2. Procédure expérimentale
3. Analyse des données
Le protocole Capture Hi-C décrit est basé sur la préparation du modèle 3C à l’échelle du génome à l’aide d’un cutter à quatre bases (DpnII). L’enrichissement ultérieur des fragments de ligature dans la région génomique d’intérêt est obtenu par hybridation d’un réseau de sondes à ARN en pavage et leur capture à base de streptavidine selon le système d’enrichissement de la cible utilisé dans cette étude (Figure 1). Les sondes d’ARN biotinylées ont été sélectionnées car elles montrent une affinité de liaison plus étroite avec leurs cibles par rapport aux sondes ADN52,60. Les bibliothèques capturées sont ensuite indexées et regroupées pour le séquençage multiplexé à haut débit. Les données Hi-C de capture peuvent être visualisées sous forme de cartes d’interaction Hi-C haute résolution, mais aussi sous forme de cartes de contact à point de vue unique de type 4C pour visualiser spécifiquement les interactions de séquences plus petites telles que des promoteurs ou des amplificateurs dans toute la région capturée. Le flux de travail du protocole est illustré à la figure 4. Les contrôles de qualité pré-séquençage sont illustrés à la figure 2 et comprennent l’évaluation de la digestion et de la religature appropriées du gabarit 3C ainsi que son cisaillement et sa purification efficaces à travers les différentes étapes du protocole. L’ADN du modèle 3C cisaillé devrait atteindre entre 150 et 700 pb, et aucun enrichissement de fragments de >2 kb ne devrait être détecté. Au cours des étapes suivantes, plusieurs étapes de nettoyage de l’ADN et de sélection de la taille à base de billes sont effectuées, d’abord après le cisaillement, puis après les PCR pré-capture et post-capture. Les bibliothèques nettoyées présentent un profil d’enrichissement de fragments distinct tel que visualisé sur un bioanalyseur d’ADN haute sensibilité (Figure 2). La taille moyenne des fragments augmente au cours de la préparation de la bibliothèque en raison de la ligature des adaptateurs, du séquençage et des amorces d’indexation. Les contrôles de qualité post-séquençage sont obtenus via Hi-C Pro et illustrés à la figure 3. De nombreuses applications logicielles bioinformatiques différentes ont été proposées pour le traitement et l’analyse de données de type 3C. Parmi elles, le pipeline HiC-Pro est l’une des solutions les plus populaires, permettant le traitement des données brutes de séquençage vers les cartes de contact finales à différentes résolutions55. HiC-Pro utilise une stratégie de cartographie en deux étapes pour aligner les lectures de séquençage sur le génome de référence. Les produits 3C sont ensuite reconstruits et filtrés pour supprimer les paires de contacts non informatives et générer les cartes de contacts. En outre, il est capable d’utiliser une liste de polymorphismes connus pour effectuer une analyse spécifique aux allèles et pour séparer les contacts provenant des deux allèles parentaux dans des cartes de contact distinctes. Plus récemment, HiC-Pro a été inclus et étendu dans le cadre nf-core (nf-core-hic), fournissant un pipeline hautement évolutif et reproductible piloté par la communauté61,62.
Pour capturer la souris Xic, un réseau de 28 913 sondes d’ARN tuilant 3 Mb du chromosome X a été conçu. Cette région comprend l’acteur clé de XCI, le gène long non codant Xist, et son paysage réglementaire connu de ~800 kb (Figure 5). Cette région ~800 kb est divisée en deux TAD: l’un incluant le promoteur Xist et ses régulateurs positifs connus (c’est-à-dire les transcrits non codants Ftx, Jpx et Xert et le gène codant pour la protéine Rnf12), et le TAD voisin englobant les cis-régulateurs négatifs de Xist (c’est-à-dire son transcrit antisens Tsix, l’élément amplificateur Xite et le transcrit non codant Linx) (pour examen44, 45).
En appliquant le protocole Capture Hi-C décrit au Xic, l’organisation topologique de ce locus a été obtenue avec une résolution sans précédent (Figure 6 et Figure 7). Cela est particulièrement évident lorsque l’on compare le profil Capture Hi-C au 5C47 précédemment publié (Figure 6 et Figure 7; Tableau supplémentaire 1) et Hi-C61 (Figure 6 et Figure 7; Tableau supplémentaire 1) Profils. Par exemple, les structures sous-TAD sont plus évidentes — le TAD contenant le promoteur Xist (Xist-TAD) est clairement subdivisé en deux domaines plus petits (Figure 6A, pointe de flèche bleue). Auparavant, cela ne pouvait être visuellement « deviné » qu’à partir du profil 5C (Figure 6B), bien que la détection d’une limite dans cette région à l’aide de l’algorithme de score d’isolation. De même, la résolution du profil Capture Hi-C permet l’identification de deux domaines plus petits dans le TAD voisin (Figure 6A, B), qui contient le promoteur du locus Tsix ( Tsix-TAD ) ; cela n’avait pas été réalisé auparavant avec 5C (figure 6B). Il convient de noter que les limites topologiques déterminées par le score d’isolation des données de capture Hi-C et 5C sont généralement détectées à des endroits légèrement différents et avec des forces relatives différentes.
De plus, d’autres structures sous-TAD telles que les boucles de contact sont clairement visibles à partir des données de Capture Hi-C, telles que la boucle entre Xist et Ftx (Figure 7A), précédemment identifiée avec Capture-C63, et la boucle entre Xist et Xert (Figure 7B), récemment identifiée à l’aide d’un protocole similaire pour Capture Hi-C48. D’autres contacts peuvent également être cartographiés plus précisément en raison de la résolution accrue des profils Capture Hi-C, tels que ceux formant les points chauds de contact connus dans le Tsix-TAD entre les loci Linx, Chic1 et Xite (Figure 7A).
Par rapport aux données Hi-C présentées à la figure 7, Capture Hi-C a permis de multiplier par quatre la résolution, mais il n’a nécessité qu’un quart de la profondeur de séquençage (c.-à-d. 126 M de lectures contre 571 M) (tableau supplémentaire 1). Cette augmentation de la résolution permet de détecter les subTADs et les interactions en boucle qui n’ont pas pu être détectées par Hi-C à la profondeur de séquençage illustrée à la figure 6 et à la figure 7. Le protocole décrit pour Capture Hi-C permet donc une caractérisation beaucoup plus détaillée et à haute résolution d’une grande région génomique d’intérêt, par rapport aux approches précédentes.
Figure 1 : Conception de la sonde. Représentation schématique de la stratégie utilisée pour la conception de la sonde. Des régions de 300 pb en amont et en aval de chaque site de restriction DpnII dans la région cible de 3 Mb ont été sélectionnées et carrelées avec des sondes d’ARN biotinylées qui se chevauchent. L’une de ces régions sélectionnées est affichée, chrX : 102 474 805-102 475 500. Pas plus de 40 bases de séquences répétitives sont autorisées dans chaque sonde. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 2 : Capture des contrôles de qualité de pré-séquençage Hi-C. (A) Exemple représentatif de contrôles de qualité du modèle 3C. 200 ng d’ADN ont été chargés sur un gel d’agarose à 1%. Voie 1 : échelle de 1 ko. Voie 2 : La chromatine non digérée, réticulée et intacte fonctionne comme une bande pointue à >10 kb. Voie 3 : La chromatine réticulée digérée par DpnII se présente comme un frottis d’une taille comprise entre 1 kb et 3 kb. Lane 4: Bibliothèque ou modèle 3C final; les extrémités libres des fragments d’ADN réticulé digérés sont re-ligaturées. Le frottis d’ADN de taille moléculaire inférieure est presque indétectable et le produit de ligature est détecté comme une bande de >10 kb. (B) Exemples représentatifs de profils ADN de bioanalyseurs à haute sensibilité. En haut à gauche : bibliothèque 3C cisaillée avec succès montrant une distribution de la taille des fragments comprise entre 150 bp et 700 bp. En haut à droite : bibliothèque 3C cisaillée insatisfaisante. L’ADN non cisaillé est détecté comme un enrichissement large de fragments >2 kb. (C) En bas à gauche : échantillon d’ADN cisaillé suivant une sélection de taille latérale gauche 1:1 à l’aide de billes SPRI. Des fragments de ~300 pb sont enrichis. En bas au milieu : profil PCR pré-capture après ligature des adaptateurs d’extrémité appariés selon le protocole du fabricant. En bas à droite : bibliothèque Capture Hi-C finale comprenant les adaptateurs, le séquençage et les amorces d’indexation pour le séquençage multiplexé. Abréviations : bp = paires de bases, FU = unité de fluorescence arbitraire. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 3 : Capture des contrôles qualité post-séquençage Hi-C avec HiC-Pro. (A) Exemple de taux de cartographie sur le génome de référence pour le premier compagnon des paires de séquençage. La fraction bleu clair représente les lectures alignées par HiC-Pro et couvrant une jonction de ligature. Cette métrique peut ainsi être utilisée pour valider l’étape expérimentale de ligature. (B) Une fois que les partenaires de séquençage sont alignés sur le génome, seules les paires de lecture alignées de manière unique sont conservées pour analyse. (C) Les paires non valides (en rouge) telles que l’extrémité pendante, l’auto-cercle ou la religature sont écartées de l’analyse. La fraction de paires valides est un bon indicateur de l’efficacité de la ligature et de la pull-down. (D) Les paires valides peuvent être divisées en contacts intra/interchromosomiques et à court/longue portée. Les paires de lecture dupliquées susceptibles de représenter des artefacts de PCR sont éliminées de l’analyse. (E) Pour l’analyse spécifique aux allèles, HiC-Pro indique le nombre de lectures alléliques prises en charge par un ou deux partenaires pour chaque génome parental (c.-à-d. C57BL/6J x CASTEi/J). La même fraction de lectures attribuées à l’allèle maternel et paternel est attendue. (F) Enfin, seules les paires valides chevauchant la région de capture sont sélectionnées pour construire les cartes de contact. Les paires capture-capture représentent les contacts au sein de la région ciblée, tandis que les paires capture-rapporteur impliquent une interaction entre la région ciblée et une région hors cible. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 4 : Workflow du protocole Capture Hi-C. Représentation schématique des différentes étapes du protocole. Pour générer la matrice 3C à l’échelle du génome, la chromatine est d’abord réticulée avec le formaldéhyde, puis digérée avec l’enzyme de restriction DpnII. Les extrémités de l’ADN libre sont ensuite re-ligaturées, la réticulation est inversée et l’ADN est purifié. Pour enrichir les fragments englobant la région cible, un réseau de sondes d’ARN biotinylées est hybridé au modèle 3C et capturé par tirage médié par la streptavidine. Les bibliothèques de capture sont traitées pour le séquençage multiplexé, et des fragments de ligature valides sont quantifiés pour déduire la fréquence des contacts de chromatine à travers la cible, qui sont visualisés sous forme de cartes d’interaction haute résolution. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 5: Vue d’ensemble de la région englobant le Xic sur le chromosome X de la souris. Représentation schématique du chromosome X de la souris et zoom avant de la région capturée de 3 Mo (ChrX : 102 475 000-105 475 000). La région ciblée comprend ~800 kb d’ADN correspondant au Xic, le locus régulateur maître de XCI. Le Xic comprend les gènes longs non codants, Xist, un acteur clé de XCI, et son paysage réglementaire. Les régulateurs positifs de Xist sont représentés en vert et les régulateurs négatifs en violet. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 6 : Capturez les cartes d’interaction Hi-C, 5C et Hi-C dans la région capturée de 3 Mo. (A) Capturer la carte d’interaction Hi-C de la cible de 3 Mo englobant la souris Xic à une résolution de 10 kb (cette étude). (B) Carte d’interaction 5C de la même région cible que dans A à une résolution de 6 kb (données retraitées à partir de47). Les régions répétitives non incluses dans les analyses sont masquées en blanc. Les données 5C nécessitent leur propre traitement bioinformatique (voir47). Après le nettoyage et l’alignement, les cartes 5C à la résolution de l’amorce sont regroupées à l’aide d’une médiane courante (fenêtre = 30 kb, étape = 5) pour atteindre une résolution finale de 6 ko. (C) Carte d’interaction Hi-C de la même région génomique que dans A et B à une résolution de 40 kb (données retraitées à partir de64). Toutes les cartes d’interaction ont été générées à partir d’ESC de souris. Le score d’isolation a été calculé à l’aide de cooltools et est représenté sous forme d’histogrammes avec des minimaux d’isolation aux limites TAD. Les limites TAD sont indiquées sous forme de lignes verticales sous la carte. La hauteur de chaque ligne indique la force des limites. Les gènes sont représentés par des flèches pointant dans le sens de la transcription. Les limites des sous-TAD qui sont détectées exclusivement ou plus précisément dans les cartes Capture Hi-C sont indiquées par des pointes de flèches magenta et bleues pour les sous-TAD dans les TAD Tsix et Xist, respectivement. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 7 : Capturez les cartes d’interaction Hi-C, 5C et Hi-C sur 1 Mo dans la région capturée. (A) Capturer la carte d’interaction Hi-C de la région génomique de 1 Mb englobant la souris Xic à une résolution de 5 kb (cette étude). (B) Carte d’interaction 5C de la même région génomique que dans A. à une résolution de 6 Ko (données retraitées à partir de47). Les régions répétitives non incluses dans les analyses sont masquées en blanc. Il convient de noter que les données 5C nécessitent leur propre traitement bioinformatique (voir47). Après le nettoyage et l’alignement, les cartes 5C à la résolution de l’amorce sont regroupées à l’aide d’une médiane courante (fenêtre = 30 kb, étape = 5) pour atteindre une résolution finale de 6 ko. (C) Carte d’interaction Hi-C de la même région génomique que dans A et B de Hi-C à une résolution de 20 kb (données retraitées à partir de64). Toutes les cartes d’interaction ont été générées à partir de CSEm. Le score d’isolation a été calculé à l’aide de cooltools et est représenté sous forme d’histogrammes avec des minimaux d’isolation aux limites TAD. Les limites TAD sont indiquées sous forme de lignes verticales sous la carte. La hauteur de chaque ligne indique la force des limites. Les gènes sont représentés par des flèches pointant vers la direction de la transcription. Les boucles de contact détectées exclusivement ou plus précisément dans Capture Hi-C sont indiquées par des astérisques magenta et bleus pour les boucles dans les TAD Tsix et Xist, respectivement. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Tableau supplémentaire 1 : Statistiques post-séquençage pour les ensembles de données utilisés dans ce manuscrit : Capture Hi-C (cette étude), Hi-C64 et 5C47. Veuillez cliquer ici pour télécharger ce fichier.
Nous décrivons ici un protocole Capture Hi-C relativement rapide et facile pour caractériser l’organisation d’ordre supérieur de régions génomiques de la taille d’une mégabase à une résolution de 5 à 10 ko. Capture Hi-C appartient à la famille des technologies Capture-C conçues pour enrichir les interactions chromatines ciblées à partir de modèles 3C ou Hi-C à l’échelle du génome. À ce jour, la grande majorité des applications de Capture-C ont été exploitées pour cartographier les contacts chromatiniques d’éléments régulateurs relativement petits dispersés dans l’ensemble du génome. Dans le premier protocole Capture-C, plusieurs sondes biotinylées à ARN superposées ont été utilisées pour capturer >400 promoteurs présélectionnés dans des bibliothèques 3C préparées à partir de cellules érythroïdes31. La même stratégie a ensuite été améliorée dans Next Generation (NG) et Nuclear Titrated (NuTi) Capture-C pour obtenir des profils d’interaction haute résolution de >8 000 promoteurs en utilisant des appâts d’ADN uniques de 120 pb couvrant des sites de restriction uniques et deux cycles séquentiels de capture pour maximiser l’enrichissement des fragments de ligature informative32,40. Ces stratégies ont conduit à la dissection fonctionnelle d’éléments agissant sur cis dans de nombreux contextes différents, y compris le développement embryonnaire de souris, la différenciation cellulaire, l’inactivation du chromosome X et la mauvaise régulation des gènes dans des conditions pathologiques 46,63,65,66,67,68,69,70,71.
Dans Promoter Capture Hi-C (PCHi-C), > 22 000 promoteurs annotés contenant des fragments de restriction ont été extraits des bibliothèques Hi-C par hybridation de sondes biotinylées à ARN unique 120-mer à l’une ou l’autre ou aux deux extrémités du fragment de restriction34,72. Cette méthode a permis de disséquer l’interactome de milliers de promoteurs dans un nombre croissant de types cellulaires, y compris les cellules souches embryonnaires de souris, les cellules hépatiques fœtales et les adipocytes 34,35,72,73, mais aussi les lignées lymphoblastoïdes humaines, les progéniteurs hématopoïétiques, les kératinocytes épidermiques et les cellules pluripotentes 37,74,75,76,77 .
En comparaison avec ces technologies d’enrichissement cible, Capture Hi-C cible des régions génomiques contiguës jusqu’à l’échelle de la mégabase, couvrant ainsi un ou plusieurs TAD et englobant les paysages régulateurs des gènes. Toute la région d’intérêt doit être carrelée avec un ensemble de sondes biotinylées englobant chaque site de restriction DpnII dans la cible. L’hybridation de la matrice biotinylée au modèle 3C, sa capture ultérieure à base de streptavidine et le traitement pour le séquençage multiplexé sont effectués à l’aide d’un système d’enrichissement de cible pour le séquençage multiplexé Illumina Paired-End. L’ensemble du protocole est rapide, car il peut être effectué en 1 semaine, de la préparation de la bibliothèque 3C au séquençage NGS, et il ne nécessite que des adaptations mineures et / ou un dépannage personnalisé.
Le protocole offre également des avantages par rapport à d’autres méthodes basées sur 3C. Pour obtenir des cartes d’interaction à une résolution de 5 à 10 Ko, nous avons séquencé 100 à 120 M de lectures d’extrémités appariées. À titre de comparaison, nous avons utilisé ici un ensemble de données Hi-C de 571 M lectures pour atteindre une résolution de 20 kb64 (GSM2053973), et au moins 1 milliard de lectures seraient nécessaires pour atteindre une résolution de 5 kb avec Hi-C22 à l’échelle du chromosome.
La capture Hi-C telle qu’utilisée dans la présente étude atteint une résolution beaucoup plus élevée que la 5C précédemment publiée sur la base d’une enzyme de restriction de coupure47 à 6 pb (tableau supplémentaire 1). Il est important de noter que la stratégie conçue pour enrichir et amplifier les interactions ciblées dans 5C ne permet pas une analyse spécifique des allèles des interactions chromatines. Au contraire, les données Capture Hi-C peuvent être cartographiées de manière spécifique à l’allèle, permettant la dissection des paysages structurels 3D de paires de chromosomes homologues, par exemple dans des cellules humaines ou dans des lignées cellulaires hybrides F1 dérivées en croisant génétiquement différentes souches de souris78. Pour générer des cartes d’interaction Capture Hi-C spécifiques aux allèles à une résolution de 5 Ko, nous avons séquencé des lectures d’extrémité appariées de 150 pb pour augmenter la couverture SNP. Des approches similaires spécifiques aux allèles peuvent être appliquées aux lignées cellulaires humaines, pour lesquelles l’annotation des SNP est disponible22.
Il est important de noter que, bien que Capture Hi-C assure généralement une haute résolution tout en améliorant l’abordabilité des coûts de séquençage, la production d’oligonucléotides biotinylés sur mesure a un impact sur le coût global de cette méthode. Par conséquent, le choix de la méthode 3C la plus appropriée différera pour différentes applications et dépendra de la question biologique abordée et de la résolution requise, ainsi que de la taille de la région d’intérêt. D’autres protocoles Capture Hi-C développés partagent des fonctionnalités clés avec le protocole décrit ici. Par exemple, une stratégie Capture Hi-C a été appliquée pour caractériser des régions génomiques de ~50 kb à 1 Mb couvrant des variantes non codantes associées au risque de cancer du sein et colorectal; dans ce protocole, les régions cibles ont été retirées des bibliothèques Hi-C en hybridant des appâts à ARN 120-mère en marquant les régions cibles à une couverture3x 33,38,79. De même, HYbrid Capture Hi-C (Hi-C 2) a été utilisé pour cibler les interactions dans les régions d’intérêt jusqu’à2 Mb80. Dans les deux protocoles, l’utilisation d’un modèle Hi-C enrichi pour les fragments de ligature tirés vers le bas de biotine a augmenté le pourcentage de lectures informatives totales par rapport à notre protocole. Par exemple, dans l’ensemble de données Hi-C que nous avons utilisé ici pour la comparaison64 (GSM2053973), le pourcentage de paires valides après la suppression des doublons est 4,8 fois plus élevé que les paires valides obtenues dans Capture Hi-C comme décrit dans la figure 3 et le tableau supplémentaire 1. Cependant, l’extraction consécutive de fragments ligaturés biotinylés et de sondes hybrides rend le protocole beaucoup plus complexe et prend beaucoup plus de temps tout en réduisant éventuellement la complexité de la région capturée.
Une autre méthode disponible pour enrichir les modèles 3C avec des sondes de pavage est Tiled-C, qui a été appliquée pour étudier l’architecture de la chromatine à haute résolution spatiale et temporelle lors de la différenciation érythroïdede souris 43. En Tiled-C, un panel de sondes biotinylées de 70 pb est utilisé pour enrichir les contacts au sein de régions à grande échelle lors de deux cycles consécutifs de capture afin de générer des cartes à très haute résolution des interactions ciblées43,81. Le double enrichissement de capture rend également le protocole plus long et plus complexe par rapport à Capture Hi-C. Cependant, contrairement aux stratégies de capture C ciblant des sites de restriction uniques, dans Tiled-C, le deuxième cycle de capture ne semble pas augmenter de manière significative l’efficacité de la capture et peut donc probablement être omis43. Enfin, une approche de pavage similaire basée sur la même stratégie d’enrichissement cible utilisée dans cette étude a été appliquée à la dissection de paysages régulateurs englobant des variantes structurelles décrites chez des patients atteints de malformations congénitales et remaniées chez des souris transgéniques41,42. Dans ce cas, le réseau de sondes en mosaïque a été conçu sur l’ensemble de la cible plutôt qu’à proximité des sites de restriction DpnII41. Néanmoins, ce travail a été déterminant en soulignant la sensibilité et la puissance de cette stratégie pour parvenir à une caractérisation à haute résolution de grandes régions génomiques dans différents contextes41,42,48.
En conclusion, le protocole décrit ici représente une stratégie simple, robuste et puissante pour la caractérisation 3D haute résolution de toutes les régions génomiques d’intérêt. L’application de cette approche à différents systèmes modèles, types cellulaires, paysages de chromatine régulés par le développement et régulation génique dans des conditions saines et pathologiques est susceptible de faciliter notre compréhension de l’interaction et de la causalité entre la topologie du génome et la régulation des gènes, l’une des questions fondamentales ouvertes dans le domaine de l’épigénétique. En outre, l’application de Capture Hi-C pour cartographier les interactions à longue distance et le repliement de la chromatine d’ordre supérieur des variantes de risque identifiées par les études GWAS a le potentiel de révéler la pertinence fonctionnelle des loci génomiques non codants associés aux maladies humaines dans différents contextes, fournissant ainsi de nouvelles informations sur les processus potentiellement sous-jacents à la pathogenèse.
Kai Hauschulz est Field Application Scientist chez Agilent Technologies - Diagnostic and Genomics Group. Tous les autres auteurs ne déclarent aucun intérêt concurrent.
Les travaux du laboratoire Heard ont été soutenus par une bourse Advanced Investigator du Conseil européen de la recherche (XPRESS - AdG671027). A.L. est soutenu par une bourse individuelle Marie Skłodowska-Curie Actions de l’Union européenne (IF-838408). A.H. est soutenu par le réseau innovant et interdisciplinaire ITN ChromDesign, dans le cadre de l’accord de subvention Marie Skłodowska-Curie 813327. Les auteurs remercient Daniel Ibrahim (MPI for Molecular Genetics, Berlin) pour ses conseils techniques utiles, la plateforme NGS de l’Institut Curie (Paris), ainsi que Vladimir Benes et le Genomics Core Facility de l’EMBL (Heidelberg) pour leur soutien et leur assistance.
Name | Company | Catalog Number | Comments |
10x PBS pH 7.4 | Gibco | 10010-023 | |
37% (vol/vol) paraformaldehyde solution | Electron Microscopy Sciences | 15686 | single use glass-vials; do not reuse |
50 mL PP conical tube | Falcon | 352070 | |
Agarose | Sigma | A9539-500g | |
Bioanalyzer | Agilent | G2939BA | |
Cell Scrapers - 25 cm Handle and 3.0 cm Blade | Falcon | 353089 | |
CHIR99021 | Axon Medchem BV | Axon 1386 | |
cOmplete Mini, Protease inhibitor cocktail (EDTA-free) | Merck | 11836170001 | |
Countess Cell Counting Chamber Slides | Invitrogen | C10228 | |
Countess II FL | Invitrogen | ZGEXSCCOUNTESS2FL | Automated cell counter |
Covaris S2 | Covaris | 500217 | Sonicator |
DNA LoBind tube, 1.5 mL | Eppendorf | 30108051 | |
DpnII (50000 units/mL) | New England Biolabs | R0543M | |
Dulbecco's Modified Eagle Medium (DMEM) | Merck | D6429 | |
Ethanol (100%) | Merck | 1.00983.2500 | |
Fetal Bovine Serum (FBS) | Thermo Scientific | 10270106 | |
gelatine from porcine skin | Sigma | G1890 | |
GeneRuler 1 kb Plus DNA Ladder | Thermo Scientific | SM0313 | |
GlycoBlue | Thermo Scientific | AM9516 | Coprecipitant |
High-Sensitivity Bioanlayzer chips | Agilent | 5067-4626 | |
Large Cooling Centrifuge 5920 R | Eppendorf | 5948000018 | |
leukaemia inhibitory factor (LIF) | Merck | ESG1107 | |
Liquiport | KNF | NF300 | Benchtop aspiration system |
Low-binding filter tips | Biozym | VT0260U, VT0240, VT0220, VT0200U | |
Molecular biology grade water | Merck | W3500-6x500ML | |
Next Seq 500 | Illumina | SY-415-1001 | |
Next Seq 500 High Output v2 Kit (300 cycles) | Illumina | FC-404-2004 | |
Nonidet P40 Substitute (NP40) | Merck | 11332473001 | |
PD0325901 | Axon Medchem BV | Axon 1408 | |
Protease inhibitor cocktail (EDTA-free) | Merck | 11873580001 | |
Proteinase K - recombinant, PCR-grade (20 mg/mL) | Thermo Scientific | EO0491 | |
Qubit 2.0 | Thermo Scientific | Q32871 | |
Qubit assay tubes | Thermo Scientific | Q32856 | |
Qubit dsDNA High Sensitivity kit | Thermo Scientific | Q32851 | |
RNase A (10 mg/mL) | Thermo Scientific | EN0531 | |
Sodium acetate pH 5.2 (3M) | Merck | S7899 | |
speed vacuum concentrator | Eppendorf | EP5305000100-1EA | |
Agencourt AMPureXP | Beckman Coulter | A63881 | SPRI beads |
SureSelect Target Enrichment Box 1 | Agilent | 5190-8645 | |
SureSelect Target Enrichment Kit ILM Indexing Hyb Module Box 2 | Agilent | 5190-4455 | |
SureSelect XT Library Prep Kit ILM | Agilent | 5500-0132 | |
T4 ligase (30 units/µL) | Thermo Scientific | EL0013 | |
table-top Centrifuge 5427 R | Eppendorf | 5409000012 | |
Triton-X-100 (500 mL) | Merck | X100-500ML | |
Trypan Blue | Invitrogen | T10282 | |
Trypsine | Thermo Scientific | 25300054 | |
UltraPure Glycine | Thermo Scientific | 15527013 | |
β-mercaptoethanol | Thermo Scientific | 31350010 |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon