Method Article
Este protocolo descreve o método Capture Hi-C usado para caracterizar a organização 3D de regiões genômicas alvo de tamanho megabaseado em alta resolução, incluindo limites de domínios topologicamente associados (TADs) e interações de cromatina de longo alcance entre elementos regulatórios e outros elementos de sequência de DNA.
A organização espacial do genoma contribui para sua função e regulação em muitos contextos, incluindo transcrição, replicação, recombinação e reparo. A compreensão da causalidade exata entre a topologia e a função do genoma é, portanto, crucial e cada vez mais objeto de pesquisa intensiva. As tecnologias de captura da conformação cromossômica (3C) permitem inferir a estrutura 3D da cromatina medindo a frequência de interações entre qualquer região do genoma. Aqui descrevemos um protocolo rápido e simples para realizar o Capture Hi-C, um método de enriquecimento de alvos baseado em 3C que caracteriza a organização 3D alelo-específica de alvos genômicos de tamanho megabaseado em alta resolução. No Capture Hi-C, as regiões-alvo são capturadas por uma matriz de sondas biotiniladas antes do sequenciamento de alto rendimento downstream. Assim, maior resolução e especificidade alélica são alcançadas, melhorando a eficácia do tempo e a acessibilidade da tecnologia. Para demonstrar seus pontos fortes, o protocolo Capture Hi-C foi aplicado ao centro de inativação X de camundongos ( Xic), o locus regulador mestre da inativação do cromossomo X (XCI).
O genoma linear contém todas as informações necessárias para que um organismo passe pelo desenvolvimento embrionário e sobreviva ao longo da vida adulta. No entanto, instruir células geneticamente idênticas a desempenhar diferentes funções é fundamental para controlar com precisão quais informações são usadas em contextos específicos, incluindo diferentes tecidos e/ou estágios de desenvolvimento. Acredita-se que a organização tridimensional do genoma participe dessa regulação espaço-temporal precisa da atividade gênica, facilitando ou impedindo a interação física entre elementos regulatórios que podem ser separados por várias centenas de quilobases no genoma linear (para revisões 1,2,3). Nos últimos 20 anos, nossa compreensão da interação entre dobramento e atividade do genoma aumentou rapidamente, em grande parte devido ao desenvolvimento de tecnologias de captura de conformação cromossômica (3C) (para revisão 4,5,6,7). Esses métodos medem a frequência de interações entre quaisquer regiões do genoma e dependem da ligadura de sequências de DNA que estão em estreita proximidade 3D dentro do núcleo. Os protocolos 3C mais comuns começam com a fixação das populações celulares com um agente de reticulação como o formaldeído. A cromatina reticulada é então digerida com uma enzima de restrição, embora a digestão com MNase também tenha sido utilizada 8,9. Após a digestão, as extremidades livres de DNA em estreita proximidade espacial são religadas, e as ligações cruzadas são invertidas. Essa etapa dá origem à 'biblioteca' ou 'modelo' 3C, um pool misto de fragmentos híbridos em que sequências que estavam em 3D próximas ao núcleo têm maiores chances de serem ligadas no mesmo fragmento de DNA. A quantificação a jusante desses fragmentos híbridos permite inferir a conformação 3D de regiões genômicas que estão localizadas a milhares de pares de bases no genoma linear, mas que podem interagir no espaço 3D.
Muitas abordagens diferentes foram desenvolvidas para caracterizar a biblioteca 3C, diferindo tanto em termos de quais subconjuntos de fragmentos de ligadura são analisados quanto qual tecnologia é usada para sua quantificação a jusante. O protocolo 3C original baseava-se na seleção de duas regiões de interesse e na quantificação de sua frequência de interação "um contra um" por PCR10,11. A abordagem 4C (captura circular da conformação cromossômica) mede as interações entre um único locus de interesse (i.e., o "ponto de vista") e o resto do genoma ("um contra todos")12,13,14. Em 4C, a biblioteca 3C passa por uma segunda rodada de digestão e religadura para gerar pequenas moléculas circulares de DNA que são amplificadas por PCR por primers específicos do ponto de visão15. O 5C (chromosome conformation capture carbon copy) permite a caracterização de interações 3D em regiões maiores de interesse, fornecendo informações sobre o dobramento de cromatina de ordem superior dentro dessa região ('muitos versus muitos')16. Em 5C, a biblioteca 3C é hibridizada a um pool de oligonucleotídeos sobrepostos em sítios de restrição que podem ser posteriormente amplificados por PCR multiplex com primers universais15. Tanto no 4C quanto no 5C, os fragmentos informativos de DNA foram inicialmente quantificados por microarrays e, posteriormente, por sequenciamento de última geração (NGS)17,18,19. Essas estratégias caracterizam regiões-alvo de interesse, mas não podem ser aplicadas para mapear interações genômicas amplas. Este último objetivo é alcançado com Hi-C, uma estratégia de alto rendimento baseada em 3C na qual o sequenciamento massivamente paralelo do molde 3C permite a caracterização imparcial do dobramento da cromatina no nível do genoma amplo ('todos versus todos')20. O protocolo Hi-C inclui a incorporação de um resíduo biotinilado nas extremidades dos fragmentos digeridos, que é seguido pelo pull-down dos fragmentos de ligadura com esferas de estreptavidina, para aumentar a recuperação dos fragmentosligados20.
Hi-C revelou que genomas de mamíferos são estruturalmente organizados em múltiplas escalas no núcleo 3D. Na escala de megabases, o genoma é dividido em regiões de cromatina ativa e inativa, compartimentos A e B, respectivamente20,21. A existência de outros subcompartimentos representados por diferentes estados de cromatina e atividade também foi posteriormente demonstrada22. Em maior resolução, o genoma é posteriormente particionado em domínios de auto-interação sub-megabase chamados domínios topologicamente associados (TADs), revelados pela primeira vez pela análise Hi-C e 5C dos genomas humano e de camundongos23,24. Ao contrário dos compartimentos que variam de maneira específica do tecido, os TADs tendem a ser constantes (embora haja muitas exceções). É importante ressaltar que os limites do TAD são conservados ao longo da espécie25. Em células de mamíferos, as DATs frequentemente englobam genes que compartilham a mesma paisagem regulatória e têm demonstrado representar uma estrutura estrutural que facilita a co-regulação gênica enquanto limita as interações com domínios regulatórios vizinhos (para revisão 3,26,27,28). Além disso, dentro de DATs, interações devidas a sítios CTCF na base de alças extrudadas por coesina podem aumentar a probabilidade de interações promotor-potenciador ou potenciador-potenciador (para revisão29).
Em Hi-C, compartimentos e DATs podem ser detectados com resolução de 1 Mb a 40 kb, mas maior resolução pode ser alcançada para caracterizar contatos de menor escala, como interações em looping entre elementos distais na escala de 5-10 kb. No entanto, aumentar a resolução para ser capaz de detectar tais loops de forma eficiente por HiC requer um aumento significativo na profundidade de sequenciamento e, portanto, nos custos de sequenciamento. Isso é exacerbado se a análise precisar ser alelo-específica. De fato, um aumento de resolução X requer um aumento X2 na profundidade de sequenciamento, o que significa que abordagens genômicas de alta resolução e alelo-específicas podem ser proibitivamente caras30.
Para melhorar a relação custo-benefício e a acessibilidade, mantendo a alta resolução, as regiões-alvo de interesse podem ser fisicamente retiradas de bibliotecas 3C ou Hi-C de todo o genoma após sua hibridização com sondas complementares de oligonucleotídeos marcados com biotina antes do sequenciamento a jusante. Essas estratégias de enriquecimento de alvos são chamadas de métodos de Captura-C e permitem a interrogação de interações de centenas de loci alvo espalhados pelo genoma (i.e., Promoter Capture (PC) Hi-C; Captura de Próxima Geração (NG)-C; Captura de Baixa Entrada (LI)-C; Captura Nuclear Titulada-C; Tri-C)31,32,33,34,35,36,37,38,39,40, ou entre regiões abrangendo até várias megabases (i.e., Capture HiC; Captura Hi-C (Hi-C2); Telha-C)41,42,43. Dois aspectos podem variar nos métodos baseados em captura: (1) a natureza e o planejamento de oligonucleotídeos biotinilados (isto é, RNA ou DNA, oligos únicos capturando alvos genômicos dispersos ou oligos múltiplos mosaicando uma região de interesse); e (2) o modelo que é usado para puxar para baixo alvos que podem ser a biblioteca 3C ou Hi-C, esta última consistindo em fragmentos de restrição biotinilados retirados da biblioteca 3C.
Aqui, um protocolo Capture Hi-C baseado no enriquecimento de contatos de destino da biblioteca 3C é descrito. O protocolo baseia-se no projeto de uma matriz de mosaico personalizada de sondas de RNA biotinilado e pode ser realizado em 1 semana desde a preparação da biblioteca 3C até o sequenciamento NGS. O protocolo é rápido, simples e permite caracterizar a organização 3D de ordem superior de regiões de interesse do tamanho de megabases com resolução de 5 kb, melhorando a eficácia do tempo e a acessibilidade em comparação com outros métodos 3C. O protocolo Capture Hi-C foi aplicado ao locus regulador mestre da inativação do cromossomo X (XCI), o centro de inativação X (Xic), que hospeda o RNA não-codificante Xist. O Xic já foi objeto de extensas análises estruturais e funcionais (para revisão44,45). Em mamíferos, XCI compensa a dosagem de genes ligados ao X entre fêmeas (XX) e machos (XY) e envolve o silenciamento transcricional de quase a totalidade de um dos dois cromossomos X em células femininas. O Xic tem representado um poderoso locus padrão-ouro para estudos em topologia genômica 3D e a interação com a regulação gênica44. A análise 5C do Xic em células-tronco embrionárias de camundongos (mESCs) levou à descoberta e nomeação de DATs, fornecendo os primeiros insights sobre a relevância funcional da partição topológica e da co-regulação gênica24. A organização topológica do Xic foi subsequentemente mostrada para ser criticamente envolvida no momento apropriado do desenvolvimento de Xist upregulation e XCI 46, e elementos cis-regulatórios insuspeitos que podem influenciar a atividade gênica dentro e entre TADs também foram recentemente descobertos dentro do Xic47,48,49. A aplicação do Capture Hi-C a 3 Mb do cromossomo X do mouse que abrange o Xic demonstra o poder dessa abordagem em dissecar o dobramento de cromatina em larga escala em alta resolução. Um protocolo detalhado e fácil de seguir é fornecido, desde o projeto da matriz de sondas biotiniladas em cada local de restrição de DpnII dentro da região de interesse até a geração da biblioteca 3C de todo o genoma, a hibridização e captura de contatos alvo e análise de dados a jusante. Uma visão geral dos controles de qualidade apropriados e dos resultados esperados também é incluída, e tanto os pontos fortes quanto as limitações da abordagem são discutidos à luz de métodos similares existentes.
As células-tronco embrionárias de camundongos (mESCs) utilizadas neste estudo foram derivadas do cruzamento de uma fêmea TX/TX R26rtTA/rtTA 50 com um macho Mus musculus castaneus de acordo com as diretrizes de cuidados com animais do Institut Curie (Paris)51.
1. Projeto da sonda
2. Procedimento experimental
3. Análise dos dados
O protocolo Capture Hi-C descrito é baseado na preparação do modelo 3C do genoma usando um cortador de quatro bases (DpnII). O subsequente enriquecimento de fragmentos de ligadura através da região genômica de interesse é obtido pela hibridização de um arranjo de sondas de RNA em mosaico e sua captura baseada em estreptavidina de acordo com o sistema de enriquecimento alvo utilizado neste estudo (Figura 1). Sondas de RNA biotinilado foram selecionadas por apresentarem afinidade de ligação mais estreita a seus alvos em comparação com sondas de DNA52,60. As bibliotecas capturadas são então indexadas e agrupadas para sequenciamento multiplexado de alta taxa de transferência. Os dados Hi-C de captura podem ser visualizados como mapas de interação Hi-C de alta resolução, mas também como mapas de contato de ponto de vista único semelhantes a 4C para visualizar especificamente as interações de sequências menores, como promotores ou intensificadores em toda a região capturada. O fluxo de trabalho do protocolo é mostrado na Figura 4. Os controles de qualidade pré-seqüenciamento são mostrados na Figura 2 e incluem a avaliação da digestão e religadura adequadas do molde 3C e sua eficiente cisalhamento e purificação nas diferentes etapas do protocolo. Espera-se que o DNA do molde 3C cortado funcione entre 150 e 700 pb, e nenhum enriquecimento de fragmentos >2 kb deve ser detectado. Durante as etapas seguintes, várias etapas de limpeza de DNA baseadas em contas e seleção de tamanho são realizadas, primeiro após o cisalhamento, depois após as PCRs pré-captura e pós-captura. O tamanho médio dos fragmentos aumenta ao longo da preparação da biblioteca devido à ligadura dos adaptadores, sequenciamento e iniciadores de indexação. Os controles de qualidade pós-seqüenciamento são obtidos via Hi-C Pro e mostrados na Figura 3. Muitos softwares de bioinformática têm sido propostos para processamento e análise de dados do tipo 3C. Entre elas, o pipeline HiC-Pro é uma das soluções mais populares, permitindo o processamento de dados brutos de sequenciamento até os mapas de contato finais em diversas resoluções55. O HiC-Pro usa uma estratégia de mapeamento em duas etapas para alinhar as leituras de sequenciamento no genoma de referência. Os produtos 3C são então reconstruídos e filtrados para remover pares de contato não informativos e gerar os mapas de contato. Além disso, é capaz de usar uma lista de polimorfismos conhecidos para realizar análises alelo-específicas e separar os contatos provenientes dos dois alelos parentais em mapas de contatos distintos. Mais recentemente, o HiC-Pro foi incluído e estendido na estrutura nf-core (nf-core-hic), fornecendo um pipeline altamente escalável e reprodutível orientado pela comunidade61,62.
Para capturar o camundongo Xic, um conjunto de 28.913 sondas de RNA til 3 Mb do cromossomo X foi projetado. Essa região inclui o jogador-chave no XCI, o longo gene não codificante Xist, e seu conhecido cenário regulatório de ~800 kb (Figura 5). Esta região de ~800 kb é particionada em dois TADs: um incluindo o promotor Xist e seus reguladores positivos conhecidos (ou seja, os transcritos não-codificantes Ftx, Jpx e Xert e o gene codificador de proteínas Rnf12), e o TAD vizinho englobando os cis-reguladores negativos de Xist (ou seja, seu transcrito antisenso Tsix, o elemento intensificador Xite, e o transcrito não-codificante Linx) (para a revisão 44,45).
Aplicando-se o protocolo Capture Hi-C descrito ao Xic, obteve-se a organização topológica deste locus em resolução inédita (Figura 6 e Figura 7). Isso fica particularmente claro quando se compara o perfil Capture Hi-C com o 5C47 publicado anteriormente (Figura 6 e Figura 7; Quadro Complementar 1) e Hi-C61 (Figura 6 e Figura 7; Quadro Complementar 1) Perfis. Por exemplo, as estruturas sub-TAD são mais evidentes — o TAD contendo o promotor Xist ( Xist-TAD ) é claramente subdividido em dois domínios menores (Figura 6A, ponta de seta azul). Anteriormente, isso só podia ser visualmente "adivinhado" a partir do perfil 5C (Figura 6B), embora a detecção de um limite nessa região usasse o algoritmo de escore de isolamento. Da mesma forma, a resolução do perfil Capture Hi-C permite a identificação de dois domínios menores no TAD vizinho (Figura 6A, B), que contém o promotor do locus Tsix ( Tsix-TAD ); isso não foi obtido anteriormente com 5C (Figura 6B). É importante notar que os limites topológicos determinados pela pontuação de isolamento dos dados Capture Hi-C e 5C são geralmente detectados em locais ligeiramente diferentes e com diferentes forças relativas.
Além disso, outras estruturas sub-TAD, como loops de contato, são claramente visíveis a partir dos dados do Capture Hi-C, como o loop entre Xist e Ftx (Figura 7A), previamente identificado com o Capture-C63, e o loop entre Xist e Xert (Figura 7B), recentemente identificado usando um protocolo semelhante para o Capture Hi-C48. Outros contatos também podem ser mapeados com mais precisão devido ao aumento da resolução dos perfis Capture Hi-C, como aqueles que formam os hotspots de contato conhecidos dentro do Tsix-TAD entre os loci Linx, Chic1 e Xite (Figura 7A).
Em comparação com os dados Hi-C mostrados na Figura 7, o Capture Hi-C permitiu um aumento de quatro vezes na resolução, mas exigiu apenas um quarto da profundidade de sequenciamento (ou seja, 126 M leituras versus 571 M) (Tabela Suplementar 1). Esse aumento na resolução permite a detecção de subTADs e interações de looping que não puderam ser detectadas pelo Hi-C na profundidade de sequenciamento mostrada na Figura 6 e na Figura 7. O protocolo descrito para Capture Hi-C permite, portanto, uma caracterização muito mais detalhada e de alta resolução de uma grande região genômica de interesse, quando comparado a abordagens anteriores.
Figura 1: Projeto da sonda. Representação esquemática da estratégia utilizada para o projeto da sonda. Regiões de 300 pb a montante e a jusante de cada sítio de restrição de DpnII ao longo da região alvo de 3 Mb foram selecionadas e agrupadas com sondas de RNA biotinilado sobrepostas. Uma dessas regiões selecionadas é mostrada, chrX: 102.474.805-102.475.500. Não são permitidas mais de 40 bases de sequências repetitivas em cada sonda. Clique aqui para ver uma versão maior desta figura.
Figura 2: Captura de controles de qualidade de pré-seqüenciamento Hi-C. (A) Exemplo representativo de controles de qualidade de modelo 3C. 200 ng de DNA foram carregados em gel de agarose a 1%. Faixa 1: escada de 1 kb. Faixa 2: Cromatina não digerida, reticulada e intacta funciona como uma banda afiada a >10 kb. Faixa 3: A cromatina reticulada digerida por DpnII funciona como um esfregaço entre 1 kb e 3 kb de tamanho. Faixa 4: Biblioteca ou modelo 3C final; extremidades livres de fragmentos de DNA reticulados digeridos são religadas. O esfregaço de DNA de menor tamanho molecular é quase indetectável, e o produto da ligadura é detectado como uma banda de >10 kb. (B) Exemplos representativos de perfis de DNA de bioanalisadores de alta sensibilidade. Canto superior esquerdo: biblioteca 3C cortada com sucesso mostrando uma distribuição de tamanho de fragmento entre 150 pb e 700 pb. Canto superior direito: biblioteca 3C cortada insatisfatória. DNA não cisalhado é detectado como amplo enriquecimento de fragmentos >2 kb. (C) Parte inferior esquerda: amostra de DNA cisalhada após uma seleção de tamanho do lado esquerdo de 1:1 usando contas SPRI. Fragmentos de ~300 pb são enriquecidos. Meio inferior: Perfil de PCR pré-captura após ligadura de adaptadores de extremidade pareada de acordo com o protocolo do fabricante. Canto inferior direito: biblioteca final do Capture Hi-C, incluindo adaptadores, sequenciamento e primers de indexação para sequenciamento multiplexado. Abreviações: bp = pares de bases, FU = unidade de fluorescência arbitrária. Clique aqui para ver uma versão maior desta figura.
Figura 3: Captura de controles de qualidade pós-seqüenciamento Hi-C com HiC-Pro . (A) Exemplo de taxa de mapeamento no genoma de referência para o primeiro parceiro dos pares de sequenciamento. A fração azul claro representa as leituras alinhadas por HiC-Pro e abrangendo uma junção de ligadura. Essa métrica pode, portanto, ser utilizada para validar a etapa experimental de ligadura. (B) Uma vez que os parceiros de sequenciamento estejam alinhados no genoma, apenas pares de leitura alinhados exclusivamente são mantidos para análise. (C) Pares não válidos (em vermelho), como pendurados, autocírculos ou religaduras, são descartados da análise. A fração de pares válidos é um bom indicador da eficiência da ligadura e do pull-down. (D) Os pares válidos podem ser divididos em contatos intra/intercromossômicos e de curto/longo alcance. Pares de leitura duplicados que provavelmente representam artefatos de PCR são descartados da análise. (E) Para análise alelo-específica, HiC-Pro relata o número de leituras alélicas suportadas por um ou dois parceiros para cada genoma parental (ou seja, C57BL/6J x CASTEi/J). A mesma fração de leituras atribuídas ao alelo materno e paterno é esperada. (F) Finalmente, apenas pares válidos sobrepostos à região de captura são selecionados para construir os mapas de contato. Os pares captura-captura representam contatos dentro da região de destino, enquanto os pares captura-repórter envolvem interação entre a região de destino e uma fora do alvo. Clique aqui para ver uma versão maior desta figura.
Figura 4: Fluxo de trabalho do protocolo Capture Hi-C. Representação esquemática de diferentes etapas do protocolo. Para gerar o modelo 3C do genoma, a cromatina é primeiro reticulada com formaldeído e, em seguida, digerida com a enzima de restrição DpnII. As extremidades livres do DNA são então religadas, as ligações cruzadas são revertidas e o DNA é purificado. Para enriquecer fragmentos que abrangem a região alvo, uma matriz de sondas de RNA biotinilado é hibridizada ao molde 3C e capturada por pull-down mediado por estreptavidina. Bibliotecas de captura são processadas para sequenciamento multiplexado, e fragmentos de ligadura válidos são quantificados para inferir a frequência de contatos de cromatina através do alvo, que são visualizados como mapas de interação de alta resolução. Clique aqui para ver uma versão maior desta figura.
Figura 5: Visão geral da região que engloba o Xic no cromossomo X do camundongo. Representação esquemática do cromossomo X do mouse e zoom in da região capturada de 3 Mb (ChrX: 102.475.000-105.475.000). A região alvo inclui ~800 kb de DNA correspondente ao Xic, o locus regulador mestre do XCI. O Xic inclui os longos genes não codificantes, Xist, um jogador-chave do XCI, e seu cenário regulatório. Os reguladores positivos do Xist são mostrados em verde e os reguladores negativos em roxo. Clique aqui para ver uma versão maior desta figura.
Figura 6: Capture mapas de interação Hi-C, 5C e Hi-C na região capturada de 3 Mb. (A) Capturar mapa de interação Hi-C do alvo de 3 Mb englobando o mouse Xic com resolução de 10 kb (este estudo). (B) Mapa de interação 5C da mesma região alvo que em A com resolução de 6 kb (dados reprocessados a partir de47). As regiões repetitivas não incluídas nas análises são mascaradas em branco. Os dados 5C requerem o seu próprio processamento de bioinformática (ver47). Após a limpeza e alinhamento, os mapas 5C na resolução do primer são agrupados usando uma mediana de corrida (janela = 30 kb, passo = 5) para atingir uma resolução final de 6 kb. (C) Mapa de interação Hi-C da mesma região genômica de A e B com resolução de 40 kb (dados reprocessados a partir de64). Todos os mapas de interação foram gerados a partir de CTEs de camundongos. O escore de isolamento foi calculado usando cooltools e é representado como histogramas com mínimos de isolamento nos limites do TAD. Os limites do TAD são mostrados como linhas verticais abaixo do mapa. A altura de cada linha indica a força de contorno. Os genes são mostrados como setas apontando na direção da transcrição. Os limites de sub-TAD que são detectados exclusivamente ou mais precisamente em mapas Capture Hi-C são indicados por pontas de seta magenta e azul para sub-TADs nos TADs Tsix e Xist, respectivamente. Clique aqui para ver uma versão maior desta figura.
Figura 7: Capture mapas de interação Hi-C, 5C e Hi-C em 1 Mb dentro da região capturada. (A) Capturar mapa de interação Hi-C da região genômica de 1 Mb englobando o camundongo Xic com resolução de 5 kb (este estudo). (B) Mapa de interação 5C da mesma região genômica de A. Com resolução de 6 kb (dados reprocessados a partir de47). As regiões repetitivas não incluídas nas análises são mascaradas em branco. É importante notar que os dados 5C requerem o seu próprio processamento de bioinformática (ver47). Após a limpeza e alinhamento, os mapas 5C na resolução do primer são agrupados usando uma mediana de corrida (janela = 30 kb, passo = 5) para atingir uma resolução final de 6 kb. (C) Mapa de interação Hi-C da mesma região genômica de A e B de Hi-C com resolução de 20 kb (dados reprocessados a partir de64). Todos os mapas de interação foram gerados a partir de mESCs. O escore de isolamento foi calculado usando cooltools e é representado como histogramas com mínimos de isolamento nos limites do TAD. Os limites do TAD são mostrados como linhas verticais abaixo do mapa. A altura de cada linha indica a força de contorno. Os genes são mostrados como setas apontando para a direção da transcrição. Os loops de contato que são detectados exclusivamente ou mais precisamente no Capture Hi-C são indicados por asteriscos magenta e azul para loops nos TADs Tsix e Xist, respectivamente. Clique aqui para ver uma versão maior desta figura.
Tabela Suplementar 1: Estatísticas pós-seqüenciamento para os conjuntos de dados utilizados neste manuscrito: Capture Hi-C (este estudo), Hi-C64 e 5C47. Clique aqui para baixar este arquivo.
Aqui descrevemos um protocolo Capture Hi-C relativamente rápido e fácil para caracterizar a organização de ordem superior de regiões genômicas do tamanho de megabases com resolução de 5-10 kb. O Capture Hi-C pertence à família de tecnologias Capture-C que são projetadas para enriquecer interações de cromatina direcionadas a partir de modelos 3C ou Hi-C em todo o genoma. Até o momento, a grande maioria das aplicações de Capture-C tem sido explorada para mapear contatos de cromatina de elementos regulatórios relativamente pequenos espalhados por todo o genoma. No primeiro protocolo Capture-C, múltiplas sondas biotiniladas de RNA sobrepostas foram usadas para capturar >400 promotores pré-selecionados em bibliotecas 3C preparadas a partir de células eritroides31. A mesma estratégia foi posteriormente aprimorada em Next Generation (NG) e Nuclear Titrated (NuTi) Capture-C para alcançar perfis de interação de alta resolução de >8.000 promotores usando iscas únicas de DNA de 120 pb abrangendo sítios de restrição única e duas rodadas sequenciais de captura para maximizar o enriquecimento de fragmentos informativos de ligadura32,40. Essas estratégias levaram à dissecção funcional de elementos de ação cis em diversos contextos, incluindo desenvolvimento embrionário de camundongos, diferenciação celular, inativação do cromossomo X e desregulação gênica em condições patológicas 46,63,65,66,67,68,69,70,71.
No Promoter Capture Hi-C (PCHi-C), >22.000 promotores anotados contendo fragmentos de restrição foram retirados das bibliotecas Hi-C por hibridização de sondas biotiniladas de RNA 120 mers em uma ou ambas as extremidades do fragmento de restrição34,72. Esse método permitiu a dissecção do interatoma de milhares de promotores em um número rapidamente crescente de tipos celulares, incluindo células-tronco embrionárias de camundongo, células hepáticas fetais e adipócitos 34,35,72,73, mas também linhagens linfoblastoides humanas, progenitores hematopoéticos, queratinócitos epidérmicos e células pluripotentes37,74,75,76,77.
Em comparação com essas tecnologias de enriquecimento de alvo, o Capture Hi-C tem como alvo regiões genômicas contíguas até a escala de megabase, abrangendo assim um ou mais TADs e abrangendo cenários regulatórios de genes. Toda a região de interesse deve ser coberta por uma matriz de sondas biotiniladas abrangendo cada sítio de restrição DpnII dentro do alvo. A hibridização da matriz biotinilada para o molde 3C, sua subsequente captura baseada em estreptavidina e processamento para sequenciamento multiplexado é realizada usando um sistema de enriquecimento de alvo para sequenciamento multiplexado Illumina Paired-End. Todo o protocolo é rápido, pois pode ser realizado em 1 semana, desde a preparação da biblioteca 3C até o sequenciamento NGS, e requer apenas pequenas adaptações e/ou solução de problemas personalizada.
O protocolo também oferece vantagens em comparação com outros métodos baseados em 3C. Para obter mapas de interação com resolução de 5-10 kb, sequenciamos leituras pareadas de 100-120 M. Como comparação, usamos aqui um conjunto de dados Hi-C de 571 M leituras para atingir uma resolução de 20 kb64 (GSM2053973), e pelo menos 1 bilhão de leituras seriam necessárias para atingir uma resolução de 5 kb com Hi-C22 em todo o cromossomo.
A captura Hi-C utilizada no presente estudo atinge uma resolução muito maior do que a 5C publicada anteriormente, baseada em uma enzima de restrição de corte de 6 pb47 (Tabela Suplementar 1). É importante ressaltar que a estratégia projetada para enriquecer e amplificar interações direcionadas em 5C não permite a análise alelo-específica das interações da cromatina. Pelo contrário, os dados do Capture Hi-C podem ser mapeados alelo-especificamente, permitindo a dissecção das paisagens estruturais 3D de pares de cromossomos homólogos, por exemplo, em células humanas ou em linhagens celulares híbridas F1 derivadas do cruzamento de linhagens de camundongos geneticamente diferentes78. Para gerar mapas de interação Capture Hi-C específicos para alelos com resolução de 5 kb, sequenciamos leituras de extremidade emparelhada de 150 pb para aumentar a cobertura SNP. Abordagens alelo-específicas semelhantes podem ser aplicadas a linhagens celulares humanas, para as quais a anotação de SNPs está disponível22.
É importante ressaltar que, embora o Capture Hi-C geralmente garanta alta resolução enquanto melhora a acessibilidade dos custos de sequenciamento, a produção de oligonucleotídeos biotinilados personalizados tem um impacto no custo geral desse método. Portanto, a escolha do método 3C mais adequado será diferente para diferentes aplicações, e dependerá da questão biológica que está sendo abordada e da resolução necessária, bem como do tamanho da região de interesse. Outros protocolos Capture Hi-C desenvolvidos compartilham os principais recursos com o protocolo descrito aqui. Por exemplo, uma estratégia de Captura Hi-C foi aplicada para caracterizar regiões genômicas de ~50 kb a 1 Mb abrangendo variantes não codificantes associadas ao risco de câncer de mama e colorretal; neste protocolo, as regiões-alvo foram retiradas das bibliotecas Hi-C hibridizando iscas de RNA de 120 meros que ladeiam as regiões-alvo a uma coberturade 3x 33,38,79. Da mesma forma, o HYbrid Capture Hi-C (Hi-C 2) foi usado para direcionar interações dentro de regiões de interesse de até2 Mb80. Em ambos os protocolos, o uso de um molde Hi-C enriquecido para fragmentos de ligadura puxados para baixo de biotina aumentou a porcentagem de leituras informativas totais em comparação com nosso protocolo. Por exemplo, no conjunto de dados Hi-C que usamos aqui para comparação64 (GSM2053973), a porcentagem de pares válidos após a remoção de duplicatas é 4,8 vezes maior do que os pares válidos obtidos no Capture Hi-C, conforme descrito na Figura 3 e na Tabela Suplementar 1. No entanto, o pull-down consecutivo de fragmentos ligados biotinilados e sondas hibridizadas torna o protocolo significativamente mais complexo e demorado, ao mesmo tempo em que possivelmente diminui a complexidade da região capturada.
Outro método disponível para enriquecer modelos 3C com sondas de mosaico é o Tiled-C, que foi aplicado para estudar a arquitetura da cromatina em alta resolução espacial e temporal durante a diferenciação eritroide de camundongos43. Em Tiled-C, um painel de sondas biotiniladas de 70 pb é usado para enriquecer contatos dentro de regiões de grande escala em duas rodadas consecutivas de captura para gerar mapas de altíssima resolução de interações direcionadas43,81. O enriquecimento de captura dupla também torna o protocolo mais longo e complexo quando comparado ao Capture Hi-C. No entanto, diferentemente das estratégias de Captura-C direcionadas a locais de restrição única, no Tiled-C a segunda rodada de captura não parece aumentar significativamente a eficiência de captura e, portanto, provavelmente pode ser omitida43. Finalmente, uma abordagem similar baseada na mesma estratégia de enriquecimento de alvos usada neste estudo foi aplicada à dissecção de paisagens regulatórias englobando variantes estruturais descritas em pacientes com malformações congênitas e redesenhadas em camundongos transgênicos41,42. Nesse caso, a matriz de sondas lado a lado foi projetada em todo o destino, em vez de na proximidade dos locais de restrição DpnII41. No entanto, este trabalho foi seminal ao destacar a sensibilidade e o poder dessa estratégia para alcançar a caracterização de alta resolução de grandes regiões genômicas em diferentes contextos41,42,48.
Em conclusão, o protocolo aqui descrito representa uma estratégia fácil, robusta e poderosa para a caracterização 3D de alta resolução de quaisquer regiões genômicas de interesse. A aplicação dessa abordagem a diferentes sistemas modelo, tipos celulares, paisagens de cromatina reguladas pelo desenvolvimento e regulação gênica em condições saudáveis e patológicas provavelmente facilitará nossa compreensão da interação e causalidade entre topologia genômica e regulação gênica, uma das questões fundamentais em aberto no campo da epigenética. Além disso, a aplicação do Capture Hi-C para mapear interações de longo alcance e dobramento de cromatina de ordem superior de variantes de risco identificadas por estudos GWAS tem o potencial de revelar a relevância funcional de loci genômicos não codificantes associados a doenças humanas em diferentes contextos, fornecendo assim novos insights sobre os processos potencialmente subjacentes à patogênese.
Kai Hauschulz é Cientista de Aplicação de Campo na Agilent Technologies - Grupo de Diagnóstico e Genômica. Todos os outros autores declaram não haver interesses concorrentes.
O trabalho no laboratório Heard foi apoiado por um prémio de Investigador Avançado do Conselho Europeu de Investigação (XPRESS - AdG671027). A.L. é apoiada por uma bolsa individual Marie Skłodowska-Curie Actions da União Europeia (IF-838408). A A.H. é apoiada pela ITN Innovative and Interdisciplinary Network ChromDesign, ao abrigo do acordo de subvenção Marie Skłodowska-Curie 813327. Os autores agradecem a Daniel Ibrahim (MPI for Molecular Genetics, Berlim) pelo aconselhamento técnico útil, à plataforma NGS no Institut Curie (Paris), e a Vladimir Benes e ao Genomics Core Facility na EMBL (Heidelberg), pelo apoio e assistência.
Name | Company | Catalog Number | Comments |
10x PBS pH 7.4 | Gibco | 10010-023 | |
37% (vol/vol) paraformaldehyde solution | Electron Microscopy Sciences | 15686 | single use glass-vials; do not reuse |
50 mL PP conical tube | Falcon | 352070 | |
Agarose | Sigma | A9539-500g | |
Bioanalyzer | Agilent | G2939BA | |
Cell Scrapers - 25 cm Handle and 3.0 cm Blade | Falcon | 353089 | |
CHIR99021 | Axon Medchem BV | Axon 1386 | |
cOmplete Mini, Protease inhibitor cocktail (EDTA-free) | Merck | 11836170001 | |
Countess Cell Counting Chamber Slides | Invitrogen | C10228 | |
Countess II FL | Invitrogen | ZGEXSCCOUNTESS2FL | Automated cell counter |
Covaris S2 | Covaris | 500217 | Sonicator |
DNA LoBind tube, 1.5 mL | Eppendorf | 30108051 | |
DpnII (50000 units/mL) | New England Biolabs | R0543M | |
Dulbecco's Modified Eagle Medium (DMEM) | Merck | D6429 | |
Ethanol (100%) | Merck | 1.00983.2500 | |
Fetal Bovine Serum (FBS) | Thermo Scientific | 10270106 | |
gelatine from porcine skin | Sigma | G1890 | |
GeneRuler 1 kb Plus DNA Ladder | Thermo Scientific | SM0313 | |
GlycoBlue | Thermo Scientific | AM9516 | Coprecipitant |
High-Sensitivity Bioanlayzer chips | Agilent | 5067-4626 | |
Large Cooling Centrifuge 5920 R | Eppendorf | 5948000018 | |
leukaemia inhibitory factor (LIF) | Merck | ESG1107 | |
Liquiport | KNF | NF300 | Benchtop aspiration system |
Low-binding filter tips | Biozym | VT0260U, VT0240, VT0220, VT0200U | |
Molecular biology grade water | Merck | W3500-6x500ML | |
Next Seq 500 | Illumina | SY-415-1001 | |
Next Seq 500 High Output v2 Kit (300 cycles) | Illumina | FC-404-2004 | |
Nonidet P40 Substitute (NP40) | Merck | 11332473001 | |
PD0325901 | Axon Medchem BV | Axon 1408 | |
Protease inhibitor cocktail (EDTA-free) | Merck | 11873580001 | |
Proteinase K - recombinant, PCR-grade (20 mg/mL) | Thermo Scientific | EO0491 | |
Qubit 2.0 | Thermo Scientific | Q32871 | |
Qubit assay tubes | Thermo Scientific | Q32856 | |
Qubit dsDNA High Sensitivity kit | Thermo Scientific | Q32851 | |
RNase A (10 mg/mL) | Thermo Scientific | EN0531 | |
Sodium acetate pH 5.2 (3M) | Merck | S7899 | |
speed vacuum concentrator | Eppendorf | EP5305000100-1EA | |
Agencourt AMPureXP | Beckman Coulter | A63881 | SPRI beads |
SureSelect Target Enrichment Box 1 | Agilent | 5190-8645 | |
SureSelect Target Enrichment Kit ILM Indexing Hyb Module Box 2 | Agilent | 5190-4455 | |
SureSelect XT Library Prep Kit ILM | Agilent | 5500-0132 | |
T4 ligase (30 units/µL) | Thermo Scientific | EL0013 | |
table-top Centrifuge 5427 R | Eppendorf | 5409000012 | |
Triton-X-100 (500 mL) | Merck | X100-500ML | |
Trypan Blue | Invitrogen | T10282 | |
Trypsine | Thermo Scientific | 25300054 | |
UltraPure Glycine | Thermo Scientific | 15527013 | |
β-mercaptoethanol | Thermo Scientific | 31350010 |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados