É necessária uma assinatura da JoVE para visualizar este conteúdo. Faça login ou comece sua avaliação gratuita.
Method Article
Este protocolo orienta os iniciantes em bioinformática através de um pipeline introdutório de análise CUT&RUN que permite aos usuários concluir uma análise inicial e validação dos dados de sequenciamento CUT&RUN. A conclusão das etapas de análise descritas aqui, combinadas com a anotação de pico a jusante, permitirá que os usuários obtenham insights mecanicistas sobre a regulação da cromatina.
A técnica CUT&RUN facilita a detecção de interações proteína-DNA em todo o genoma. As aplicações típicas do CUT&RUN incluem alterações de perfil nas modificações da cauda das histonas ou mapeamento da ocupação da cromatina do fator de transcrição. A adoção generalizada do CUT&RUN é impulsionada, em parte, por vantagens técnicas em relação ao ChIP-seq convencional, que incluem requisitos de entrada de células mais baixos, requisitos de profundidade de sequenciamento mais baixos e maior sensibilidade com sinal de fundo reduzido devido à falta de agentes de reticulação que, de outra forma, mascaram os epítopos de anticorpos. A adoção generalizada do CUT&RUN também foi alcançada por meio do compartilhamento generoso de reagentes pelo laboratório Henikoff e do desenvolvimento de kits comerciais para acelerar a adoção para iniciantes. À medida que a adoção técnica do CUT&RUN aumenta, a análise e a validação do sequenciamento CUT&RUN tornam-se gargalos críticos que devem ser superados para permitir a adoção completa por equipes predominantemente de laboratório úmido. A análise CUT&RUN normalmente começa com verificações de controle de qualidade em leituras de sequenciamento bruto para avaliar a profundidade do sequenciamento, a qualidade da leitura e possíveis vieses. As leituras são então alinhadas a uma montagem de sequência do genoma de referência e várias ferramentas de bioinformática são posteriormente empregadas para anotar regiões genômicas de enriquecimento de proteínas, confirmar a interpretabilidade dos dados e tirar conclusões biológicas. Embora vários pipelines de análise in silico tenham sido desenvolvidos para suportar a análise de dados CUT&RUN, sua complexa estrutura de vários módulos e o uso de várias linguagens de programação tornam as plataformas difíceis para iniciantes em bioinformática que podem não ter familiaridade com várias linguagens de programação, mas desejam entender o procedimento de análise CUT&RUN e personalizar seus pipelines de análise. Aqui, fornecemos um protocolo de pipeline de análise CUT&RUN passo a passo de linguagem única, projetado para usuários com qualquer nível de experiência em bioinformática. Este protocolo inclui a conclusão de verificações críticas de qualidade para validar se os dados de sequenciamento são adequados para interpretação biológica. Esperamos que seguir o protocolo introdutório fornecido neste artigo, combinado com a anotação de pico a jusante, permita que os usuários extraiam insights biológicos de seus próprios conjuntos de dados CUT&RUN.
A capacidade de medir as interações entre proteínas e DNA genômico é fundamental para entender a biologia da regulação da cromatina. Ensaios eficazes que medem a ocupação da cromatina para uma determinada proteína fornecem pelo menos duas informações importantes: i) localização genômica e ii) abundância de proteínas em uma determinada região genômica. Rastrear as mudanças de recrutamento e localização de uma proteína de interesse na cromatina pode revelar loci alvo direto da proteína e revelar papéis mecanicistas dessa proteína em processos biológicos baseados em cromatina, como regulação da transcrição, reparo do DNA ou replicação do DNA. As técnicas disponíveis hoje para traçar o perfil das interações proteína-DNA estão permitindo que os pesquisadores explorem a regulação com uma resolução sem precedentes. Tais avanços técnicos foram possibilitados pela introdução de novas técnicas de perfil de cromatina que incluem o desenvolvimento de Clivagem sob Alvos e Liberação Usando Nuclease (CUT & RUN) pelo laboratório Henikoff. O CUT&RUN oferece várias vantagens técnicas em relação à imunoprecipitação convencional da cromatina (ChIP) que incluem menores requisitos de entrada de células, menores requisitos de profundidade de sequenciamento e maior sensibilidade com sinal de fundo reduzido devido à falta de agentes de reticulação que, de outra forma, mascaram os epítopos de anticorpos. A adoção desta técnica para estudar a regulação da cromatina requer uma compreensão completa do princípio subjacente à técnica e uma compreensão de como analisar, validar e interpretar os dados do CUT&RUN.
O procedimento CUT&RUN começa com a ligação das células à Concanavalina A conjugada a esferas magnéticas para permitir a manipulação de números baixos de células durante todo o procedimento. As células isoladas são permeabilizadas usando um detergente neutro para facilitar a introdução de um anticorpo que tem como alvo a proteína de interesse. A nuclease microcócica (MNase) é então recrutada para o anticorpo ligado usando uma etiqueta de proteína A ou proteína A / G ligada à enzima. O cálcio é introduzido para iniciar a atividade enzimática. A digestão da MNase resulta em complexos mononucleossômicos de DNA-proteína. O cálcio é subsequentemente quelatado para encerrar a reação de digestão, e fragmentos curtos de DNA da digestão da MNase são liberados dos núcleos e, em seguida, submetidos à purificação do DNA, preparação da biblioteca e sequenciamento de alto rendimento1 (Figura 1).
Abordagens in silico para mapear e quantificar a ocupação de proteínas em todo o genoma foram desenvolvidas em paralelo com as abordagens de laboratório úmido usadas para enriquecer essas interações DNA-proteína. A identificação de regiões de sinais enriquecidos (picos) é uma das etapas mais críticas na análise de bioinformática. Os métodos iniciais de análise ChIP-seq usaram algoritmos como MACS2 e SICER3, que empregaram modelos estatísticos para distinguir locais de ligação proteína-DNA genuínos do ruído de fundo. No entanto, o ruído de fundo mais baixo e a resolução mais alta dos dados CUT & RUN tornam alguns programas de chamada de pico empregados na análise ChIP-seq inadequados para a análise CUT & RUN4. Este desafio destaca a necessidade de novas ferramentas mais adequadas para a análise de dados CUT&RUN. O SEACR4 representa uma dessas ferramentas recentemente desenvolvida para permitir chamadas de pico a partir de dados CUT&RUN, superando as limitações associadas às ferramentas normalmente empregadas para a análise ChIP-seq.
As interpretações biológicas dos dados de sequenciamento CUT&RUN são extraídas das saídas a jusante da chamada de pico no pipeline de análise. Vários programas de anotação funcional podem ser implementados para prever a relevância biológica potencial dos picos chamados a partir dos dados do CUT&RUN. Por exemplo, o projeto Gene Ontology (GO) fornece identificação funcional bem estabelecida de genes de interesse 5,6,7. Várias ferramentas e recursos de software facilitam a análise de GO para revelar genes e conjuntos de genes enriquecidos entre os picos CUT&RUN 8,9,10,11,12,13,14. Além disso, softwares de visualização como o Deeptools15, o visualizador de genômica integrativa (IGV)16 e o UCSC Genome Browser17 permitem a visualização da distribuição de sinais e padrões em regiões de interesse em todo o genoma.
A capacidade de extrair interpretações biológicas dos dados do CUT&RUN depende criticamente da validação da qualidade dos dados. Os componentes críticos a serem validados incluem a avaliação de: i) qualidade do sequenciamento da biblioteca CUT&RUN, ii) similaridade replicada e iii) distribuição de sinal em centros de pico. A conclusão da validação de todos os três componentes é crucial para garantir a confiabilidade das amostras da biblioteca CUT&RUN e dos resultados da análise downstream. Portanto, é essencial estabelecer guias introdutórios de análise CUT&RUN para permitir que iniciantes em bioinformática e pesquisadores de laboratório úmido conduzam essas etapas de validação como parte de seus pipelines de análise CUT&RUN padrão.
Juntamente com o desenvolvimento do experimento CUT&RUN de laboratório úmido, vários pipelines de análise in silico CUT&RUN, como CUT&RUNTools 2.018,19, nf-core/cutandrun20 e CnRAP21, foram desenvolvidos para apoiar a análise de dados CUT&RUN. Essas ferramentas fornecem abordagens poderosas para analisar conjuntos de dados CUT&RUN e CUT&Tag de célula única e em massa. No entanto, a estrutura modular relativamente complexa do programa e a familiaridade necessária com várias linguagens de programação para conduzir esses pipelines de análise podem dificultar a adoção por iniciantes em bioinformática que buscam entender completamente as etapas de análise do CUT&RUN e personalizar seus próprios pipelines. A evasão dessa barreira requer um novo pipeline de análise introdutório do CUT&RUN que é fornecido em scripts simples passo a passo codificados usando uma única linguagem de programação simples.
Neste artigo, descrevemos um protocolo simples de pipeline de análise CUT&RUN de linguagem única que fornece scripts passo a passo suportados com descrições detalhadas para permitir que usuários novos e novatos realizem análises de sequenciamento CUT&RUN. Os programas usados neste pipeline estão disponíveis publicamente pelos grupos de desenvolvedores originais. As principais etapas descritas neste protocolo incluem alinhamento de leitura, chamada de pico, análise funcional e, mais criticamente, etapas de validação para avaliar a qualidade da amostra para determinar a adequação e confiabilidade dos dados para interpretação biológica (Figura 2). Além disso, esse pipeline oferece aos usuários a oportunidade de cruzar os resultados da análise com os conjuntos de dados CUT&RUN disponíveis publicamente. Em última análise, este protocolo de pipeline de análise CUT&RUN serve como um guia introdutório e referência para iniciantes em análise de bioinformática e pesquisadores de laboratório úmido.
NOTA: As informações para os arquivos fastq CUT&RUN em GSE126612 estão disponíveis na Tabela 1. As informações relacionadas aos aplicativos de software utilizados neste estudo estão listadas na Tabela de Materiais.
1. Baixando o pipeline Easy-Shells_CUTnRUN de sua página do Github
2. Instalando os programas necessários para o Easy Shells CUTnRUN
3. Fazer o download do conjunto de dados CUT&RUN disponível publicamente do Sequence Read Archive (SRA)
4. Verificação de qualidade inicial para os arquivos de sequenciamento brutos
5. Qualidade e ajuste do adaptador para arquivos de sequenciamento brutos
6. Baixando o índice bowtie2 para os genomas de referência para amostras de controle reais e de pico
7. Mapeamento de leituras de sequenciamento CUT&RUN aparadas para os genomas de referência
8. Classificando e filtrando os arquivos de pares de leitura mapeados
9. Converta pares de leitura mapeados em arquivos bedGraph de fragmento BEDPE, BED e readcounts brutos
10. Convertendo arquivos bedGraph readcounts brutos em arquivos bedGraph e bigWig normalizados
11. Validando a distribuição do tamanho do fragmento
12. Picos de chamada usando MACS2, MACS3 e SEACR
13. Criando arquivos de cama de pico chamados
14. Validação da similaridade entre réplicas usando correlação de Pearson e análise de componentes principais (PC).
15. Validação da similaridade entre replicados, métodos de chamada de pico e opções usando diagrama de Venn
16. Analisar mapas de calor e gráficos médios para visualizar os picos chamados.
A qualidade e o corte do adaptador retêm leituras com alta qualidade de sequenciamento
As técnicas de sequenciamento de alto rendimento são propensas a gerar erros de sequenciamento, como 'mutações' de sequência nas leituras. Além disso, os dímeros do adaptador de sequenciamento podem ser enriquecidos em conjuntos de dados de sequenciamento devido à remoção inadequada do adaptador durante a preparação da biblioteca. Erros excessivos de sequenciamento, com...
A capacidade de mapear a ocupação de proteínas na cromatina é fundamental para a realização de estudos mecanísticos no campo da biologia da cromatina. À medida que os laboratórios adotam novas técnicas de laboratório úmido para traçar o perfil da cromatina, a capacidade de analisar dados de sequenciamento desses experimentos de laboratório úmido torna-se um gargalo comum para cientistas de laboratório úmido. Portanto, descrevemos um protocolo introdutório passo a passo ...
Os autores declaram não divulgar.
Todas as figuras ilustradas foram criadas com BioRender.com. O CAI reconhece o apoio fornecido por meio de um Prêmio de Investigador em Início de Carreira da Ovarian Cancer Research Alliance, um Forbeck Foundation Accelerator Grant e o Prêmio Nacional de Pesquisa de Detecção Precoce da Minnestoa Ovarian Cancer Alliance.
Name | Company | Catalog Number | Comments |
bedGraphToBigWig | ENCODE | https://hgdownload.soe.ucsc.edu/admin/exe/ | Software to compress and convert readcounts bedGraph to bigWig |
bedtools-2.31.1 | The Quinlan Lab @ the U. of Utah | https://bedtools.readthedocs.io/en/latest/index.html | Software to process bam/bed/bedGraph files |
bowtie2 2.5.4 | Johns Hopkins University | https://bowtie-bio.sourceforge.net/bowtie2/index.shtml | Software to build bowtie index and perform alignment |
CollectInsertSizeMetrics (Picard) | Broad institute | https://github.com/broadinstitute/picard | Software to perform insert size distribution analysis |
Cutadapt | NBIS | https://cutadapt.readthedocs.io/en/stable/index.html | Software to perform adapter trimming |
Deeptoolsv3.5.1 | Max Planck Institute | https://deeptools.readthedocs.io/en/develop/index.html | Software to perform Pearson coefficient correlation analysis, Principal component analysis, and Heatmap/average plot analysis |
FastQC Version 0.12.0 | Babraham Bioinformatics | https://github.com/s-andrews/FastQC | Software to check quality of fastq file |
Intervenev0.6.1 | Computational Biology & Gene regulation - Mathelier group | https://intervene.readthedocs.io/en/latest/index.html | Software to perform venn diagram analysis using peak files |
MACSv2.2.9.1 | Chan Zuckerberg initiative | https://github.com/macs3-project/MACS/tree/macs_v2 | Software to call peaks |
MACSv3.0.2 | Chan Zuckerberg initiative | https://github.com/macs3-project/MACS/tree/master | Software to call peaks |
Samtools-1.21 | Wellcome Sanger Institute | https://github.com/samtools/samtools | Software to process sam/bam files |
SEACRv1.3 | Howard Hughes Medial institute | https://github.com/FredHutch/SEACR | Software to call peaks |
SRA Toolkit Release 3.1.1 | NCBI | https://github.com/ncbi/sra-tools | Software to download SRR from GEO |
Trim_Galore v0.6.10 | Babraham Bioinformatics | https://github.com/FelixKrueger/TrimGalore | Software to perform quality and atapter trimming |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados