È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.
Questo protocollo guida i principianti della bioinformatica attraverso una pipeline introduttiva di analisi CUT&RUN che consente agli utenti di completare un'analisi iniziale e la convalida dei dati di sequenziamento CUT&RUN. Il completamento delle fasi di analisi qui descritte, in combinazione con l'annotazione dei picchi a valle, consentirà agli utenti di trarre informazioni meccanicistiche sulla regolazione della cromatina.
La tecnica CUT&RUN facilita il rilevamento delle interazioni proteina-DNA in tutto il genoma. Le applicazioni tipiche di CUT&RUN includono la profilazione delle modifiche della coda degli istoni o la mappatura dell'occupazione della cromatina del fattore di trascrizione. L'adozione diffusa di CUT&RUN è guidata, in parte, dai vantaggi tecnici rispetto al ChIP-seq convenzionale, che includono minori requisiti di input cellulare, minori requisiti di profondità di sequenziamento e una maggiore sensibilità con un segnale di fondo ridotto a causa della mancanza di agenti reticolanti che altrimenti mascherano gli epitopi anticorpali. L'adozione diffusa di CUT&RUN è stata raggiunta anche attraverso la generosa condivisione di reagenti da parte del laboratorio Henikoff e lo sviluppo di kit commerciali per accelerare l'adozione da parte dei principianti. Con l'aumento dell'adozione tecnica di CUT&RUN, l'analisi e la convalida del sequenziamento CUT&RUN diventano colli di bottiglia critici che devono essere superati per consentire la completa adozione da parte di team di laboratorio prevalentemente umidi. L'analisi CUT&RUN inizia in genere con controlli di qualità sulle letture di sequenziamento grezze per valutare la profondità di sequenziamento, la qualità di lettura e le potenziali distorsioni. Le letture vengono quindi allineate a un assemblaggio di sequenze genomiche di riferimento e successivamente vengono impiegati diversi strumenti bioinformatici per annotare le regioni genomiche dell'arricchimento proteico, confermare l'interpretabilità dei dati e trarre conclusioni biologiche. Sebbene siano state sviluppate più pipeline di analisi in silico per supportare l'analisi dei dati CUT&RUN, la loro complessa struttura multi-modulo e l'utilizzo di più linguaggi di programmazione rendono le piattaforme difficili per i principianti della bioinformatica che potrebbero non avere familiarità con più linguaggi di programmazione ma desiderano comprendere la procedura di analisi CUT&RUN e personalizzare le loro pipeline di analisi. Qui, forniamo un protocollo di pipeline di analisi CUT&RUN passo-passo in un'unica lingua, progettato per utenti con qualsiasi livello di esperienza bioinformatica. Questo protocollo include il completamento di controlli di qualità critici per convalidare che i dati di sequenziamento siano adatti all'interpretazione biologica. Ci aspettiamo che seguire il protocollo introduttivo fornito in questo articolo, combinato con l'annotazione dei picchi a valle, consentirà agli utenti di trarre informazioni biologiche dai propri set di dati CUT&RUN.
La capacità di misurare le interazioni tra proteine e DNA genomico è fondamentale per comprendere la biologia della regolazione della cromatina. I saggi efficaci che misurano l'occupazione della cromatina per una data proteina forniscono almeno due informazioni chiave: i) localizzazione genomica e ii) abbondanza proteica in una data regione genomica. Il monitoraggio dei cambiamenti di reclutamento e localizzazione di una proteina di interesse nella cromatina può rivelare loci bersaglio diretti della proteina e rivelare ruoli meccanicistici di quella proteina nei processi biologici basati sulla cromatina come la regolazione della trascrizione, la riparazione del DNA o la replicazione del DNA. Le tecniche oggi disponibili per profilare le interazioni proteina-DNA stanno consentendo ai ricercatori di esplorare la regolazione con una risoluzione senza precedenti. Tali progressi tecnici sono stati resi possibili grazie all'introduzione di nuove tecniche di profilazione della cromatina che includono lo sviluppo di Cleavage Under Targets e Release Using Nuclease (CUT&RUN) da parte del laboratorio Henikoff. CUT&RUN offre diversi vantaggi tecnici rispetto all'immunoprecipitazione convenzionale della cromatina (ChIP), tra cui minori requisiti di input cellulare, minori requisiti di profondità di sequenziamento e maggiore sensibilità con un segnale di fondo ridotto a causa della mancanza di agenti reticolanti che altrimenti mascherano gli epitopi anticorpali. L'adozione di questa tecnica per studiare la regolazione della cromatina richiede una comprensione approfondita del principio alla base della tecnica e una comprensione di come analizzare, convalidare e interpretare i dati CUT&RUN.
La procedura CUT&RUN inizia con il legame delle cellule alla concanavalina A coniugata a perline magnetiche per consentire la manipolazione di un basso numero di cellule durante tutta la procedura. Le cellule isolate vengono permeabilizzate utilizzando un detergente delicato per facilitare l'introduzione di un anticorpo che prende di mira la proteina di interesse. La nucleasi micrococcica (MNasi) viene quindi reclutata nell'anticorpo legato utilizzando un tag di proteina A o proteina A/G legato all'enzima. Il calcio viene introdotto per avviare l'attività enzimatica. La digestione della MNasi produce complessi DNA-proteina mononucleosomiali. Il calcio viene successivamente chelato per terminare la reazione di digestione e brevi frammenti di DNA dalla digestione della MNasi vengono rilasciati dai nuclei, quindi sottoposti a purificazione del DNA, preparazione della libreria e sequenziamento ad alto rendimento1 (Figura 1).
Gli approcci in silico per mappare e quantificare l'occupazione delle proteine in tutto il genoma si sono sviluppati in parallelo con gli approcci di laboratorio utilizzati per arricchire tali interazioni DNA-proteina. L'identificazione delle regioni dei segnali arricchiti (picchi) è uno dei passaggi più critici nell'analisi bioinformatica. I metodi iniziali di analisi ChIP-seq utilizzavano algoritmi come MACS2 e SICER3, che impiegavano modelli statistici per distinguere i siti di legame proteina-DNA dal rumore di fondo. Tuttavia, il rumore di fondo inferiore e la maggiore risoluzione dei dati CUT&RUN rendono alcuni programmi di chiamata di picco impiegati nell'analisi ChIP-seq inadatti per l'analisi CUT&RUN4. Questa sfida evidenzia la necessità di nuovi strumenti più adatti all'analisi dei dati CUT&RUN. SEACR4 rappresenta uno di questi strumenti recentemente sviluppato per consentire la chiamata di picco dai dati CUT&RUN, superando al contempo le limitazioni associate agli strumenti tipicamente impiegati per l'analisi ChIP-seq.
Le interpretazioni biologiche dei dati di sequenziamento CUT&RUN sono tratte dagli output a valle della chiamata dei picchi nella pipeline di analisi. Diversi programmi di annotazione funzionale possono essere implementati per prevedere la potenziale rilevanza biologica dei picchi chiamati dai dati CUT&RUN. Ad esempio, il progetto Gene Ontology (GO) fornisce un'identificazione funzionale ben consolidata dei geni di interesse 5,6,7. Vari strumenti software e risorse facilitano l'analisi OB per rivelare geni e set di geni arricchiti tra i picchi CUT&RUN 8,9,10,11,12,13,14. Inoltre, software di visualizzazione come Deeptools15, Integrative genomics viewer (IGV)16 e UCSC Genome Browser17 consentono la visualizzazione della distribuzione del segnale e dei modelli nelle regioni di interesse del genoma.
La capacità di trarre interpretazioni biologiche dai dati CUT&RUN dipende in modo critico dalla convalida della qualità dei dati. I componenti critici da convalidare includono la valutazione di: i) qualità del sequenziamento della libreria CUT&RUN, ii) somiglianza della replica e iii) distribuzione del segnale nei centri di picco. Il completamento della convalida di tutti e tre i componenti è fondamentale per garantire l'affidabilità dei campioni della libreria CUT&RUN e dei risultati delle analisi a valle. Pertanto, è essenziale stabilire guide introduttive all'analisi CUT&RUN per consentire ai principianti della bioinformatica e ai ricercatori di laboratorio di condurre tali fasi di convalida come parte delle loro pipeline di analisi CUT&RUN standard.
Oltre allo sviluppo dell'esperimento CUT&RUN in wet lab, sono state sviluppate varie pipeline di analisi CUT&RUN in silico, come CUT&RUNTools 2.018,19, nf-core/cutandrun20 e CnRAP21, per supportare l'analisi dei dati CUT&RUN. Questi strumenti forniscono approcci efficaci all'analisi di set di dati CUT&RUN e CUT&Tag a cella singola e in blocco. Tuttavia, la struttura del programma modulare relativamente complessa e la familiarità richiesta con più linguaggi di programmazione per condurre queste pipeline di analisi possono ostacolare l'adozione da parte dei principianti della bioinformatica che cercano di comprendere a fondo le fasi di analisi CUT&RUN e personalizzare le proprie pipeline. L'elusione di questa barriera richiede una nuova pipeline introduttiva di analisi CUT&RUN fornita in semplici script passo-passo codificati utilizzando un semplice linguaggio di programmazione singolo.
In questo articolo, descriviamo un semplice protocollo di pipeline di analisi CUT&RUN in un unico linguaggio che fornisce script passo-passo supportati da descrizioni dettagliate per consentire agli utenti nuovi e inesperti di condurre analisi di sequenziamento CUT&RUN. I programmi utilizzati in questa pipeline sono disponibili pubblicamente dai gruppi di sviluppatori originali. Le fasi principali descritte in questo protocollo includono l'allineamento di lettura, la chiamata dei picchi, l'analisi funzionale e, soprattutto, le fasi di convalida per valutare la qualità del campione per determinare l'idoneità e l'affidabilità dei dati per l'interpretazione biologica (Figura 2). Inoltre, questa pipeline offre agli utenti l'opportunità di incrociare i risultati dell'analisi con i set di dati CUT&RUN disponibili pubblicamente. In definitiva, questo protocollo di pipeline di analisi CUT&RUN funge da guida introduttiva e riferimento per i principianti dell'analisi bioinformatica e per i ricercatori di laboratorio umido.
NOTA: Le informazioni per i file fastq CUT&RUN in GSE126612 sono disponibili nella Tabella 1. Le informazioni relative alle applicazioni software utilizzate in questo studio sono elencate nella Tabella dei materiali.
1. Download della pipeline Easy-Shells_CUTnRUN dalla sua pagina Github
2. Installazione dei programmi necessari per Easy Shells CUTnRUN
3. Scaricare il set di dati CUT&RUN disponibile pubblicamente da Sequence Read Archive (SRA)
4. Controllo di qualità iniziale per i file di sequenziamento grezzi
5. Qualità e ritaglio dell'adattatore per i file di sequenziamento non elaborati
6. Download dell'indice bowtie2 per i genomi di riferimento per i campioni di controllo effettivi e spike-in
7. Mappatura delle letture di sequenziamento CUT&RUN tagliate sui genomi di riferimento
8. Ordinamento e filtraggio dei file delle coppie di lettura mappati
9. Converti le coppie di lettura mappate in file bedGraph di frammenti BEDPE, BED e conteggi di lettura grezzi bedGraph
10. Conversione dei file bedGraph rawcount in file bedGraph e bigWig normalizzati
11. Convalida della distribuzione delle dimensioni dei frammenti
12. Chiamare i picchi utilizzando MACS2, MACS3 e SEACR
13. Creazione di file di picco chiamati
14. Convalida della somiglianza tra le repliche utilizzando la correlazione di Pearson e l'analisi delle componenti principali (PC).
15. Convalida della somiglianza tra repliche, metodi di chiamata di picco e opzioni utilizzando il diagramma di Venn
16. Analisi delle mappe di calore e dei grafici medi per visualizzare i picchi chiamati.
La qualità e la rifinitura dell'adattatore mantengono le letture con un'elevata qualità di sequenziamento
Le tecniche di sequenziamento ad alto rendimento sono soggette a generare errori di sequenziamento come "mutazioni" di sequenza nelle letture. Inoltre, i dimeri dell'adattatore di sequenziamento possono essere arricchiti nei set di dati di sequenziamento a causa della scarsa rimozione dell'adattatore durante la preparazione della libreria. Errori di sequenziamen...
La capacità di mappare l'occupazione delle proteine sulla cromatina è fondamentale per condurre studi meccanicistici nel campo della biologia della cromatina. Man mano che i laboratori adottano nuove tecniche di laboratorio umido per profilare la cromatina, la capacità di analizzare i dati di sequenziamento di questi esperimenti di laboratorio umido diventa un collo di bottiglia comune per gli scienziati di laboratorio umido. Pertanto, descriviamo un protocollo introduttivo passo-pass...
Gli autori dichiarano di non divulgare.
Tutte le figure illustrate sono state create con BioRender.com. CAI riconosce il supporto fornito attraverso un Ovarian Cancer Research Alliance Early Career Investigator Award, un Forbeck Foundation Accelerator Grant e il Minnestoa Ovarian Cancer Alliance National Early Detection Research Award.
Name | Company | Catalog Number | Comments |
bedGraphToBigWig | ENCODE | https://hgdownload.soe.ucsc.edu/admin/exe/ | Software to compress and convert readcounts bedGraph to bigWig |
bedtools-2.31.1 | The Quinlan Lab @ the U. of Utah | https://bedtools.readthedocs.io/en/latest/index.html | Software to process bam/bed/bedGraph files |
bowtie2 2.5.4 | Johns Hopkins University | https://bowtie-bio.sourceforge.net/bowtie2/index.shtml | Software to build bowtie index and perform alignment |
CollectInsertSizeMetrics (Picard) | Broad institute | https://github.com/broadinstitute/picard | Software to perform insert size distribution analysis |
Cutadapt | NBIS | https://cutadapt.readthedocs.io/en/stable/index.html | Software to perform adapter trimming |
Deeptoolsv3.5.1 | Max Planck Institute | https://deeptools.readthedocs.io/en/develop/index.html | Software to perform Pearson coefficient correlation analysis, Principal component analysis, and Heatmap/average plot analysis |
FastQC Version 0.12.0 | Babraham Bioinformatics | https://github.com/s-andrews/FastQC | Software to check quality of fastq file |
Intervenev0.6.1 | Computational Biology & Gene regulation - Mathelier group | https://intervene.readthedocs.io/en/latest/index.html | Software to perform venn diagram analysis using peak files |
MACSv2.2.9.1 | Chan Zuckerberg initiative | https://github.com/macs3-project/MACS/tree/macs_v2 | Software to call peaks |
MACSv3.0.2 | Chan Zuckerberg initiative | https://github.com/macs3-project/MACS/tree/master | Software to call peaks |
Samtools-1.21 | Wellcome Sanger Institute | https://github.com/samtools/samtools | Software to process sam/bam files |
SEACRv1.3 | Howard Hughes Medial institute | https://github.com/FredHutch/SEACR | Software to call peaks |
SRA Toolkit Release 3.1.1 | NCBI | https://github.com/ncbi/sra-tools | Software to download SRR from GEO |
Trim_Galore v0.6.10 | Babraham Bioinformatics | https://github.com/FelixKrueger/TrimGalore | Software to perform quality and atapter trimming |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon