Method Article
ATAC-seq e ChIP-seq consentono di studiare in dettaglio la regolazione genica; Tuttavia, l'elaborazione di questi tipi di dati è impegnativa e spesso incoerente tra i gruppi di ricerca. Presentiamo CATCH-UP: una pipeline computazionale di facile utilizzo che consente l'elaborazione e l'analisi standardizzata e riproducibile dei dati di set di dati ATAC/ChIP-seq nuovi e pubblicati.
I saggi per la cromatina accessibile alla trasposasi (ATAC) e l'immunoprecipitazione della cromatina (ChIP), abbinati al sequenziamento di nuova generazione (NGS), hanno rivoluzionato lo studio della regolazione genica. La mancanza di standardizzazione nell'analisi dei set di dati altamente dimensionali generati da queste tecniche ha reso difficile il raggiungimento della riproducibilità, portando a discrepanze nei dati pubblicati ed elaborati. Parte di questo problema è dovuto alla vasta gamma di strumenti bioinformatici disponibili per l'analisi di questi tipi di dati. In secondo luogo, sono necessari in sequenza diversi strumenti bioinformatici per convertire i dati grezzi in un output completamente elaborato e interpretabile, e questi strumenti richiedono diversi livelli di competenze computazionali. Inoltre, ci sono molte opzioni per il controllo della qualità che non vengono impiegate in modo uniforme durante l'elaborazione dei dati. Affrontiamo questi problemi con un saggio completo per il sequenziamento della cromatina accessibile alla trasposasi (ATAC-seq) e il sequenziamento dell'immunoprecipitazione della cromatina (ChIP-seq) a monte (CATCH-UP), una pipeline facile da usare basata su Python per l'analisi di set di dati ChIP-seq e ATAC-seq di massa dai file fastq grezzi alle tracce bigwig visualizzabili e alle chiamate di picco. Questa pipeline è semplice da installare ed eseguire e richiede una conoscenza computazionale minima. La pipeline è modulare, scalabile e parallelizzabile su varie infrastrutture di calcolo, consentendo una facile segnalazione della metodologia per consentire l'analisi riproducibile di set di dati nuovi o pubblicati.
L'espressione genica deve essere strettamente regolata affinché le cellule stabiliscano e mantengano la loro corretta funzione biologica. È noto che l'espressione genica aberrante è alla base della patogenesi di molte malattie e, pertanto, un grande interesse della ricerca risiede nella comprensione dei meccanismi di regolazione genica1. L'espressione genica è facilitata da elementi regolatori come promotori e potenziatori. All'interno della loro sequenza, questi elementi contengono siti di legame del fattore di trascrizione (TF) che, quando attivi, forniscono una piattaforma per il legame TF. Il legame dei TF in questi siti provoca uno spostamento dei nucleosomi, con conseguente aumento dell'accessibilità del DNA e un conseguente aumento della permessibilità al macchinario trascrizionale. Come risultato di questa maggiore accessibilità, queste regioni del DNA sono più sensibili alle nucleasi e alle trasposisi come la DNasi e il Tn5, una proprietà biochimica che è stata sfruttata dai ricercatori che studiano la regolazione trascrizionale 2,3.
DNase-seq e ATAC-seq consentono ai ricercatori di mappare le regioni della cromatina aperta, i siti di legame del TF e il posizionamento nucleosomico in tutto il genoma. Di queste due tecniche, ATAC-seq è cresciuta in popolarità nell'ultimo decennio grazie al semplice protocollo in due fasi e a un basso numero di cellule richiesto (50.000 cellule rispetto a 1 milione per replicazione per DNase-seq). Sebbene l'ATAC-seq fornisca una panoramica del panorama generale della cromatina in una popolazione di cellule, è in gran parte agnostico a quali proteine specifiche si legano al genoma 4,5. Al fine di identificare le posizioni in cui una specifica proteina interagisce con il genoma, la tecnica gold standard è l'immunoprecipitazione della cromatina (ChIP)-seq. ChIP-seq comporta la fissazione chimica delle interazioni proteina-DNA in una cellula, seguita da immunoprecipitazione ("pull-down") utilizzando un anticorpo specifico per la proteina di interesse per selezionare i frammenti di DNA legati dalla proteina di interesse (POI). Questi frammenti di DNA possono essere sequenziati per rivelare le posizioni di legame genomico di proteine specifiche come i TF o siti contenenti specifiche modificazioni istoniche1. Combinando i set di dati ATAC-seq e ChIP-seq, è possibile ricavare un quadro dettagliato del panorama normativo per una popolazione di cellule.
Il flusso di lavoro di base richiesto per l'analisi è il seguente: le letture di sequenziamento grezze devono essere controllate prima dell'allineamento a un genoma di riferimento ("mappatura"). Le letture mappate correttamente possono quindi essere filtrate per rimuovere sia le letture di bassa qualità che i duplicati PCR. Per visualizzare queste letture mappate e filtrate, è necessario calcolare la "copertura" di queste letture in tutto il genoma. Questo genera un file che può essere caricato su un browser del genoma come la vista multi-locus (MLV) o il browser del genoma UCSC come "traccia"6,7. L'identificazione dei picchi, o "chiamata dei picchi" di queste tracce di copertura, si ottiene in genere utilizzando strumenti come LanceOtron o MACS2 8,9. Infine, attraverso l'analisi della posizione, della forma e delle dimensioni dei picchi, è possibile effettuare confronti tra campioni o condizioni biologiche. L'analisi e l'integrazione di questi dataset è un processo complesso a più fasi in cui possono essere implementate diverse combinazioni di strumenti bioinformatici. Diverse versioni degli strumenti possono essere incompatibili tra loro e possono modificare l'output dell'elaborazione dei dati. C'è anche un'ampia varietà nella potenza di calcolo e nella competenza dell'utente necessarie per implementare diverse parti dell'elaborazione dei dati, come mostrato nelle pipeline nf-core10, panpipes11, genpipes12, PEPATAC13 o ChIP-AP14.
Nel complesso, ciò ha portato a incongruenze sia nell'analisi che nella segnalazione dell'analisi, il che, a sua volta, ha portato a scarsa riproducibilità, accessibilità e convenienza per chiunque abbia una conoscenza limitata della bioinformatica. Affrontiamo tutti questi problemi con CATCH-UP (complete ATAC-seq and ChIP-seq upstream pipeline), una pipeline facile da usare, flessibile e modulare per l'elaborazione di dati ChIP-seq e ATAC/DNase-seq. L'implementazione di CATCH-UP richiede un'esperienza minima in bioinformatica; Può essere eseguito su varie infrastrutture informatiche e consente un'analisi riproducibile dei dati all'interno e tra gruppi di ricerca.
CATCH-UP è una pipeline Snakemake basata su Python creata per standardizzare l'analisi dei dati ChIP-seq e ATAC-seq. Prende i dati di sequenziamento grezzi (file fastq.gz) come input e genera un output sotto forma di file di picco (.bed) che forniscono il rispettivo risultato per ogni fase. Forniamo un file di configurazione in formato yaml (config.yaml), in cui l'utente può modificare i parametri di ogni fase di analisi. Il sistema di gestione implementato all'interno di snakemake consente l'utilizzo di diverse infrastrutture informatiche (come server, cluster, sistemi cloud o personal computer) e in parallelo se l'utente fornisce una grande quantità di dati.
Di seguito, forniamo una descrizione dettagliata di ogni fase del flusso di lavoro (vedere la Figura 1 per l'illustrazione del flusso di lavoro). Questa spiegazione è essenziale per seguire passo dopo passo la sezione relativa al protocollo:
Move fastq: il primo passo della pipeline consiste nel copiare i file fastq grezzi nella directory di analisi denominata. In questo modo i dati originali rimangono intatti per evitare di danneggiare o modificare i file di dati non elaborati.
Concatenazione: se i dati di sequenziamento non elaborati contengono più corsie, questo passaggio è necessario per concatenare le corsie prima dell'analisi. Per impostazione predefinita, la pipeline gestisce tutti i file fastq come singoli campioni. Questo passaggio di concatenazione deve essere definito nel file di configurazione.
Rifilatura: fase opzionale di pulizia dei dati. Ciò consente di tagliare le letture di bassa qualità o le sequenze dell'adattatore utilizzando trimmomatic15. L'utente può fornire file fasta personalizzati di sequenze di adattatori; Un esempio è disponibile nella directory dell'adapter. Ulteriori parametri di ritaglio possono essere definiti nel file di configurazione. Per impostazione predefinita, il flusso di lavoro ignora questa regola.
Allineatore: per l'allineamento, Bowtie216 viene applicato di default; È possibile specificare anche strumenti di allineamento alternativi come BWA-MEM217 . Lo strumento di allineamento Bowtie2 è selezionato come predefinito in quanto è particolarmente abile nell'allineare letture relativamente brevi a genomi relativamente grandi ed è quindi adatto all'allineamento dei dati ChIP-seq e ATAC-seq ai genomi dei mammiferi. Per evitare file intermedi, l'allineatore viene convogliato nella vista samtools per salvare il file bam nell'output. Per questa regola, l'utente deve specificare la build del genoma preferita su cui mappare le letture, ad esempio hg19/hg38 (umano), mm10/mm39 (topo).
Filtraggio: le letture mappate correttamente vengono mantenute e le letture con bassa qualità vengono filtrate. Predefinito: vista samtools, con parametri: -bShuF 4 -f 3 -q 30.
Ordina: le letture allineate sono ordinate in base alla coordinata più a sinistra. Predefinito: samtools sort (snakemake wrapper), con parametro: -m 4G.
Contrassegna i duplicati: tutte le letture duplicate vengono identificate e contrassegnate. L'utente può decidere di rimuoverli modificando il parametro del file di configurazione. Predefinito: Picard MarkDuplicates (snakemake wrapper), con parametro: --REMOVE_DUPLICATES False per contrassegnare e conservare i duplicati.
Unisci bam: se i dati di sequenziamento sono composti da repliche o campioni, l'utente potrebbe voler unire in un singolo bam. In questo caso, l'utente può scegliere di unire i bams o di mantenere separati i file bam durante l'analisi. Se l'utente sceglie di unire i bams (utilizzando samtools merge), è necessario specificare un prefisso comune per i bam uniti.
Indice: questo passaggio indicizza le coordinate ordinate. Predefinito: indice samtools (involucro snakemake), utilizzando i parametri predefiniti specificati da samtools.
BamCoverage: questa regola crea una traccia di copertura più grande da letture allineate. Viene applicato lo strumento bamCoverage di deepTools e la copertura viene calcolata come il numero di letture per contenitore, in cui il contenitore rappresenta una finestra di una dimensione specificata. In questa pipeline, bamCoverage viene applicato con i parametri seguenti impostati come predefiniti: -bs 1 -normalizeUsing RPKM -extendReads.
Chiamata di picco: LanceOtron8 è stato selezionato come peakcaller predefinito per questa pipeline. A differenza dei tradizionali peak caller, che sono per lo più basati su test statistici, LanceOtron è un peak caller basato sul deep learning, che incorpora misurazioni di arricchimento genomico e test statistici e ha dimostrato di superare il peak caller standard del settore, MACS29. Affinché i pezzi grossi siano compatibili con LanceOtron, la copertura deve essere calcolata per coppia di basi e l'RPKM normalizzato; ciò si riflette nelle impostazioni predefinite per il passaggio BamCoverage. MACS2 può essere selezionato come chiamante di picco alternativo. Il rilascio di nuovi peak caller sarà monitorato e incorporato a seconda dei casi, al fine di mantenere e ottimizzare le prestazioni di questa pipeline di analisi.
TrackDb: crea un'associazione di coppie chiave-valore di file bigwig per caricarli e visualizzarli in strumenti come le piattaforme MLV6 o UCSC Genome Browser18 .
Oltre ai dati di output, ogni fase della pipeline genera un file di log e vengono forniti controlli di qualità appropriati in modo che l'utente possa tenere traccia dell'avanzamento dell'analisi. FastQC19 viene applicato ai dati di sequenziamento grezzi e tagliati (se selezionati) (passaggi 1 - Sposta fastq e 2 - Ritaglio). Le statistiche di Samtools e MultiQC20 vengono utilizzate per raccogliere, produrre e visualizzare i rapporti di controllo qualità sui file bam nell'output nei passaggi 3 - Allineatore, 6 - Contrassegna duplicati e 7 - Unisci bam. Per ulteriori informazioni su ciascuno degli strumenti applicati nei passaggi precedenti, vedere la Tabella 1.
1. Esecuzione della pipeline CATCH-UP
La pipeline CATCH-UP produce un risultato, un log e un output di controllo qualità (QC) per ogni fase. All'interno del file di configurazione, l'utente può scegliere di mantenere o rimuovere i file di output per ridurre la memoria di archiviazione richiesta. Tutti i risultati sono spiegati come segue:
00. fastq_home_dir: Il file di configurazione, il le_home_dir.txt FastQFi e merge_bams.txt vengono copiati in questa cartella per riferimento e riproducibilità.
01. Legge: i file FastQ vengono copiati in questa cartella per evitare alterazioni dei dati grezzi originali durante il processo del flusso di lavoro, le corsie possono essere concatenate se specificato.
02. Ritaglio: file FastQ con lettura e adattatori tagliati se specificato.
03. Allineatore: allineamento rispetto al genoma selezionato.
04. Filtraggio: filtraggio del controllo qualità.
05. Ordinato: ordinamento dei file BAM.
06. Duplicati: Segnalazione di duplicati.
07. Unisci: unione di file BAM se questo è stato specificato in config.yaml.
08. bam_coverages: file bigwig della copertura.
09. peak_calling: un file letto dell'uscita di chiamata di picco di LanceOtron.
10. traccia: produce un file di testo formattato pronto per essere utilizzato su Genome Browser, se necessario.
Per gli output 01, 02, 03, 06 e 07, vengono fornite le metriche QC e i file HTML. Inoltre, in Figura 3, forniamo un esempio di dati elaborati utilizzando CATCH-UP, visualizzando l'output finale attraverso la piattaforma MLV.
Figura 1: Flusso di lavoro di CATCH-UP. Dato un elenco di file fastq, CATCH-UP elabora in parallelo tutti i campioni attraverso tutti i passaggi a monte. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 2: Rappresentazione illustrativa che spiega come 1_fastqfile_home_dir.txt, 2_fastqfile_concat.txt e 3_merge_bams.txt devono essere modificati correttamenteper eseguire il CATCH-UP. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 3: Esempio di output dalla pipeline CATCH-UP. I dati grezzi di sequenziamento (file fastq) sono stati scaricati da ENCODE21. La pipeline CATCH-UP è stata utilizzata per elaborare i file fastq per DNase-seq e 5 tipi di ChIP-seq (H3K4me1, H3K4me3, H3K27ac, CTCF e POLR2A). I file di output di Bigwig sono stati caricati su Multi Locus View per la visualizzazione e l'identificazione degli elementi regolatori genomici. Clicca qui per visualizzare una versione più grande di questa figura.
Tabella 1: Risorse per la documentazione. Questa tabella mostra gli strumenti coinvolti nel flusso di lavoro CATCH-UP, il link per la loro documentazione e i rispettivi riferimenti. Clicca qui per scaricare questa tabella.
Tabella 2: Elenco dei requisiti di canale e dipendenza per l'ambiente conda upstream. Clicca qui per scaricare questa tabella.
Tabella 3: Sistemi operativi utilizzati per testare CATCH-UP. Ubuntu è stato testato su un cluster ad alte prestazioni e su una macchina locale. Clicca qui per scaricare questa tabella.
L'aumento dell'adozione e dell'utilizzo delle tecniche NGS per generare dati genomici è stato accompagnato da un aumento dello sviluppo di strumenti bioinformatici per l'analisi di questi dati. Esistono più strumenti che possono essere applicati per ogni fase dell'analisi dei dati, nonché molti parametri diversi che possono essere specificati all'interno di ogni strumento 6,8,9,15,16,17,18,19,20,22,23,24 . Ciò crea una combinazione molto diversificata di strategie di analisi che potrebbero essere applicate, ognuna delle quali potrebbe produrre variazioni nel risultato. Al fine di effettuare un confronto accurato tra gli esperimenti, la standardizzazione dell'analisi bioinformatica è essenziale. Storicamente, i dati NGS sono generati da scienziati di laboratorio umido e i dati vengono analizzati da bioinformatici.
L'analisi dei dati NGS può essere suddivisa in pipeline "a monte" e "a valle", dove a monte include i passaggi necessari per passare dall'output dei dati grezzi da una macchina di sequenziamento a un formato che sia visivamente interpretabile da un ricercatore. L'analisi a valle include fasi aggiuntive su misura per la domanda di ricerca e il disegno sperimentale. Le pipeline a monte sono quindi generalizzabili e suscettibili di standardizzazione per una migliore riproducibilità scientifica. Le condutture a valle, d'altra parte, sono su misura, dipendono dalla questione biologica e richiedono l'intuizione del ricercatore, rendendole meno appropriate per la standardizzazione. Abbiamo creato una pipeline upstream di facile utilizzo che consente agli scienziati di laboratorio umido di analizzare in modo riproducibile i propri dati senza bisogno di alcuna conoscenza preliminare di bioinformatica. Qui presentiamo CATCH-UP, una pipeline costruita utilizzando il framework snakemake e progettata per essere sia facile da usare che per combattere il problema della riproducibilità nell'analisi dei dati ChIP-seq e ATAC-seq. Questa pipeline è stata creata per gestire dati ChIP-seq o ATAC-seq. Una volta che l'utente ha scaricato CATCH-UP, i parametri di analisi e la denominazione del campione devono essere definiti prima di eseguire la pipeline sulla riga di comando utilizzando una singola riga di codice. Semplici istruzioni dettagliate su come personalizzare i parametri di analisi per l'analisi ChIP-seq o ATAC-seq sono fornite all'interno del file di configurazione stesso e nella nostra guida passo passo nel repository GitHub CATCH-UP.
Esistono pipeline di analisi esistenti per i dati ChIP-seq o ATAC-seq, come PEPATAC e ChIP-AP. Sebbene queste pipeline presentino vantaggi come l'incorporazione di analisi a monte e a valle in un unico flusso di lavoro o l'uso di un'interfaccia utente grafica (GUI), questi strumenti sono destinati a bioinformatici e scienziati con un livello moderato di formazione computazionale13,14. CATCH-UP è stato progettato per risolvere due problemi: consentire agli scienziati di laboratorio senza formazione bioinformatica di eseguire le proprie analisi a monte e consentire la standardizzazione delle analisi a monte facilitando la creazione di report e l'esatta riproducibilità tra i laboratori. CATCH-UP è intenzionalmente limitato all'analisi a monte, ma i risultati sono compatibili con gli strumenti di analisi a valle, come quelli utilizzati per confrontare statisticamente i set di dati o dedurre il legame del fattore di trascrizione25,26.
Tutti i passaggi critici necessari per eseguire un'analisi upstream replicabile sono predefiniti all'interno della pipeline CATCH-UP per garantire la robustezza. La natura dettagliata di questa pipeline consente all'utente di seguire passo dopo passo l'output della pipeline, il che è utile sia per la risoluzione dei problemi che per consentire la replica del flusso di lavoro analitico. Data la natura in rapida evoluzione delle tecniche NGS, la natura modulare di questa pipeline è vantaggiosa in quanto fornisce la capacità di essere facilmente adattata per incorporare sia il rilascio di aggiornamenti della versione dello strumento che l'implementazione di nuovi strumenti. CATCH-UP è stato testato con successo per i seguenti sistemi operativi: Ubuntu, CentOS, macOS (CPU Intel) e Windows (Tabella 3). La pipeline è stata costruita per gestire esperimenti di grandi dimensioni contenenti decine di campioni parallelizzando il flusso di lavoro, rendendola adattabile a diversi disegni sperimentali. Nel complesso, l'implementazione di CATCH-UP nell'analisi dei dati ChIP-seq e ATAC-seq consente un flusso di lavoro di analisi facile da usare, riproducibile e altamente adattabile.
J.R.H. è co-fondatore e direttore di Nucleome Therapeutics e fornisce consulenza all'azienda.
J.R.H. è stato sostenuto da sovvenzioni del Wellcome Trust (225220/Z/22/Z e 106130/Z/14/Z) e dell'MRC (MC_UU_00029/3). M.B. è stato sostenuto dalla sovvenzione Wellcome Trust (225220/Z/22/Z). E.R.G è stato sostenuto dal Ministero dell'Istruzione Nazionale per la selezione e il collocamento dei candidati inviati all'estero per la borsa di studio Post-Laurea (YLSY), Ministero dell'Educazione Nazionale della Repubblica di Turchia. E.G. è stato supportato dal programma di dottorato Wellcome Genomic Medicine and Statistics (108861/Z/15/Z). S.G.R. è stato sostenuto dalla sovvenzione del Medical Research Council (MRC) (MC_UU_00029/3).
Name | Company | Catalog Number | Comments |
CATCH-UP | GitHub | https://github.com/Genome-Function-Initiative-Oxford/UpStreamPipeline/tree/main/genetics/CATCH-UP | |
CentOS | Linux | Version 7 | Any of the operating systems listed here may be used |
macOS | Apple | Version 13 Ventura | Any of the operating systems listed here may be used |
Ubuntu | Ubuntu | Version 22.04 LTS | Any of the operating systems listed here may be used |
Windows | Microsoft | Version 11 | Any of the operating systems listed here may be used |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon