Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.
Ce protocole guide les débutants en bioinformatique à travers un pipeline d’analyse CUT&RUN d’introduction qui permet aux utilisateurs d’effectuer une analyse initiale et de valider les données de séquençage CUT&RUN. La réalisation des étapes d’analyse décrites ici, combinée à l’annotation des pics en aval, permettra aux utilisateurs de tirer des enseignements mécanistes de la régulation de la chromatine.
La technique CUT&RUN facilite la détection des interactions protéine-ADN à travers le génome. Les applications typiques de CUT&RUN comprennent le profilage, les modifications de la queue des histones ou la cartographie de l’occupation de la chromatine par le facteur de transcription. L’adoption généralisée de CUT&RUN est motivée, en partie, par des avantages techniques par rapport au ChIP-seq conventionnel, notamment des exigences d’entrée de cellule plus faibles, des exigences de profondeur de séquençage plus faibles et une sensibilité accrue avec un signal de fond réduit en raison d’un manque d’agents de réticulation qui masquent autrement les épitopes d’anticorps. L’adoption généralisée de CUT&RUN a également été réalisée grâce au partage généreux de réactifs par le laboratoire Henikoff et au développement de kits commerciaux pour accélérer l’adoption par les débutants. À mesure que l’adoption technique de CUT&RUN augmente, l’analyse et la validation du séquençage CUT&RUN deviennent des goulets d’étranglement critiques qui doivent être surmontés pour permettre une adoption complète par des équipes de laboratoire principalement humides. L’analyse CUT&RUN commence généralement par des contrôles de qualité sur les lectures de séquençage brutes afin d’évaluer la profondeur de séquençage, la qualité de lecture et les biais potentiels. Les lectures sont ensuite alignées sur un assemblage de séquence génomique de référence, et plusieurs outils bioinformatiques sont ensuite utilisés pour annoter les régions génomiques d’enrichissement en protéines, confirmer l’interprétabilité des données et tirer des conclusions biologiques. Bien que plusieurs pipelines d’analyse in silico aient été développés pour prendre en charge l’analyse de données CUT&RUN, leur structure multi-modules complexe et l’utilisation de plusieurs langages de programmation rendent les plateformes difficiles pour les débutants en bioinformatique qui peuvent manquer de familiarité avec plusieurs langages de programmation mais souhaitent comprendre la procédure d’analyse CUT&RUN et personnaliser leurs pipelines d’analyse. Ici, nous fournissons un protocole de pipeline d’analyse CUT&RUN étape par étape en langage unique, conçu pour les utilisateurs de tout niveau d’expérience en bioinformatique. Ce protocole comprend la réalisation de contrôles de qualité critiques pour valider que les données de séquençage sont adaptées à l’interprétation biologique. Nous nous attendons à ce que le respect du protocole d’introduction fourni dans cet article, combiné à l’annotation des pics en aval, permette aux utilisateurs de tirer des informations biologiques de leurs propres ensembles de données CUT&RUN.
La capacité de mesurer les interactions entre les protéines et l’ADN génomique est fondamentale pour comprendre la biologie de la régulation de la chromatine. Des tests efficaces qui mesurent l’occupation de la chromatine pour une protéine donnée fournissent au moins deux éléments d’information clés : i) la localisation génomique et ii) l’abondance des protéines dans une région génomique donnée. Le suivi des changements de recrutement et de localisation d’une protéine d’intérêt dans la chromatine peut révéler des loci cibles directs de la protéine et révéler les rôles mécanistes de cette protéine dans les processus biologiques basés sur la chromatine tels que la régulation de la transcription, la réparation de l’ADN ou la réplication de l’ADN. Les techniques disponibles aujourd’hui pour profiler les interactions protéine-ADN permettent aux chercheurs d’explorer la régulation à une résolution sans précédent. De telles avancées techniques ont été rendues possibles par l’introduction de nouvelles techniques de profilage de la chromatine qui incluent le développement du clivage sous les cibles et de la libération à l’aide de nucléases (CUT & RUN) par le laboratoire Henikoff. CUT&RUN offre plusieurs avantages techniques par rapport à l’immunoprécipitation de la chromatine (ChIP) conventionnelle, notamment des exigences d’entrée de cellule plus faibles, des exigences de profondeur de séquençage plus faibles et une sensibilité accrue avec un signal de fond réduit en raison de l’absence d’agents de réticulation qui masquent autrement les épitopes des anticorps. L’adoption de cette technique pour étudier la régulation de la chromatine nécessite une compréhension approfondie du principe sous-jacent à la technique et une compréhension de la façon d’analyser, de valider et d’interpréter les données CUT&RUN.
La procédure CUT&RUN commence par la liaison des cellules à Concanavalin A conjuguées à des billes magnétiques pour permettre la manipulation d’un faible nombre de cellules tout au long de la procédure. Les cellules isolées sont perméabilisées à l’aide d’un détergent doux pour faciliter l’introduction d’un anticorps qui cible la protéine d’intérêt. La nucléase micrococcique (MNase) est ensuite recrutée dans l’anticorps lié à l’aide d’une étiquette de protéine A ou de protéine A/G attachée à l’enzyme. Le calcium est introduit pour initier l’activité enzymatique. La digestion de la MNase aboutit à des complexes mononucléosomales ADN-protéines. Le calcium est ensuite chélaté pour terminer la réaction de digestion, et de courts fragments d’ADN issus de la digestion de la MNase sont libérés des noyaux, puis soumis à la purification de l’ADN, à la préparation de la banque et au séquençage à haut débit1 (Figure 1).
Des approches in silico pour cartographier et quantifier l’occupation des protéines dans le génome se sont développées parallèlement aux approches de laboratoire humide utilisées pour enrichir ces interactions ADN-protéine. L’identification des régions de signaux enrichis (pics) est l’une des étapes les plus critiques de l’analyse bioinformatique. Les premières méthodes d’analyse ChIP-seq ont utilisé des algorithmes tels que MACS2 et SICER3, qui ont utilisé des modèles statistiques pour distinguer les véritables sites de liaison protéine-ADN du bruit de fond. Cependant, le bruit de fond plus faible et la résolution plus élevée des données CUT&RUN rendent certains programmes d’appel de pointe utilisés dans l’analyse ChIP-seq inadaptés à l’analyse CUT&RUN4. Cet enjeu met en évidence le besoin de nouveaux outils mieux adaptés à l’analyse des données CUT&RUN. SEACR4 représente l’un de ces outils récemment développé pour permettre des appels de pointe à partir de données CUT&RUN tout en surmontant les limites associées aux outils généralement utilisés pour l’analyse ChIP-seq.
Les interprétations biologiques des données de séquençage CUT&RUN sont tirées des sorties en aval de l’appel de pic dans le pipeline d’analyse. Plusieurs programmes d’annotation fonctionnelle peuvent être mis en œuvre pour prédire la pertinence biologique potentielle des pics appelés à partir des données CUT&RUN. Par exemple, le projet Gene Ontology (GO) fournit une identification fonctionnelle bien établie des gènes d’intérêt 5,6,7. Divers outils et ressources logiciels facilitent l’analyse GO pour révéler les gènes et les ensembles de gènes enrichis parmi les pics CUT&RUN 8,9,10,11,12,13,14. De plus, les logiciels de visualisation tels que Deeptools15, Integrative genomics viewer (IGV)16 et UCSC Genome Browser17 permettent de visualiser la distribution des signaux et les modèles dans les régions d’intérêt du génome.
La capacité à tirer des interprétations biologiques des données CUT&RUN dépend essentiellement de la validation de la qualité des données. Les composants critiques à valider comprennent l’évaluation de : i) la qualité du séquençage de la bibliothèque CUT&RUN, ii) la similarité des répliques et iii) la distribution du signal aux centres de pointe. La validation des trois composants est cruciale pour garantir la fiabilité des échantillons de la bibliothèque CUT&RUN et des résultats d’analyse en aval. Par conséquent, il est essentiel d’établir des guides d’analyse CUT&RUN d’introduction pour permettre aux débutants en bioinformatique et aux chercheurs en laboratoire humide d’effectuer de telles étapes de validation dans le cadre de leurs pipelines d’analyse CUT&RUN standard.
Parallèlement au développement de l’expérience CUT&RUN en laboratoire humide, divers pipelines d’analyse CUT&RUN in silico, tels que CUT&RUNTools 2.018,19, nf-core/cutandrun20 et CnRAP21, ont été développés pour soutenir l’analyse des données CUT&RUN. Ces outils offrent des approches puissantes pour analyser les ensembles de données CUT&RUN et CUT&Tag unicellulaires et en vrac. Cependant, la structure modulaire relativement complexe du programme et la familiarité requise avec plusieurs langages de programmation pour effectuer ces pipelines d’analyse peuvent entraver l’adoption par les débutants en bioinformatique qui cherchent à comprendre en profondeur les étapes d’analyse CUT&RUN et à personnaliser leurs propres pipelines. Le contournement de cet obstacle nécessite un nouveau pipeline d’analyse CUT&RUN d’introduction qui est fourni dans des scripts simples étape par étape encodés à l’aide d’un langage de programmation unique simple.
Dans cet article, nous décrivons un protocole de pipeline d’analyse CUT&RUN simple et monolangage qui fournit des scripts étape par étape pris en charge par des descriptions détaillées pour permettre aux utilisateurs novices et débutants d’effectuer une analyse de séquençage CUT&RUN. Les programmes utilisés dans ce pipeline sont accessibles au public par les groupes de développeurs d’origine. Les principales étapes décrites dans ce protocole comprennent l’alignement de lecture, l’appel de pointe, l’analyse fonctionnelle et, surtout, les étapes de validation pour évaluer la qualité de l’échantillon afin de déterminer la pertinence et la fiabilité des données pour l’interprétation biologique (figure 2). De plus, ce pipeline offre aux utilisateurs la possibilité de croiser les résultats d’analyse avec les ensembles de données CUT&RUN accessibles au public. En fin de compte, ce protocole de pipeline d’analyse CUT&RUN sert de guide d’introduction et de référence pour les débutants en analyse bioinformatique et les chercheurs en laboratoire humide.
REMARQUE : Les informations sur les fichiers CUT&RUN fastq dans GSE126612 sont disponibles dans le Tableau 1. Les renseignements relatifs aux applications logicielles utilisées dans cette étude sont énumérés dans la Table des matières.
1. Télécharger le pipeline Easy-Shells_CUTnRUN depuis sa page Github
2. Installation des programmes nécessaires à Easy Shells CUTnRUN
3. Téléchargement de l’ensemble de données CUT&RUN accessible au public à partir de Sequence Read Archive (SRA)
4. Contrôle qualité initial des fichiers de séquençage bruts
5. Qualité et découpage de l’adaptateur pour les fichiers de séquençage bruts
6. Téléchargement de l’indice Bowtie2 pour les génomes de référence pour les échantillons de contrôle réels et de pointe
7. Cartographie des lectures de séquençage CUT&RUN tronquées sur les génomes de référence
8. Tri et filtrage des fichiers de paires de lecture mappés
9. Convertissez les paires de lectures mappées en fichiers bedGraph de fragments BEDPE, BED et de comptages bruts
10. Conversion de fichiers bedGraph en fichiers bedGraph et bigWig normalisés
11. Validation de la distribution de la taille des fragments
12. Pics d’appels à l’aide de MACS2, MACS3 et SEACR
13. Création de limes de lit de pic appelées
14. Validation de la similarité entre les répétitions à l’aide de la corrélation de Pearson et de l’analyse en composantes principales (PC).
15. Validation de la similitude entre les répétitions, les méthodes d’appel de pic et les options à l’aide du diagramme de Venn
16. Analyse des cartes thermiques et des graphiques moyens pour visualiser les pics appelés.
La qualité et le découpage de l’adaptateur permettent de conserver les lectures avec une qualité de séquençage élevée
Les techniques de séquençage à haut débit sont susceptibles de générer des erreurs de séquençage telles que des « mutations » de séquence dans les lectures. De plus, les dimères d’adaptateur de séquençage peuvent être enrichis dans les ensembles de données de séquençage en raison d’une mauvaise suppression de l’adaptate...
La capacité de cartographier l’occupation des protéines sur la chromatine est fondamentale pour mener des études mécanistes dans le domaine de la biologie de la chromatine. À mesure que les laboratoires adoptent de nouvelles techniques de laboratoire humide pour profiler la chromatine, la capacité d’analyser les données de séquençage de ces expériences de laboratoire humide devient un goulot d’étranglement courant pour les scientifiques de laboratoire humide. Par conséq...
Les auteurs ne déclarent aucune divulgation.
Toutes les figurines illustrées ont été créées avec BioRender.com. Le CAI reconnaît le soutien fourni par le biais d’une bourse de chercheur en début de carrière de l’Alliance de recherche sur le cancer de l’ovaire, d’une subvention d’accélération de la Fondation Forbeck et du prix national de recherche sur la détection précoce de l’Alliance du cancer de l’ovaire du Minnestoa.
Name | Company | Catalog Number | Comments |
bedGraphToBigWig | ENCODE | https://hgdownload.soe.ucsc.edu/admin/exe/ | Software to compress and convert readcounts bedGraph to bigWig |
bedtools-2.31.1 | The Quinlan Lab @ the U. of Utah | https://bedtools.readthedocs.io/en/latest/index.html | Software to process bam/bed/bedGraph files |
bowtie2 2.5.4 | Johns Hopkins University | https://bowtie-bio.sourceforge.net/bowtie2/index.shtml | Software to build bowtie index and perform alignment |
CollectInsertSizeMetrics (Picard) | Broad institute | https://github.com/broadinstitute/picard | Software to perform insert size distribution analysis |
Cutadapt | NBIS | https://cutadapt.readthedocs.io/en/stable/index.html | Software to perform adapter trimming |
Deeptoolsv3.5.1 | Max Planck Institute | https://deeptools.readthedocs.io/en/develop/index.html | Software to perform Pearson coefficient correlation analysis, Principal component analysis, and Heatmap/average plot analysis |
FastQC Version 0.12.0 | Babraham Bioinformatics | https://github.com/s-andrews/FastQC | Software to check quality of fastq file |
Intervenev0.6.1 | Computational Biology & Gene regulation - Mathelier group | https://intervene.readthedocs.io/en/latest/index.html | Software to perform venn diagram analysis using peak files |
MACSv2.2.9.1 | Chan Zuckerberg initiative | https://github.com/macs3-project/MACS/tree/macs_v2 | Software to call peaks |
MACSv3.0.2 | Chan Zuckerberg initiative | https://github.com/macs3-project/MACS/tree/master | Software to call peaks |
Samtools-1.21 | Wellcome Sanger Institute | https://github.com/samtools/samtools | Software to process sam/bam files |
SEACRv1.3 | Howard Hughes Medial institute | https://github.com/FredHutch/SEACR | Software to call peaks |
SRA Toolkit Release 3.1.1 | NCBI | https://github.com/ncbi/sra-tools | Software to download SRR from GEO |
Trim_Galore v0.6.10 | Babraham Bioinformatics | https://github.com/FelixKrueger/TrimGalore | Software to perform quality and atapter trimming |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon