需要订阅 JoVE 才能查看此. 登录或开始免费试用。
该方案指导生物信息学初学者完成入门 CUT&RUN 分析管道,使用户能够完成 CUT&RUN 测序数据的初始分析和验证。完成此处描述的分析步骤,结合下游峰注释,将使用户能够对染色质调控产生机制见解。
CUT&RUN 技术有助于检测整个基因组中的蛋白质-DNA 相互作用。CUT&RUN 的典型应用包括分析组蛋白尾部修饰的变化或绘制转录因子染色质占有率。CUT&RUN 的广泛采用部分是由于优于传统 ChIP-seq 的技术优势,包括较低的细胞起始量要求、较低的测序深度要求以及由于缺乏掩盖抗体表位的交联剂而提高的灵敏度和降低的背景信号。通过 Henikoff 实验室慷慨分享试剂和开发商业试剂盒以加速初学者的采用,CUT&RUN 也得到了广泛采用。随着 CUT&RUN 技术采用率的增加,CUT&RUN 测序分析和验证成为关键的瓶颈,必须克服这些瓶颈才能让主要湿法实验室团队完全采用。CUT&RUN 分析通常从对原始测序读数的质量控制检查开始,以评估测序深度、读数质量和潜在偏差。然后将读数与参考基因组序列组装进行比对,随后使用多种生物信息学工具来注释蛋白质富集的基因组区域,确认数据可解释性并得出生物学结论。尽管已经开发了多个 计算机 分析管道来支持 CUT&RUN 数据分析,但其复杂的多模块结构和多种编程语言的使用使得这些平台对于可能不熟悉多种编程语言但希望了解 CUT&RUN 分析程序并自定义其分析管道的生物信息学初学者来说变得困难。在这里,我们提供了一个单一语言的分步 CUT&RUN 分析流程方案,专为具有任何生物信息学经验水平的用户而设计。该方案包括完成关键质量检查,以验证测序数据是否适合生物学解释。我们预计,遵循本文提供的介绍性方案与下游峰注释相结合,将允许用户从自己的 CUT&RUN 数据集中获得生物学见解。
测量蛋白质和基因组 DNA 之间相互作用的能力对于理解染色质调控的生物学特性至关重要。测量给定蛋白质的染色质占有率的有效检测至少提供两个关键信息:i) 基因组定位和 ii) 给定基因组区域的蛋白质丰度。追踪染色质中目标蛋白质的募集和定位变化可以揭示蛋白质的直接靶基因座,并揭示该蛋白质在基于染色质的生物过程中的机制作用,例如转录调节、DNA 修复或 DNA 复制。当今可用于分析蛋白质-DNA 相互作用的技术使研究人员能够以前所未有的分辨率探索调节。通过引入新的染色质分析技术,包括 Henikoff 实验室开发靶标下切割和使用核酸酶释放 (CUT&RUN),实现了这种技术进步。与传统的染色质免疫沉淀 (ChIP) 相比,CUT&RUN 具有多项技术优势,包括较低的细胞起始量要求、较低的测序深度要求,以及由于缺乏掩盖抗体表位的交联剂而提高的灵敏度和降低的背景信号。采用这种技术来研究染色质调控需要对该技术的基本原理有透彻的了解,并了解如何分析、验证和解释 CUT&RUN 数据。
CUT&RUN 程序首先将细胞与偶联刀豆球蛋白 A 结合,并与磁珠偶联,以便在整个程序中操纵低细胞数量。使用温和的去污剂对分离的细胞进行透化,以促进引入靶向目标蛋白的抗体。然后使用与酶相连的蛋白 A 或蛋白 A/G 标签将微球菌核酸酶 (MNase) 募集到结合的抗体中。引入钙以启动酶活性。MNase 消化产生单核小体 DNA-蛋白质复合物。随后螯合钙以结束消化反应,MNase 消化产生的短 DNA 片段从细胞核中释放出来,然后进行 DNA 纯化、文库制备和高通量测序1 (图 1)。
用于绘制和量化整个基因组中蛋白质占有率的计算机模拟方法与用于丰富这些 DNA-蛋白质相互作用的湿实验室方法并行发展。鉴定富集信号(峰)区域是生物信息学分析中最关键的步骤之一。最初的 ChIP-seq 分析方法使用 MACS2 和 SICER3 等算法,这些算法采用统计模型来区分真正的蛋白质-DNA 结合位点和背景噪音。然而,CUT&RUN 数据的较低背景噪声和较高分辨率使得 ChIP-seq 分析中采用的一些峰值检出程序不适合 CUT&RUN 分析4。这一挑战凸显了对更适合分析 CUT&RUN 数据的新工具的需求。SEACR4 代表了最近开发的一种工具,它能够从 CUT&RUN 数据中识别峰值,同时克服通常用于 ChIP-seq 分析的工具的局限性。
CUT&RUN 测序数据的生物学解释是从分析管道中峰检出下游的输出中提取的。可以实施多种功能注释程序来预测 CUT&RUN 数据中被调用峰的潜在生物学相关性。例如,基因本体论 (GO) 项目提供了目标基因的成熟功能鉴定 5,6,7。各种软件工具和资源有助于 GO 分析,以揭示在 CUT&RUN 峰8、9、10、11、12、13、14 中富集的基因和基因集。此外,Deeptools15、Integrative genomics viewer (IGV)16 和 UCSC Genome Browser17 等可视化软件能够可视化整个基因组中感兴趣区域的信号分布和模式。
从 CUT&RUN 数据中提取生物学解释的能力在很大程度上取决于数据质量的验证。需要验证的关键组成部分包括评估:i) CUT&RUN 文库测序质量,ii) 重复相似性,以及 iii) 峰中心的信号分布。完成所有三个组分的验证对于确保 CUT&RUN 文库样品和下游分析结果的可靠性至关重要。因此,必须建立介绍性的 CUT&RUN 分析指南,使生物信息学初学者和湿实验室研究人员能够执行此类验证步骤,作为其标准 CUT&RUN 分析管道的一部分。
随着湿实验室 CUT&RUN 实验的发展,各种计算机模拟 CUT&RUN 分析流程,如 CUT&RUNTools 2.018,19、nf-core/cutandrun20 和 CnRAP21,已经开发出来,以支持 CUT&RUN 数据分析。这些工具提供了分析单单元和批量 CUT&RUN 和 CUT&Tag 数据集的强大方法。然而,相对复杂的模块化程序结构以及执行这些分析管道所需的熟悉多种编程语言可能会阻碍寻求全面了解 CUT&RUN 分析步骤并定制自己的管道的生物信息学初学者的采用。要克服这一障碍,需要一个新的入门级 CUT&RUN 分析管道,该管道使用简单的单一编程语言编码,以简单的分步脚本形式提供。
在本文中,我们描述了一种简单的单语言 CUT&RUN 分析流程协议,该协议提供了支持详细描述的分步脚本,使新用户和新手用户能够进行 CUT&RUN 测序分析。此管道中使用的程序由原始开发人员组公开提供。该方案中描述的主要步骤包括读取比对、峰检出、功能分析,以及最关键的验证步骤,以评估样品质量以确定生物学解释的数据适用性和可靠性(图 2)。此外,此管道还为用户提供了将分析结果与公开可用的 CUT&RUN 数据集进行交叉引用的机会。最终,该 CUT&RUN 分析流程方案可作为生物信息学分析初学者和湿实验室研究人员的入门指南和参考。
注意: 表 1 中提供了 GSE126612 中 CUT&RUN fastq 文件的信息。与本研究中使用的软件应用程序相关的信息列在 材料表中。
1. 从 Github 页面下载 Easy-Shells_CUTnRUN 管道
2. 安装 Easy Shells CUTnRUN 所需的程序
3. 从 Sequence Read Archive (SRA) 下载公开可用的 CUT&RUN 数据集
4. 原始测序文件的初始质量检查
5. 原始排序文件的质量和适配器修剪
6.下载实际和加标对照样品的参考基因组的 bowtie2 指数
7. 将修剪的 CUT&RUN 测序读数映射到参考基因组
8. 对映射的读对文件进行排序和过滤
9. 将映射的读取对转换为片段 BEDPE、BED 和原始 readcounts bedGraph 文件
10. 将原始 readcounts bedGraph 文件转换为标准化的 bedGraph 和 bigWig 文件
11. 验证片段大小分布
12. 使用 MACS2、MACS3 和 SEACR 调用峰值
13. 创建称为峰床文件
14. 使用 Pearson 相关和主成分 (PC) 分析验证重复之间的相似性。
15. 使用维恩图验证重复、峰检出方法和选项之间的相似性
16. 分析热图和平均图以可视化称为峰值。
质量和接头修整保留了具有高测序质量的读长
高通量测序技术容易产生测序错误,例如读长中的序列“突变”。此外,由于文库制备过程中接头去除不良,测序接头二聚体可以在测序数据集中富集。过多的测序错误,例如读取突变、产生的读长短于正确映射所需的读数以及接头二聚体的富集,会增加读取映射时间,并可能产生假阳性映射读数,从而扭曲下...
绘制染色质上蛋白质占有率的能力是在染色质生物学领域进行机制研究的基础。随着实验室采用新的湿实验室技术来分析染色质,分析这些湿实验室实验的测序数据的能力成为湿实验室科学家的常见瓶颈。因此,我们描述了一个介绍性的分步协议,使生物信息学初学者能够克服分析瓶颈,并启动对他们自己的 CUT&RUN 测序数据的分析和质量控制检查。
...
作者声明不披露任何内容。
所有插图人物均使用 BioRender.com 创建。CAI 感谢通过卵巢癌研究联盟早期职业研究员奖、福贝克基金会加速器赠款和明尼斯托亚卵巢癌联盟国家早期检测研究奖提供的支持。
Name | Company | Catalog Number | Comments |
bedGraphToBigWig | ENCODE | https://hgdownload.soe.ucsc.edu/admin/exe/ | Software to compress and convert readcounts bedGraph to bigWig |
bedtools-2.31.1 | The Quinlan Lab @ the U. of Utah | https://bedtools.readthedocs.io/en/latest/index.html | Software to process bam/bed/bedGraph files |
bowtie2 2.5.4 | Johns Hopkins University | https://bowtie-bio.sourceforge.net/bowtie2/index.shtml | Software to build bowtie index and perform alignment |
CollectInsertSizeMetrics (Picard) | Broad institute | https://github.com/broadinstitute/picard | Software to perform insert size distribution analysis |
Cutadapt | NBIS | https://cutadapt.readthedocs.io/en/stable/index.html | Software to perform adapter trimming |
Deeptoolsv3.5.1 | Max Planck Institute | https://deeptools.readthedocs.io/en/develop/index.html | Software to perform Pearson coefficient correlation analysis, Principal component analysis, and Heatmap/average plot analysis |
FastQC Version 0.12.0 | Babraham Bioinformatics | https://github.com/s-andrews/FastQC | Software to check quality of fastq file |
Intervenev0.6.1 | Computational Biology & Gene regulation - Mathelier group | https://intervene.readthedocs.io/en/latest/index.html | Software to perform venn diagram analysis using peak files |
MACSv2.2.9.1 | Chan Zuckerberg initiative | https://github.com/macs3-project/MACS/tree/macs_v2 | Software to call peaks |
MACSv3.0.2 | Chan Zuckerberg initiative | https://github.com/macs3-project/MACS/tree/master | Software to call peaks |
Samtools-1.21 | Wellcome Sanger Institute | https://github.com/samtools/samtools | Software to process sam/bam files |
SEACRv1.3 | Howard Hughes Medial institute | https://github.com/FredHutch/SEACR | Software to call peaks |
SRA Toolkit Release 3.1.1 | NCBI | https://github.com/ncbi/sra-tools | Software to download SRR from GEO |
Trim_Galore v0.6.10 | Babraham Bioinformatics | https://github.com/FelixKrueger/TrimGalore | Software to perform quality and atapter trimming |
请求许可使用此 JoVE 文章的文本或图形
请求许可探索更多文章
This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。