登录

需要订阅 JoVE 才能查看此. 登录或开始免费试用。

本文内容

  • 摘要
  • 摘要
  • 引言
  • 研究方案
  • 结果
  • 讨论
  • 披露声明
  • 致谢
  • 材料
  • 参考文献
  • 转载和许可

摘要

该方案指导生物信息学初学者完成入门 CUT&RUN 分析管道,使用户能够完成 CUT&RUN 测序数据的初始分析和验证。完成此处描述的分析步骤,结合下游峰注释,将使用户能够对染色质调控产生机制见解。

摘要

CUT&RUN 技术有助于检测整个基因组中的蛋白质-DNA 相互作用。CUT&RUN 的典型应用包括分析组蛋白尾部修饰的变化或绘制转录因子染色质占有率。CUT&RUN 的广泛采用部分是由于优于传统 ChIP-seq 的技术优势,包括较低的细胞起始量要求、较低的测序深度要求以及由于缺乏掩盖抗体表位的交联剂而提高的灵敏度和降低的背景信号。通过 Henikoff 实验室慷慨分享试剂和开发商业试剂盒以加速初学者的采用,CUT&RUN 也得到了广泛采用。随着 CUT&RUN 技术采用率的增加,CUT&RUN 测序分析和验证成为关键的瓶颈,必须克服这些瓶颈才能让主要湿法实验室团队完全采用。CUT&RUN 分析通常从对原始测序读数的质量控制检查开始,以评估测序深度、读数质量和潜在偏差。然后将读数与参考基因组序列组装进行比对,随后使用多种生物信息学工具来注释蛋白质富集的基因组区域,确认数据可解释性并得出生物学结论。尽管已经开发了多个 计算机 分析管道来支持 CUT&RUN 数据分析,但其复杂的多模块结构和多种编程语言的使用使得这些平台对于可能不熟悉多种编程语言但希望了解 CUT&RUN 分析程序并自定义其分析管道的生物信息学初学者来说变得困难。在这里,我们提供了一个单一语言的分步 CUT&RUN 分析流程方案,专为具有任何生物信息学经验水平的用户而设计。该方案包括完成关键质量检查,以验证测序数据是否适合生物学解释。我们预计,遵循本文提供的介绍性方案与下游峰注释相结合,将允许用户从自己的 CUT&RUN 数据集中获得生物学见解。

引言

测量蛋白质和基因组 DNA 之间相互作用的能力对于理解染色质调控的生物学特性至关重要。测量给定蛋白质的染色质占有率的有效检测至少提供两个关键信息:i) 基因组定位和 ii) 给定基因组区域的蛋白质丰度。追踪染色质中目标蛋白质的募集和定位变化可以揭示蛋白质的直接靶基因座,并揭示该蛋白质在基于染色质的生物过程中的机制作用,例如转录调节、DNA 修复或 DNA 复制。当今可用于分析蛋白质-DNA 相互作用的技术使研究人员能够以前所未有的分辨率探索调节。通过引入新的染色质分析技术,包括 Henikoff 实验室开发靶标下切割和使用核酸酶释放 (CUT&RUN),实现了这种技术进步。与传统的染色质免疫沉淀 (ChIP) 相比,CUT&RUN 具有多项技术优势,包括较低的细胞起始量要求、较低的测序深度要求,以及由于缺乏掩盖抗体表位的交联剂而提高的灵敏度和降低的背景信号。采用这种技术来研究染色质调控需要对该技术的基本原理有透彻的了解,并了解如何分析、验证和解释 CUT&RUN 数据。

CUT&RUN 程序首先将细胞与偶联刀豆球蛋白 A 结合,并与磁珠偶联,以便在整个程序中操纵低细胞数量。使用温和的去污剂对分离的细胞进行透化,以促进引入靶向目标蛋白的抗体。然后使用与酶相连的蛋白 A 或蛋白 A/G 标签将微球菌核酸酶 (MNase) 募集到结合的抗体中。引入钙以启动酶活性。MNase 消化产生单核小体 DNA-蛋白质复合物。随后螯合钙以结束消化反应,MNase 消化产生的短 DNA 片段从细胞核中释放出来,然后进行 DNA 纯化、文库制备和高通量测序1图 1)。

用于绘制和量化整个基因组中蛋白质占有率的计算机模拟方法与用于丰富这些 DNA-蛋白质相互作用的湿实验室方法并行发展。鉴定富集信号(峰)区域是生物信息学分析中最关键的步骤之一。最初的 ChIP-seq 分析方法使用 MACS2 和 SICER3 等算法,这些算法采用统计模型来区分真正的蛋白质-DNA 结合位点和背景噪音。然而,CUT&RUN 数据的较低背景噪声和较高分辨率使得 ChIP-seq 分析中采用的一些峰值检出程序不适合 CUT&RUN 分析4。这一挑战凸显了对更适合分析 CUT&RUN 数据的新工具的需求。SEACR4 代表了最近开发的一种工具,它能够从 CUT&RUN 数据中识别峰值,同时克服通常用于 ChIP-seq 分析的工具的局限性。

CUT&RUN 测序数据的生物学解释是从分析管道中峰检出下游的输出中提取的。可以实施多种功能注释程序来预测 CUT&RUN 数据中被调用峰的潜在生物学相关性。例如,基因本体论 (GO) 项目提供了目标基因的成熟功能鉴定 5,6,7。各种软件工具和资源有助于 GO 分析,以揭示在 CUT&RUN 峰891011121314 中富集的基因和基因集。此外,Deeptools15、Integrative genomics viewer (IGV)16 和 UCSC Genome Browser17 等可视化软件能够可视化整个基因组中感兴趣区域的信号分布和模式。

从 CUT&RUN 数据中提取生物学解释的能力在很大程度上取决于数据质量的验证。需要验证的关键组成部分包括评估:i) CUT&RUN 文库测序质量,ii) 重复相似性,以及 iii) 峰中心的信号分布。完成所有三个组分的验证对于确保 CUT&RUN 文库样品和下游分析结果的可靠性至关重要。因此,必须建立介绍性的 CUT&RUN 分析指南,使生物信息学初学者和湿实验室研究人员能够执行此类验证步骤,作为其标准 CUT&RUN 分析管道的一部分。

随着湿实验室 CUT&RUN 实验的发展,各种计算机模拟 CUT&RUN 分析流程,如 CUT&RUNTools 2.018,19、nf-core/cutandrun20 和 CnRAP21,已经开发出来,以支持 CUT&RUN 数据分析。这些工具提供了分析单单元和批量 CUT&RUN 和 CUT&Tag 数据集的强大方法。然而,相对复杂的模块化程序结构以及执行这些分析管道所需的熟悉多种编程语言可能会阻碍寻求全面了解 CUT&RUN 分析步骤并定制自己的管道的生物信息学初学者的采用。要克服这一障碍,需要一个新的入门级 CUT&RUN 分析管道,该管道使用简单的单一编程语言编码,以简单的分步脚本形式提供。

在本文中,我们描述了一种简单的单语言 CUT&RUN 分析流程协议,该协议提供了支持详细描述的分步脚本,使新用户和新手用户能够进行 CUT&RUN 测序分析。此管道中使用的程序由原始开发人员组公开提供。该方案中描述的主要步骤包括读取比对、峰检出、功能分析,以及最关键的验证步骤,以评估样品质量以确定生物学解释的数据适用性和可靠性(图 2)。此外,此管道还为用户提供了将分析结果与公开可用的 CUT&RUN 数据集进行交叉引用的机会。最终,该 CUT&RUN 分析流程方案可作为生物信息学分析初学者和湿实验室研究人员的入门指南和参考。

研究方案

注意: 表 1 中提供了 GSE126612 中 CUT&RUN fastq 文件的信息。与本研究中使用的软件应用程序相关的信息列在 材料表中

1. 从 Github 页面下载 Easy-Shells_CUTnRUN 管道

  1. 从操作系统打开终端。
    注意:如果用户不确定如何在 macOS 和 Windows 中打开终端,请查看此网页 (https://discovery.cs.illinois.edu/guides/System-Setup/terminal/)。对于 Linux,请查看此网页 (https://www.geeksforgeeks.org/how-to-open-terminal-in-linux/)。
  2. 通过在终端中键入 wget https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/archive/refs/heads/main.zip -O ~/Desktop/Easy-Shells_CUTnRUN.zip 从 Github 下载压缩的分析管道。
  3. 下载 zip 文件后,在终端中键入 unzip ~/Desktop/Easy-Shells_CUTnRUN.zip -d ~/Desktop/ 解压缩下载的 zip 文件。
  4. 解压缩后,在终端中键入 rm ~/Desktop/Easy-Shells_CUTnRUN.zip 删除 zip 文件,然后键入 mv ~/Desktop/Easy-Shells_CUTnRUN-master ~/Desktop/Easy-Shells_CUTnRUN 更改文件夹名称。
  5. 删除压缩文件后,在终端中键入 chmod +x ~/Desktop/Easy-Shells_CUTnRUN/script/*.sh 以设置工作目录中所有 shell 脚本的可执行权限。从现在开始,只需在终端中键入这些 shell 脚本的路径和名称,或者将脚本拖到终端中并回车即可在终端中运行这些 shell 脚本。
    注意:Bash shell 通常预安装在大多数 Linux 发行版上。但是,最近的 macOS 版本不再提供预安装的 Bash shell。如果系统没有 Bash,请先安装 Bash shell。请访问下面的链接,以获取有关如何在 Linux 操作系统 (https://ioflood.com/blog/install-bash-shell-linux/) 和 macOS (https://www.cs.cornell.edu/courses/cs2043/2024sp/styled-3/#:~:text=The%20first%20thing%20you%20will,you%20will%20see%20the%20following:) 中安装 Bash shell 的说明。编写这些分步 shell 脚本是为了创建一个文件夹 ~/Desktop/GSE126612 来在此目录中执行大部分 CUT&RUN 分析,而无需任何修改。如果用户了解如何使用这些 shell 脚本,用户可以修改和自定义这些 shell 脚本,以分析其他 CUT&RUN 数据集并根据项目特定需求修改选项。要读取和编辑这些 shell 脚本,请考虑使用 Visual studio Code (https://code.visualstudio.com/) 作为可用于主要操作系统的易用程序的一个选项。

2. 安装 Easy Shells CUTnRUN 所需的程序

  1. 在名称为 Script_01_installation_***.sh 的 shell 脚本中,找出名称包含用户系统的操作系统类型的 shell 脚本。目前,Easy Shells CUTnRUN 支持 macOS、Debian/Ubuntu 和基于 CentOS/RPM 的系统安装脚本。
  2. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,用户可能会在终端中看到以下内容: /path/to/bash (或类似消息,例如 /bin/bash)。
  3. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash) 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请跳过此步骤。
  4. 在终端中,通过键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_01_installation_***.sh 来操作安装 shell 脚本,或者将 shell 脚本文件拖拽到终端中并回车。
  5. 读取 /path/to/SEACR-1.3/Testfiles 文件夹中的 Test_README.md 文件。按照 README 文件中的说明来阐明用户系统中的 SEACR 是否正常工作。
    注意:使用 SEACR Github 页面提供的测试文件验证 SEACR 函数以从 CUT&RUN 数据中获得正确的峰值调用结果至关重要。因此,安装 SEACR 后,请立即按照 /path/to/SEACR-1.3/Testfiles 中的 Test_README.md 的说明进行操作。尽管 Easy Shells CUTnRUN 为某些操作系统提供了安装 shell 脚本,但这些脚本可能无法在某些用户的系统中安装 Easy Shells CUTnRUN 所需的所有程序。如果安装过程中有任何问题,请查看已卸载程序的原始网站,或使用 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 请求帮助。

3. 从 Sequence Read Archive (SRA) 下载公开可用的 CUT&RUN 数据集

  1. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,用户可能会在终端中看到以下内容: /path/to/bash (或类似消息,例如 /bin/bash)。
  2. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash) 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请跳过此步骤。
  3. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_02_download-fastq.sh 或将 shell 脚本文件拖到终端中并输入
    注意:此脚本将:(i) 创建一个文件夹 (~/Desktop/GSE126612/fastq) 并下载 fastq 文件夹中的文本文件 (~/Desktop/Easy-Shells_CUTnRUN/sample_info/SRR_list.txt) 中的 SRA 文件列表。例如,SRR_list.txt 包括 GSE126612 个 CUT&RUN 样本子集的 fastq 文件。(ii) 下载 fastq 文件夹中的原始 fastq 文件。(iii) 创建一个文件夹 (~/Desktop/GSE126612/log/fastq) 并在此日志文件夹中记下日志文件 (download-fastq_log.txt) 和下载的示例信息文件 (SRR_list_info.txt)。
  4. 运行脚本后,检查日志文件。如果日志文件中有任何错误消息,请修复错误并再次尝试步骤 3.3。如果有任何问题需要解决问题,请在 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 中寻求帮助。
    注:为了促进此 CUT&RUN 分析管道的实践,从 SRA 中检索了以下公开可用的样品:一个来自模拟对照 (IgG) 的样品,三个染色质结构和转录因子蛋白 (CTCF) 的样品,四个对应于“活性”组蛋白标记 (H3K27Ac) 的样品,以及三个对应于 RNA 聚合酶 II (RNAPII-S5P) 标记的转录起始区域的样品。测序以双端方式进行,因此每个样品两个文件配对。

4. 原始测序文件的初始质量检查

  1. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,用户可能会在终端中看到以下内容: /path/to/bash (或类似消息,例如 /bin/bash)。
  2. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash) 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请跳过此步骤。
  3. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_03_fastQC.sh 或将 shell 脚本拖到终端中并输入
    注意:此 shell 脚本将:(i) 对 ~/Desktop/GSE126612/fastq 文件夹中的所有原始 fastq 文件运行 FastQC 程序,并将质量检查报告文件保存到 ~/Desktop/GSE126612/fastqc.1st 文件夹中。(ii) 将每个 FastQC 运行的日志文件 (fastqc.1st.log.SRR-number.txt) 记入日志文件夹 (~/Desktop/GSE126612/log/fastqc.1st)。
  4. 运行完 shell 脚本后,查看日志文件以阐明运行是否成功。如果日志文件中有任何错误消息,请更正错误并重复步骤 4.3。如果存在任何问题来解决问题,请使用 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 请求帮助。
    注意:在输出文件中,fastqc.html 文件包含用户友好的质量检查结果。如果存在严重的质量问题,请与生物信息学同事讨论,以确定数据是否适合下游分析。类似的质量控制报告用于确认接头修整后数据质量的改善。要将此脚本用于其他数据集,请编辑 working 和 output 目录的路径以满足用户的需求。与 ChIP-seq 读数相比,在解释 CUT&RUN 的 QC 时,一个显著的区别是 CUT&RUN 中的重复读数并不一定表示 PCR 重复。这是因为招募的 MNase 将在实验组内的相同或类似位置进行消化。

5. 原始排序文件的质量和适配器修剪

  1. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,用户可能会在终端中看到以下内容: /path/to/bash (或类似消息,例如 /bin/bash)。
  2. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash) 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请跳过此步骤。
  3. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_04_trimming.sh 或将 Script_04_trimming.sh 脚本拖到终端中并输入
    注意:这个 shell 脚本将:(i) 对 ~/Desktop/GSE126612/fastq 中的所有原始 fastq 文件运行 Trim-Galore 程序,以执行适配器和质量修剪。(ii) 创建一个文件夹 (~/Desktop/GSE126612/trimmed) 并将 Trim-Galore 输出文件保存在 trimmed 文件夹中。(iii) 创建一个日志文件夹 (~/Desktop/GSE126612/log/trim_galore) 并记下每次 Trim-Galore 运行 trim_galore_log_RSS-number.txt 日志文件。
  4. 运行完成后,请仔细查看日志文件。如果日志文件中有任何错误消息,请更正错误并重复步骤 5.3。如果存在任何问题来解决问题,请使用 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 请求帮助。
  5. 完成此过程后,将 .html 输出文件与 4.3 中创建的 fastqc.html 文件进行比较。修改 input 和 output 目录的路径,以对位于其他位置的任何 fastq 文件执行修剪步骤。

6.下载实际和加标对照样品的参考基因组的 bowtie2 指数

  1. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,用户可能会在终端中看到以下内容: /path/to/bash (或类似消息,例如 /bin/bash)。
  2. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash) 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请跳过此步骤。
  3. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_05_bowtie2-index.sh 或将 shell 脚本拖到终端中并输入
    注意:此脚本将:(i) 下载实际样本参考基因组(人类;hg19;用于原始出版物22)和加标对照参考基因组(出芽酵母;R64-1-1) 放入 bowtie2-index 文件夹 (~/Desktop/Easy-Shells_CUTnRUN/bowtie2-index)。(iii) 将日志文件 (bowtie2-index-log.txt) 写入日志目录 (~/Desktop/GSE126612/log/bowtie2-index)。
  4. 运行完成后,检查日志文件。如果有任何错误消息,请更正错误并重复步骤 6.3。如果存在任何问题来解决问题,请使用 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 请求帮助。
    注意:目前,Bowtie2 网站 (https://bowtie-bio.sourceforge.net/bowtie2/manual.shtml) 中提供了各种参考基因组的 Bowtie2 索引。用户可以编辑 Script_05_bowtie2-index.sh 以下载任何 Bowtie2 索引以满足用户的要求。如果用户无法找到感兴趣的参考基因组的 Bowtie2 索引,请从以下位置找到参考基因组序列 fasta 文件:
    1. Ensembl ftp (https://ftp.ensembl.org/pub/current_fasta/)
    2. UCSC 网页 (https://hgdownload.soe.ucsc.edu/downloads.html)
    3. 或其他物种特定的数据库。
      找到参考基因组序列 fasta 文件后,按照 Bowtie2 网站的“bowtie2-build 索引器”部分 (https://bowtie-bio.sourceforge.net/bowtie2/manual.shtml#the-bowtie2-build-indexer) 为下载的参考基因组创建 Bowtie2 索引。

7. 将修剪的 CUT&RUN 测序读数映射到参考基因组

  1. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,用户可能会在终端中看到以下内容: /path/to/bash (或类似消息,例如 /bin/bash)。
  2. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash) 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请跳过此步骤。
  3. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_06_bowtie2-mapping.sh 或将 shell 脚本文件拖到终端中并输入
    注意:此 shell 脚本将:(1) 运行 bowtie2 程序,将所有适配器和质量修剪的 fastq 文件映射到实验(人类;hg19)和加标对照(出芽酵母;R64-1-1) 独立参考基因组。(ii) 运行 samtools 视图 函数,将映射的读对文件压缩为 bam 格式。(iii) 创建一个文件夹 (~/Desktop/GSE126612/bowtie2-mapped) 并将压缩的映射读对文件保存在 bowtie2-mapped 文件夹中。(iv) 创建一个文件夹 (~/Desktop/GSE126612/log/bowtie2-mapped) 并将映射过程的日志记为文本文件 bowtie2_log_hg19_SRR-number.txt 用于映射在 hg19 参考基因组上的读取对, bowtie2_log_R64-1-1_SRR-number.txt 用于映射在 R64-1-1 上的读取对),以指示 bowtie2-mapping 日志文件夹中的映射效率。
  4. 运行完成后,检查日志文件。如果日志文件中有任何错误消息,请更正错误并再次运行 shell 脚本。如果存在任何问题来解决问题,请使用 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 请求帮助。
    注意:此 shell 脚本运行 bowtie2,并可选择映射双端测序文件,以查找具有 10 bp-700 bp 片段长度的一致映射的读长对。通过在终端中键入 bowtie2 --help 或访问 bowtie2 网站 (https://bowtie-bio.sourceforge.net/bowtie2/manual.shtml#the-bowtie2-aligner) 来了解和根据需要更改选项,以发现选项描述。使用此 shell 脚本通过更改 fastq 文件和 Bowtie2 索引的路径和名称格式来映射任何其他 fastq 文件。

8. 对映射的读对文件进行排序和过滤

  1. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,用户可能会在终端中看到以下内容: /path/to/bash (或类似消息,例如 /bin/bash)。
  2. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash)“ 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请跳过此步骤。
  3. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_07_filter-sort-bam.sh 或将 shell 脚本文件拖到终端中并输入
    注意:此脚本将:(i) 对 ~/Desktop/GSE126612/bowtie2-mapped 文件夹中的所有压缩映射读对文件运行 samtools 视图函数,以过滤掉映射在非规范染色体区域、公开注释的黑名单和 TA 重复区域的读对。(ii) 执行 samtools 排序函数,按片段名称或同一目录中的坐标对过滤后的 bam 文件进行排序。(iii) 在 ~/Desktop/GSE126612/log/filter-sort-bam 目录中写下每个输入 bam 文件的日志文件。
  4. 运行完成后,请仔细查看日志文件。如果日志文件中有任何错误消息,请更正错误并尝试再次运行 shell 脚本。如果存在任何问题来解决问题,请使用 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 请求帮助。
    注意:按片段名称排序的结果 bam 文件(输出)将用作输入文件,以创建片段 BED 和原始 readcounts bedGraph 文件。按坐标排序的 bam 文件将用作生成片段 BEDPE 文件的输入文件。所有 BED、bedGraph 和 BEDPE 都将用于下游分析中的峰识别和可视化。所有经典染色体区域(chr1~22、chrX、chrY 和 chrM)、公开注释的黑名单区域23 和 TA 重复区域18 的注释床文件都位于 ~/Desktop/Easy-Shells_CUTnRUN/blacklist 目录下。如果需要,请使用此目录添加其他黑名单文件。使用此 shell 脚本,通过更改 bam 文件的路径和名称,对其他映射的读取对 bam 文件执行相同的功能。在终端中键入 samtools view --helpsamtools sort --help 以获取有关这些功能的更多描述。

9. 将映射的读取对转换为片段 BEDPE、BED 和原始 readcounts bedGraph 文件

  1. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,用户可能会在终端中看到以下内容: /path/to/bash (或类似消息,例如 /bin/bash)。
  2. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash) 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请跳过此步骤。
  3. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_08_bam-to-BEDPE-BED-bedGraph.sh 或将 shell 脚本文件拖到终端中并输入
    注意:此脚本将:(i) 运行 macs3 filterdupawk 函数,将按坐标排序的 bam 文件转换为片段长度小于 1kb 的 BEDPE 文件,并将 BEDPE 文件保存在 ~/Desktop/GSE126612/BEDPE 中。(ii) 创建一个日志目录 (~/Desktop/GSE126612/log/bam-to-BEDPE) 并记下每个映射的读取片段文件的日志文件。(iii) 运行 bedtools bamtobed awk、cut、sort 函数,将按片段名称排序的 bam 文件转换为片段长度短于 1 kb 的片段 BED 文件。(iv) 创建一个文件夹 (~/Desktop/GSE126612/bam-to-bed) 并将片段 BED 文件保存在 bam-to-bed 文件夹中。(v) 将每个映射的读取片段 BED 文件的日志文件写入日志目录 (~/Desktop/GSE126612/log/bam-to-bed)。(vi) 执行 bedtools genomecov 函数,使用一个文件夹 (~/Desktop/GSE126612/bedGraph) 中的片段 BED 文件生成原始 readcounts bedGraph 文件。
  4. 运行完成后,请仔细检查日志文件。如果存在任何问题来解决问题,请使用 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 请求帮助。
    注意:输出原始读取计数 bedGraph 文件将用作 SEACR 峰值调用程序的输入文件,第 12 节中带有标准化选项,第 10 节中带有缩放分数读取计数 (SFRC) 标准化22。片段 BED 文件将用作阴性对照 (SRPMC) 标准化 24,25 中阴性对照 (SRPMC) 标准化24,25 的尖峰归一化每百万映射读数的输入文件 10.To 捕获短片段 (>100 bp) 仅适用于染色质相关因子的 CUT&RUN 数据,更改此脚本中的片段过滤步骤并继续归一化步骤。为了比较同一样品中短片段和常规片段之间的 CUT&RUN 信号,SFRC 归一化可能有助于减少仅捕获短片段引起的潜在下采样效应。使用此 shell 脚本通过更改 bam 和 bed 文件的路径和名称格式,对其他双端排序的 bam 文件执行相同的过程。

10. 将原始 readcounts bedGraph 文件转换为标准化的 bedGraph 和 bigWig 文件

  1. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,用户可能会在终端中看到以下内容: /path/to/bash (或类似消息,例如 /bin/bash)。
  2. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash) 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请跳过此步骤。
  3. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_09_normalization_SFRC.sh 或将 shell 脚本文件拖到终端中并输入
    注意:此脚本编写为:(i) 使用 awk 函数运行 for 循环,以使用 ~/Desktop/GSE126612/bedGraph 中的原始 readcounts bedGraph 文件创建 SFRC 标准化 bedGraph 文件。(ii) 执行 bedGraphToBigWig 函数,在 ~/Desktop/GSE126612/bigWig 中创建 SFRC 标准化 bedGraph 文件的压缩格式 (.bw)。(iii) 记下一个日志文件,以记录每次运行用于 SFRC 计算的标准化因子,并将日志文件保存在 ~/Desktop/GSE126612/log/SFRC中。
  4. 运行完成后,检查日志文件。如果有任何错误消息,请更正错误并再次运行 shell 脚本。如果存在任何问题来解决问题,请使用 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 请求帮助。
    注意:缩放分数读取计数归一化用于 CUT&RUN 数据集的原始出版物22 GSE126612 中。 bin i 处的归一化公式与以下相同:
    figure-protocol-14245
    由于这种归一化方法不包括阴性对照(例如,IgG 样品)的归一化,也不包括加标对照,因此这种方法可能不是观察样品之间全基因组信号差异的理想选择。但是,由于此方法在理论上与其他基于总读取计数的归一化(例如,Count Per Million)相似,因此观察样本之间的局部信号差异就足够了。
  5. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_09_normalization_SRPMC.sh 或将 shell 脚本文件拖到终端中并输入
    注意:此脚本将:(i) 使用 bedtools genomecov 函数运行 for 循环,以使用 ~/Desktop/GSE126612/bam-to-bed 中的片段 BED 文件在 ~/Desktop/GSE126612/bedGraph 中创建 SRPMC 标准化床图文件。(ii) 在 ~/Desktop/GSE126612/log/SRPMC 中写下一个日志文件,以记录每次运行 SRPMC 时用于 SRPMC 标准化的标准化因子。(iii) 执行 bedGraphToBigWig 函数,创建标准化 bedGraph 文件的压缩格式 (.bw),并将标准化的 bigWig 文件保存到 ~/Desktop/GSE126612/bigWig 文件夹中。
  6. 运行完成后,请仔细查看日志文件。如果日志文件中有任何错误消息,请更正错误并再次运行 shell 脚本。如果存在任何问题来解决问题,请使用 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 请求帮助。
    注:SRPMC 归一化公式旨在通过结合 RPM(每百万映射读取的读取数)归一化因子、RPS(每次加标读取的读取比率)和相对信号比来标准化阴性对照(例如 IgG 样品)和加标对照的实际样品读数计数24,25。RPS 的定义与以下相同:
    figure-protocol-15404
    通过对实际样品和阴性对照样品应用 RPS,可以计算出与实际样品对照的相对信号比 (RS) 如下:
    figure-protocol-15548
    RPM 归一化因子 (RPM:NF) 的定义如下:
    figure-protocol-15669
    从这里开始,通过将 RS 和 RPM:NF 组合在一起,得出了 SRPMC 标准化因子 (SRPMC:NF):
    figure-protocol-15820
    这个公式可以简化如下:
    figure-protocol-15927
    因此,SRPMC 方法通过对照和样品之间的 (1) 加标读数比率和 (2) RPM 标准化对照读数来标准化读数。由于该归一化因子考虑了刺突读数并使样品之间的对照读数具有可比性,因此该方法适用于观察样品之间的全基因组差异并减少不同批次实验中实际样品和对照总读数的批次效应。这些标准化的 bedGraph 文件将成为输入文件,以便在第 11 节中使用 SEACR 调用峰值。这些标准化的 bigWig 文件将通过 IGV 用于基因座可视化,并通过 Deeptools 创建热图和平均图。强烈建议使用基因组浏览器在代表性基因组区域使用归一化 bigWig 文件来可视化 CUT&RUN 数据集的景观模式,以评估数据质量。显示类似于 IgG 对照的嘈杂背景信号模式的 CUT&RUN 样品可能适合在下游分析中省略。使用这些 shell 脚本通过更改输入和输出 bed 和 bedgraph 文件的路径和文件名,对其他 reads bed 文件和原始 readcounts bedGraph 文件进行规范化。编辑这些脚本,以通过更改此脚本中的因子和公式来应用其他标准化计算。

11. 验证片段大小分布

  1. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,用户可能会在终端中看到以下内容: /path/to/bash (或类似消息,例如 /bin/bash)。
  2. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash) 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请跳过此步骤。
  3. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_10_insert-size-analysis.sh 或将 shell 脚本文件拖到终端中并输入
    注意:此脚本写入:(i) 使用 ~/Desktop/GSE126612/filtered-bam 文件夹中的映射读取对 bam 文件运行picard.jar CollectInsertSizeMetrics 函数,以识别插入尺寸分布。(ii) 创建一个文件夹 (~/Desktop/GSE126612/insert-size-distribution) 并将插入尺寸分布分析结果保存到创建的文件夹中。(iii) 在 ~/Desktop/GSE126612/log/insert-size-distribution 文件夹中写下每个输入 bam 文件的日志文件。
  4. 运行完成后,请仔细检查日志文件。如果日志文件中有任何错误消息,请更正错误并尝试再次运行 shell 脚本。如果存在任何问题来解决问题,请使用 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 请求帮助。
    注:通常,CUT&RUN 样品的插入片段大小分析(输出)显示单核体 (100-300 bp) 和双核小体大小范围内的主峰 (300-500 bp)。技术错误/限制(例如 CUT&RUN 样品制备过程中 MNase 的过度/消化不足或文库制备过程中大小选择不当)可能导致富集相同或大于三核小体 (500-700 bp) 和相同或短于亚核小体 (<100 bp) 片段。有时,随着长片段 (>500 bp) 和短片段 (<100 bp) 的富集,单核小体大小峰的缺失可能是由于在湿实验室阶段选择的文库大小选择范围或测序深度低。将测序深度(“总测序碱基数”/“总参考基因组大小”)、第 10 节中使用标准化读取计数 bigWig 文件的基因组景观概述以及插入片段大小分布模式进行比较,以阐明处理的 CUT&RUN 样本的质量。直方图中的虚线表示插入大小大于或等于 x 轴上的值的读取的“累积分数”。此虚线用于识别输入映射读取文件中插入大小的分布。沿 x 轴的进程与刀片尺寸的增加有关。虚线标识输入 bam 文件中映射的读取对的比例,这些读取对的插入大小至少与相交 x 轴位置上指示的大小一样大。因此,解释从左侧的 1 开始,表示所有读取的插入片段大小都大于或等于最小大小,并随着插入片段大小的增加而向 0 减小。

12. 使用 MACS2、MACS3 和 SEACR 调用峰值

  1. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,用户可能会在终端中看到以下内容: /path/to/bash (或类似消息,例如 /bin/bash)。
  2. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash) 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请跳过此步骤。
  3. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_11_peak-calling_MACS.sh 或将 shell 脚本文件拖到终端中并输入
    注意:此脚本编写为:(i) 使用片段 BEDPE 文件运行带和不带 IgG 控制的 macs2 callpeak macs3 callpeak 函数来调用峰值,并将峰值调用结果保存在输出目录(~/Desktop/GSE126612/MACS2 ~/Desktop/GSE126612/MACS3)中。(ii) 将这些峰值调用的日志以文本文件的形式写在日志目录(~/Desktop/GSE126612/log/MACS2 ~/Desktop/GSE126612/log/MACS3)中
  4. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_11_peak-calling_SEACR.sh 或将 shell 脚本文件拖到终端中并输入
    注:此脚本编写为:(i) 运行 SEACR_1.3.sh 有和没有 IgG 对照的脚本,使用原始读数计数 bedGraph 和标准化 bedGraph 文件来调用峰。(ii) 创建输出目录 (~/Desktop/GSE126612/SEACR-peaks) 并保存 SEACR 的峰值调用结果。(iii) 将这些峰值调用的日志以文本文件的形式记在日志目录 (~/Desktop/GSE126612/log/SEACR) 中。
  5. 运行完 shell 脚本后,请仔细检查日志文件。如果日志文件中有任何错误消息,请先更正错误。某些程序可能不会将 IgG 对照样品与 IgG 对照选项的峰一起调用,因此,省略了有关带有 IgG 对照选项的 IgG 对照样品的错误消息。如果存在任何问题来解决问题,请使用 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 请求帮助。
    注:这两个 shell 脚本使用三个峰值调用源(MACS2、MACS3 和 SEACR)对 CUT&RUN 样品执行峰值检出,具有各种选项:带/不带 IgG 控制选项,使用原始读数计数 bedGraph 文件,带峰调用方的标准化选项或标准化读数计数 bedGraph 文件,不带峰调用方的标准化选项,以及严格和宽松的 SEACR 峰值调用选项。由于峰调用输出文件不足以直接用于下游分析,因此 Easy Shells CUTnRUN 包含一个脚本来处理这些调用的峰输出文件,以创建新的峰文件,其中包括染色体、峰的开始、结束和名称。通过密集的峰值调用方法,Easy Shells CUTnRUN 提供了一个机会,通过比较三个峰值调用方的峰值调用来选择最适合用户 CUT&RUN 项目的峰值调用程序。此外,此 CUT&RUN 分析管道还提供了选择最适合用户 CUT&RUN 项目的峰值调用选项的机会。这些比较将通过维恩图完成,并以热图和平均图的形式可视化。

13. 创建称为峰床文件

  1. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,用户可能会在终端中看到以下内容: /path/to/bash (或类似消息,例如 /bin/bash)。
  2. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash) 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请跳过此步骤。
  3. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_12_make-peak-bed.sh 或将 shell 脚本文件拖到终端中并输入
    注意:此脚本编写为:(i) 使用 ~/Desktop/GSE126612/SEACR 文件夹中的 bed 文件运行 awk 函数,以创建两种类型的 SEACR peak bed 文件 ~/Desktop/GSE126612/peak-bed_SEACR 文件夹。整个峰床文件包括每个峰的开始和结束,聚焦峰床文件包括每个峰内最高信号区间的开始和床。(ii) 使用 ~/Desktop/GSE126612/MACS2 ~/Desktop/GSE126612/MACS3 文件夹中的 _peaks.xls 文件运行 awk 函数,以创建完整的峰床文件,其中包括 ~/Desktop/GSE126612/peak-bed_MACS2~/Desktop/GSE126612/peak-bed_MACS3 文件夹中 MACS2 和 MACS3 调用的每个峰的开始和结束。(iii) 使用 ~/Desktop/GSE126612/MACS2 ~/Desktop/GSE126612/MACS3 文件夹中的 _summits.bed 文件运行 awk 函数,以创建聚焦峰床文件,其中包括每个峰中最高有效区间的开始和结束。(iv) 日志文件以文本文件格式写入 ~/Desktop/GSE126612/log/peak-bed 文件夹中。
  4. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_13_filter-peaks.sh 或将 shell 脚本文件拖到终端中并输入
    注:此脚本编写为:(i) 使用称为无 IgG 对照选项的峰床文件运行 bedtools intersect 函数,以去除与 IgG 对照峰重叠的峰。(ii) 过滤后的峰床文件保存在 ~/Desktop/GSE126612/peak-bed-filtered_MACS2、~/Desktop/GSE126612/peak-bed-filtered_MACS3~/Desktop/GSE126612/peak-bed-filtered_SEACR 文件夹中。(iii) 在 ~/Desktop/GSE126612/log/filter-peaks 文件夹中创建一个日志文件log_filter-peaks.txt
  5. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_14_cat-merge-peak-bed_MACS.sh 或将 shell 脚本文件拖到终端中并输入
    注:此脚本编写为:(i) 运行 cat sort 函数,将重复的 MACS2 和 MACS3 整个峰床文件连接为一个峰床文件,并在 ~/Desktop/GSE126612/bed-for-comparison 文件夹中对连接的峰床文件进行排序。(ii) 使用串联的整个峰床文件运行 bedtools 合并 函数,以合并彼此重叠的峰。(iii) 日志文件 log_cat-merged-peak-bed_MACS.txt 写入日志文件夹 ~/Desktop/GSE126612/log/cat-merged-peak-bed
  6. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_14_cat-merge-peak-bed_SEACR.sh 或将 shell 脚本文件拖到终端中并输入
    注意:此脚本编写为:(i) 运行 cat sort 函数,将重复的 SEACR 整个峰床文件连接为一个峰床文件,并在 ~/Desktop/GSE126612/bed-for-comparison 文件夹中对连接的峰床文件进行排序。(ii) 使用串联的整个峰床文件运行 bedtools 合并 函数,以合并彼此重叠的峰。(iii) 日志文件 log_cat-merged-peak-bed_SEACR.txt 写入日志文件夹 ~/Desktop/GSE126612/log/cat-merged-peak-bed
  7. 完成运行 shell 脚本后,请仔细查看日志文件。如果日志文件中有任何错误消息,请更正错误并再次运行脚本。如果存在任何问题来解决问题,请使用 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 请求帮助。
    注意:整个峰区域峰床文件将用作维恩图分析的输入文件,以比较峰调用选项、峰调用方法、重复和峰区域附近基因组景观观察之间的相似性。合并的全峰区域峰床文件将用于使用 deeptools 进行主成分 (PC) 分析和皮尔逊系数相关性分析。聚焦峰床文件将用于使用 Deeptools 进行热图和平均图分析。

14. 使用 Pearson 相关和主成分 (PC) 分析验证重复之间的相似性。

  1. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,用户可能会在终端中看到以下内容: /path/to/bash (或类似消息,例如 /bin/bash)。
  2. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash) 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请跳过此步骤。
  3. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_15_correlation_plotCorrelation.sh 或将 shell 脚本文件拖到终端中并输入
    注意:此脚本编写为:(i) 使用重复的 bam 文件运行 multiBamSummary BED 文件函数,这些文件按坐标排序,并合并了 CTCF、H3K27Ac 和 RNAPII-S5P 的整个峰床文件,以生成用于 Pearson 相关分析的矩阵文件在 Desktop/GSE126612/deeptools_multiBamSummary 文件夹中。(ii) 使用矩阵文件运行 plotCorrelation 函数,进行 Pearson 相关系数计算和热图聚类,并将结果保存在 ~/Desktop/GSE126612/deeptools_plotCorrelation 文件夹中。(iii) 在 ~/Desktop/GSE126612/log/correlation 文件夹中写下log_plotCorrelation.txt日志文件。
  4. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_15_correlation_plotPCA.sh 或将 shell 脚本文件拖到终端中并输入
    注:此脚本编写为:(i) 使用 bam 文件(按坐标排序)和合并的整个峰床文件(包括所有 CTCF、H3K27ac 和 RNAPII-S5P 峰)运行 multiBamSummary BED 文件,以生成 Desktop/GSE126612/deeptools_multiBamSummary 文件夹中用于主成分分析 (PCA) 的矩阵文件。(ii) 使用矩阵文件运行 plotPCA 函数来执行 PCA,并将结果保存在 ~/Desktop/GSE126612/deeptools_plotPCA 文件夹中。(iii) 在 ~/Desktop/GSE126612/log/correlation 文件夹中记下日志文件log_plotPCA.txt
  5. 运行完 shell 脚本后,检查日志文件。如果有任何错误消息,请更正错误并再次运行 shell 脚本。如果存在任何问题来解决问题,请使用 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 请求帮助。
    注:原则上,正确制备和处理的重复在同一聚类组内显示较高的 Pearson 相关系数值,并且在主成分分析中的位置很接近。在主成分图中,任何显示较低 Pearson 相关系数且与其他仿行相距较远的仿行都可能表示仿行中的潜在异常值。此 shell 脚本适用于任何 bam 格式映射读取数据。更改 bigwig 文件的路径和文件名以满足特定于项目的要求。

15. 使用维恩图验证重复、峰检出方法和选项之间的相似性

  1. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,则终端中可能存在类似 /path/to/bash 的内容(例如, /bin/bash)。
  2. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash) 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请考虑跳过此步骤
  3. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_16_venn-diagram_methods.sh 或将 shell 脚本文件拖到终端中并输入
    注:此脚本编写为:(i) 使用整个峰区峰床文件运行干预维恩函数,以查找各种选项(带/不带 IgG 控制选项、带/不带归一化以及 SEACR 的严格/松弛峰调用选项)调用的峰之间的重叠。(ii) 创建一个文件夹 (~/Desktop/GSE126612/intervene_methods) 并将维恩图分析结果保存在此文件夹中。(iii) 在 ~/Desktop/GSE126612/log/intervene 文件夹中写下log_intervene_methods.txt一个日志文件。
  4. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_16_venn-diagram_replicates.sh 或将 shell 脚本文件拖到终端中并输入
    注:此脚本编写为:(i) 使用整个峰区域峰床文件运行干预维恩函数,以查找重复峰之间的重叠。(ii) 创建一个文件夹 (~/Desktop/GSE126612/intervene_replicates) 并将维恩图分析结果保存在此文件夹中。(iii) 在 ~/Desktop/GSE126612/log/intervene 文件夹中写下log_intervene_replicates.txt一个日志文件。
  5. 运行完 shell 脚本后,查看日志文件。如果有任何错误消息,请更正错误并再次运行 shell 脚本。如果在使用 Easy Shells CUTnRUN 分析管道时遇到任何问题,请在 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 中寻求帮助。
    注:这些维恩图分析结果有助于为下游分析选择最合适的峰识别选项、方法和重复样,重现性高。最好选择显示最高调用峰值数的峰值调用选项和方法,并与其他峰值调用方法和选项有很好的重叠。

16. 分析热图和平均图以可视化称为峰值。

  1. 打开终端并键入 echo $SHELL 以检查活动终端中的默认 shell。如果 Bash shell 是当前终端中的默认 shell,则终端中可能存在类似 /path/to/bash 的内容(例如, /bin/bash)。
  2. 如果默认 shell 不是 Bash,请在终端中键入 chsh -s $(which bash) 将 Bash shell 设置为默认 shell。如果终端默认使用 Bash shell,请考虑跳过此步骤
  3. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_27_plotHeatmap_focused.sh 或将 shell 脚本文件拖到终端中并输入
    注意:此脚本编写为:(i) 使用归一化的 bigWig 文件和聚焦峰床文件运行 computeMatrix 参考点函数,以在 ~/Desktop/GSE126612/deeptools_computeMatrix 文件夹中的聚焦峰中心制作归一化 readcount 矩阵。(ii) 使用归一化读取计数矩阵运行 plotHeatmap 函数,以生成热图和平均图,以可视化聚焦峰值位置的标准化读取计数分布模式。(iii) 创建一个文件夹 (~/Desktop/GSE126612/deeptools_plotHeatmap) 并将 plotHeatmap 输出文件保存在该文件夹中。(iv) 在 ~/Desktop/GSE126612/log/plotHeatmap 文件夹中写下log_plotHeatmap_focused.txt一个日志文件。
  4. 在终端中键入 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_27_plotHeatmap_whole.sh 或将 shell 脚本文件拖到终端中并输入
    此脚本编写为:(i) 使用归一化的 bigWig 文件和全峰床文件运行 computeMatrix 参考点函数,在 ~/Desktop/GSE126612/deeptools_computeMatrix 文件夹中的整个峰中心制作归一化 readcount 矩阵。(ii) 使用归一化读取计数矩阵运行 plotHeatmap 函数,生成热图和平均图,以可视化整个峰值位置的标准化读取计数分布模式。(iii) 创建一个文件夹 (~/Desktop/GSE126612/deeptools_plotHeatmap) 并将 plotHeatmap 输出文件保存在该文件夹中。(iv) 在 ~/Desktop/GSE126612/log/plotHeatmap 文件夹中记下log_plotHeatmap_whole.txt一个日志文件。
  5. 运行完 shell 脚本后,查看日志文件。如果有任何错误消息,请更正错误并再次运行 shell 脚本。如果在使用 Easy Shells CUTnRUN 分析管道时遇到任何问题,请在 Easy Shells CUTnRUN github 问题网页 (https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues) 中寻求帮助。
    注:理想情况下,MACS2/3 峰的峰顶位置和 SEACR 峰的聚焦峰位置在图中心表现出尖锐而集中的信号分布。但是,如果峰值调用算法不能正确处理 CUT&RUN 数据,则图中可能会出现不太集中的“噪声”信号分布。因此,使用调用峰的数量和输出图的峰信号分布模式将有助于确定峰效度,以便进一步进行 CUT&RUN 分析,包括下游峰注释。

结果

质量和接头修整保留了具有高测序质量的读长
高通量测序技术容易产生测序错误,例如读长中的序列“突变”。此外,由于文库制备过程中接头去除不良,测序接头二聚体可以在测序数据集中富集。过多的测序错误,例如读取突变、产生的读长短于正确映射所需的读数以及接头二聚体的富集,会增加读取映射时间,并可能产生假阳性映射读数,从而扭曲下...

讨论

绘制染色质上蛋白质占有率的能力是在染色质生物学领域进行机制研究的基础。随着实验室采用新的湿实验室技术来分析染色质,分析这些湿实验室实验的测序数据的能力成为湿实验室科学家的常见瓶颈。因此,我们描述了一个介绍性的分步协议,使生物信息学初学者能够克服分析瓶颈,并启动对他们自己的 CUT&RUN 测序数据的分析和质量控制检查。

...

披露声明

作者声明不披露任何内容。

致谢

所有插图人物均使用 BioRender.com 创建。CAI 感谢通过卵巢癌研究联盟早期职业研究员奖、福贝克基金会加速器赠款和明尼斯托亚卵巢癌联盟国家早期检测研究奖提供的支持。

材料

NameCompanyCatalog NumberComments
bedGraphToBigWigENCODEhttps://hgdownload.soe.ucsc.edu/admin/exe/Software to compress and convert readcounts bedGraph to bigWig
bedtools-2.31.1The Quinlan Lab @ the U. of Utahhttps://bedtools.readthedocs.io/en/latest/index.htmlSoftware to process bam/bed/bedGraph files
bowtie2 2.5.4Johns Hopkins Universityhttps://bowtie-bio.sourceforge.net/bowtie2/index.shtmlSoftware to build bowtie index and perform alignment
CollectInsertSizeMetrics (Picard)Broad institutehttps://github.com/broadinstitute/picardSoftware to perform insert size distribution analysis
CutadaptNBIShttps://cutadapt.readthedocs.io/en/stable/index.htmlSoftware to perform adapter trimming
Deeptoolsv3.5.1Max Planck Institutehttps://deeptools.readthedocs.io/en/develop/index.htmlSoftware to perform Pearson coefficient correlation analysis, Principal component analysis, and Heatmap/average plot analysis
FastQC Version 0.12.0Babraham Bioinformaticshttps://github.com/s-andrews/FastQCSoftware to check quality of fastq file
Intervenev0.6.1Computational Biology & Gene regulation - Mathelier grouphttps://intervene.readthedocs.io/en/latest/index.htmlSoftware to perform venn diagram analysis using peak files
MACSv2.2.9.1Chan Zuckerberg initiativehttps://github.com/macs3-project/MACS/tree/macs_v2Software to call peaks
MACSv3.0.2Chan Zuckerberg initiativehttps://github.com/macs3-project/MACS/tree/masterSoftware to call peaks
Samtools-1.21Wellcome Sanger Institutehttps://github.com/samtools/samtoolsSoftware to process sam/bam files
SEACRv1.3Howard Hughes Medial institutehttps://github.com/FredHutch/SEACRSoftware to call peaks
SRA Toolkit Release 3.1.1NCBIhttps://github.com/ncbi/sra-toolsSoftware to download SRR from GEO
Trim_Galore v0.6.10Babraham Bioinformaticshttps://github.com/FelixKrueger/TrimGaloreSoftware to perform quality and atapter trimming

参考文献

  1. Hainer, S. J., Fazzio, T. G. High-resolution chromatin profiling using CUT&RUN. Curr Protoc Mol Biol. 126 (1), e85 (2019).
  2. Zhang, Y., et al. Model-based analysis of ChiP-Seq (MACS). Genome Biology. 9 (9), R137 (2008).
  3. Xu, S., Grullon, S., Ge, K., Peng, W. . Stem cell transcriptional networks: Methods and Protocols. , (2014).
  4. Meers, M. P., Tenenbaum, D., Henikoff, S. Peak calling by sparse enrichment analysis for cut&run chromatin profiling. Epigenetics Chromatin. 12 (1), 42 (2019).
  5. Ashburner, M., et al. Gene ontology: Tool for the unification of biology. The gene ontology consortium. Nat Genet. 25 (1), 25-29 (2000).
  6. Harris, M. A., et al. The gene ontology (GO) database and informatics resource. Nucleic Acids Res. 32 (Database issue), D258-D261 (2004).
  7. The Gene Ontology Consortium. The gene ontology resource: 20 years and still going strong. Nucleic Acids Res. 47 (D1), D330-D338 (2019).
  8. Conesa, A., et al. Blast2go: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
  9. Carbon, S., et al. AmiGO: Online access to ontology and annotation data. Bioinformatics. 25 (2), 288-289 (2009).
  10. Eden, E., Navon, R., Steinfeld, I., Lipson, D., Yakhini, Z. Gorilla: A tool for discovery and visualization of enriched go terms in ranked gene lists. BMC Bioinformatics. 10, 48 (2009).
  11. Huang Da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
  12. Huang Da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using david bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
  13. Ge, S. X., Jung, D., Yao, R. ShinyGO: A graphical gene-set enrichment tool for animals and plants. Bioinformatics. 36 (8), 2628-2629 (2020).
  14. Tang, D., et al. SRplot: A free online platform for data visualization and graphing. PLoS One. 18 (11), e0294236 (2023).
  15. Ramírez, F., et al. Deeptools2: A next generation web server for deep-sequencing data analysis. Nucleic Acids Res. 44 (W1), W160-W165 (2016).
  16. Robinson, J. T., et al. Integrative genomics viewer. Nat Biotechnol. 29 (1), 24-26 (2011).
  17. Kent, W. J., et al. The human genome browser at ucsc. Genome Res. 12 (6), 996-1006 (2002).
  18. Yu, F., Sankaran, V. G., Yuan, G. -. C. CUT&RUNTools 2.0: A pipeline for single-cell and bulk-level CUT&RUN and CUT&Tag data analysis. Bioinformatics. 38 (1), 252-254 (2021).
  19. Zhu, Q., Liu, N., Orkin, S. H., Yuan, G. -. C. CUT&RUNTools: A flexible pipeline for CUT&RUN processing and footprint analysis. Genome Biol. 20 (1), 192 (2019).
  20. . Nf-core/cutandrun: Nf-core/cutandrun v3.2.2 iridium ibis Available from: https://github.com/nf-core/cutandrun/tree/3.2.2 (2024)
  21. Kong, N. R., Chai, L., Tenen, D. G., Bassal, M. A. A modified CUT&RUN protocol and analysis pipeline to identify transcription factor binding sites in human cell lines. STAR Protoc. 2 (3), 100750 (2021).
  22. Meers, M. P., Bryson, T. D., Henikoff, J. G., Henikoff, S. Improved CUT&RUN chromatin profiling tools. eLife. 8, e46314 (2019).
  23. Amemiya, H. M., Kundaje, A., Boyle, A. P. The encode blacklist: Identification of problematic regions of the genome. Sci Rep. 9 (1), 9354 (2019).
  24. Deberardine, M. BRgenomics for analyzing high-resolution genomics data in R. Bioinformatics. 39 (6), btad331 (2023).
  25. Deberardine, M., Booth, G. T., Versluis, P. P., Lis, J. T. The nelf pausing checkpoint mediates the functional divergence of cdk9. Nat Commun. 14 (1), 2762 (2023).
  26. Krueger, F., James, F. O., Ewels, P. A., Afyounian, E., Schuster-Boeckler, B. . FelixKrueger/TrimGalore: v0.6.7 - DOI via Zenodo. , (2021).
  27. . Easy bam downsampling Available from: https://davemcg.github.io/post/easy-bam-downsampling/ (2018)
  28. . Positionbaseddownsamplesam (picard) Available from: https://gatk.broadinstitute.org/hc/en-us/articles/360041850311-PositionBasedDownsampleSam-Picard (2020)

转载和许可

请求许可使用此 JoVE 文章的文本或图形

请求许可

探索更多文章

Genetics 214 CUT RUN DNA

This article has been published

Video Coming Soon

JoVE Logo

政策

使用条款

隐私

科研

教育

关于 JoVE

版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。