CUT&#38;RUN 염기서열분석 데이터의 입문 분석 및 검증

Junwoo Lee; Biji Chatterjee; Nakyung Oh; Dhurjhoti Saha; Yue Lu; Blaine Bartholomew; Charles A. Ishak

doi:10.3791/67359

JoVE 비디오를 활용하시려면 도서관을 통한 기관 구독이 필요합니다. 전체 비디오를 보시려면 로그인하거나 무료 트라이얼을 시작하세요.

기사 소개

요약
초록
서문
프로토콜
결과
토론
공개
감사의 말
자료
참고문헌
재인쇄 및 허가

요약

이 프로토콜은 사용자가 CUT&RUN 염기서열분석 데이터의 초기 분석 및 검증을 완료할 수 있도록 하는 입문용 CUT&RUN 분석 파이프라인을 통해 생물정보학 초보자를 안내합니다. 여기에 설명된 분석 단계를 다운스트림 피크 주석과 함께 완료하면 사용자는 크로마틴 조절에 대한 기계론적 통찰력을 얻을 수 있습니다.

초록

CUT&RUN 기법은 게놈 전반에서 단백질-DNA 상호 작용의 검출을 용이하게 합니다. CUT&RUN의 일반적인 응용 분야에는 히스톤 꼬리 변형의 변화를 프로파일링하거나 전사 인자 크로마틴 점유를 매핑하는 것이 포함됩니다. CUT&RUN의 광범위한 채택은 부분적으로 기존 ChIP-seq에 비해 낮은 세포 입력 요구 사항, 더 낮은 염기서열 분석 깊이 요구 사항, 항체 에피토프를 마스킹하는 가교 결합제의 부족으로 인한 배경 신호 감소로 인한 민감도 증가 등의 기술적 이점에 의해 주도됩니다. CUT&RUN의 광범위한 채택은 Henikoff 실험실의 관대한 시약 공유와 초보자를 위한 채택을 가속화하기 위한 상용 키트 개발을 통해 달성되었습니다. CUT&RUN의 기술 채택이 증가함에 따라 CUT&RUN 염기서열분석 분석 및 검증은 주로 습식 실험실 팀에서 완전히 채택할 수 있도록 극복해야 하는 중요한 병목 현상이 되고 있습니다. CUT&RUN 분석은 일반적으로 염기서열분석 깊이, 판독 품질 및 잠재적 바이어스를 평가하기 위해 원시 염기서열분석 판독에 대한 품질 관리 검사로 시작됩니다. 그런 다음 판독을 참조 게놈 염기서열 어셈블리에 정렬하고, 이후 여러 생물정보학 도구를 사용하여 단백질 농축의 게놈 영역에 주석을 달고, 데이터 해석 가능성을 확인하고, 생물학적 결론을 도출합니다. CUT&RUN 데이터 분석을 지원하기 위해 여러 인실리코(in silico ) 분석 파이프라인이 개발되었지만, 복잡한 다중 모듈 구조와 여러 프로그래밍 언어의 사용으로 인해 여러 프로그래밍 언어에 익숙하지 않을 수 있지만 CUT&RUN 분석 절차를 이해하고 분석 파이프라인을 사용자 정의하려는 생물정보학 초보자에게는 플랫폼이 어렵습니다. 여기에서는 모든 수준의 생물정보학 경험이 있는 사용자를 위해 설계된 단일 언어 단계별 CUT&RUN 분석 파이프라인 프로토콜을 제공합니다. 이 프로토콜에는 염기서열분석 데이터가 생물학적 해석에 적합한지 검증하기 위한 중요한 품질 검사를 완료하는 것이 포함됩니다. 이 기사에서 제공하는 소개 프로토콜을 따르면 다운스트림 피크 주석과 함께 사용자가 자신의 CUT&RUN 데이터 세트에서 생물학적 통찰력을 얻을 수 있을 것으로 기대합니다.

서문

단백질과 게놈 DNA 간의 상호 작용을 측정하는 능력은 염색질 조절의 생물학을 이해하는 데 필수적입니다. 주어진 단백질에 대한 염색질 점유율을 측정하는 효과적인 분석은 적어도 두 가지 핵심 정보, 즉 i) 게놈 국소화 및 ii) 주어진 게놈 영역에서의 단백질 풍부도를 제공합니다. 크로마틴에서 관심 있는 단백질의 모집 및 국소화 변화를 추적하면 단백질의 직접적인 표적 위치를 밝히고 전사 조절, DNA 복구 또는 DNA 복제와 같은 크로마틴 기반 생물학적 과정에서 해당 단백질의 기계론적 역할을 밝힐 수 있습니다. 오늘날 단백질-DNA 상호 작용을 프로파일링하는 데 사용할 수 있는 기술을 통해 연구자들은 전례 없는 해상도로 조절을 탐구할 수 있습니다. 이러한 기술적 진보는 Henikoff 실험실의 CUT&RUN(Cleavage Under Targets and Release Using Nuclease) 개발을 포함한 새로운 염색질 프로파일링 기술의 도입을 통해 가능해졌습니다. CUT&RUN은 기존 크로마틴 면역침전(ChIP)에 비해 세포 입력 요구 사항이 낮고, 염기서열 분석 깊이 요구 사항이 낮으며, 항체 에피토프를 마스킹하는 가교 작용제의 부족으로 인한 배경 신호 감소로 감도가 높아지는 등 여러 가지 기술적 이점을 제공합니다. 염색질 조절을 연구하기 위해 이 기법을 채택하려면 기법의 기본 원리에 대한 철저한 이해와 CUT&RUN 데이터를 분석, 검증 및 해석하는 방법에 대한 이해가 필요합니다.

CUT&RUN 절차는 마그네틱 비드에 접합된 Concanavalin A에 세포를 결합하는 것으로 시작하여 절차 전반에 걸쳐 낮은 세포 수를 조작할 수 있습니다. 분리된 세포는 관심 단백질을 표적으로 하는 항체의 도입을 용이하게 하기 위해 중성 세제를 사용하여 투과화됩니다. 그런 다음 미세구균 뉴클레아제(MNase)를 효소에 연결된 단백질 A 또는 단백질 A/G 태그를 사용하여 결합된 항체에 모집합니다. 칼슘은 효소 활동을 시작하기 위해 도입됩니다. MNase 분해는 단일 뉴클레오솜 DNA-단백질 복합체를 생성합니다. 그런 다음 칼슘을 킬레이트화하여 분해 반응을 종료하고, MNase 분해에서 짧은 DNA 단편을 핵에서 방출한 다음 DNA 정제, 라이브러리 준비 및 고처리량 염기서열분석¹ 을 거칩니다(그림 1).

게놈 전반에 걸쳐 단백질 점유율을 매핑하고 정량화하는 인실리코(in silico) 접근법은 이러한 DNA-단백질 상호 작용을 강화하는 데 사용되는 습식 실험실 접근법과 병행하여 개발되었습니다. 풍부한 신호(피크) 영역을 식별하는 것은 생물정보학 분석에서 가장 중요한 단계 중 하나입니다. 초기 ChIP-seq 분석 방법은 MACS² 및 SICER³과 같은 알고리즘을 사용했으며, 이는 실제 단백질-DNA 결합 부위를 배경 잡음과 구별하기 위해 통계 모델을 사용했습니다. 그러나 CUT&RUN 데이터의 낮은 배경 노이즈와 높은 해상도로 인해 ChIP-seq 분석에 사용되는 일부 피크 호출 프로그램은 CUT&RUN 분석⁴에 적합하지 않습니다. 이 과제는 CUT&RUN 데이터 분석에 더 적합한 새로운 도구의 필요성을 강조합니다. SEACR⁴는 ChIP-seq 분석에 일반적으로 사용되는 도구와 관련된 제한 사항을 극복하면서 CUT&RUN 데이터에서 피크 호출을 가능하게 하기 위해 최근에 개발된 도구 중 하나입니다.

CUT&RUN 염기서열분석 데이터의 생물학적 해석은 분석 파이프라인의 피크 호출 다운스트림 출력에서 도출됩니다. CUT&RUN 데이터에서 호출된 피크의 잠재적인 생물학적 관련성을 예측하기 위해 여러 기능 주석 프로그램을 구현할 수 있습니다. 예를 들어, 유전자 온톨로지(Gene Ontology, GO) 프로젝트는 관심 유전자 ^5,6,7에 대한 잘 정립된 기능적 식별을 제공한다. 다양한 소프트웨어 도구 및 리소스를 통해 GO 분석을 용이하게 하여 CUT&RUN 피크 8,9,10,11,12,13,14 사이에 풍부한 유전자 및 유전자 세트를 밝힐 수 있습니다. 또한 Deeptools¹⁵, IGV(Integrative genomics viewer)¹⁶ 및 UCSC Genome^{Browser 17}과 같은 시각화 소프트웨어를 사용하면 게놈 전체의 관심 영역에서 신호 분포 및 패턴을 시각화할 수 있습니다.

CUT&RUN 데이터에서 생물학적 해석을 도출할 수 있는 능력은 데이터 품질의 검증에 크게 좌우됩니다. 검증해야 할 중요한 구성 요소에는 i) CUT&RUN 라이브러리 염기서열분석 품질, ii) 복제 유사성, iii) 피크 중심에서의 신호 분포 평가가 포함됩니다. 세 가지 구성 요소 모두의 검증을 완료하는 것은 CUT&RUN 라이브러리 샘플 및 다운스트림 분석 결과의 신뢰성을 보장하는 데 매우 중요합니다. 따라서 생물정보학 초보자 및 습식 실험실 연구원이 표준 CUT&RUN 분석 파이프라인의 일부로 이러한 검증 단계를 수행할 수 있도록 입문용 CUT&RUN 분석 가이드를 수립하는 것이 중요합니다.

습식 실험실 CUT&RUN 실험의 개발과 함께 CUT&RUNTools 2.0^18,19, nf-core/cutandrun²⁰ 및 CnRAP²¹과 같은 다양한 인실리코 CUT&RUN 분석 파이프라인이 개발되어 CUT&RUN 데이터 분석을 지원합니다. 이러한 도구는 단일 셀 및 대량 CUT&RUN 및 CUT&Tag 데이터 세트를 분석하는 강력한 접근 방식을 제공합니다. 그러나 상대적으로 복잡한 모듈식 프로그램 구조와 이러한 분석 파이프라인을 수행하기 위해 여러 프로그래밍 언어에 대한 친숙함이 필요하기 때문에 CUT&RUN 분석 단계를 철저히 이해하고 자체 파이프라인을 사용자 정의하려는 생물정보학 초보자의 채택을 방해할 수 있습니다. 이 장벽을 우회하려면 간단한 단일 프로그래밍 언어를 사용하여 인코딩된 간단한 단계별 스크립트로 제공되는 새로운 입문용 CUT&RUN 분석 파이프라인이 필요합니다.

이 기사에서는 신규 및 초보 사용자가 CUT&RUN 염기서열분석 분석을 수행할 수 있도록 자세한 설명과 함께 지원되는 단계별 스크립트를 제공하는 간단한 단일 언어 CUT&RUN 분석 파이프라인 프로토콜에 대해 설명합니다. 이 파이프라인에 사용된 프로그램은 원래 개발자 그룹에서 공개적으로 사용할 수 있습니다. 이 프로토콜에 설명된 주요 단계에는 판독 정렬, 피크 호출, 기능 분석, 그리고 가장 중요하게는 생물학적 해석에 대한 데이터 적합성과 신뢰성을 결정하기 위해 시료 품질을 평가하는 검증 단계가 포함됩니다(그림 2). 또한 이 파이프라인은 사용자에게 공개적으로 사용 가능한 CUT&RUN 데이터 세트와 비교하여 분석 결과를 상호 참조할 수 있는 기회를 제공합니다. 궁극적으로 이 CUT&RUN 분석 파이프라인 프로토콜은 생물정보학 분석 초보자와 습식 실험실 연구원을 위한 입문 가이드 및 참조 역할을 합니다.

Access restricted. Please log in or start a trial to view this content.

프로토콜

참고: CUT&RUN fastq 파일에 대한 정보 files GSE126612 표 1에서 확인할 수 있습니다. 이 연구에 사용된 소프트웨어 응용 프로그램과 관련된 정보는 자료 표에 나열되어 있습니다.

1. Github 페이지에서 Easy-Shells_CUTnRUN 파이프라인 다운로드

운영 체제에서 터미널을 엽니다.
참고: 사용자가 macOS 및 Windows에서 터미널을 여는 방법을 잘 모르는 경우 이 웹 페이지(https://discovery.cs.illinois.edu/guides/System-Setup/terminal/)를 검토하십시오. Linux의 경우 이 웹 페이지(https://www.geeksforgeeks.org/how-to-open-terminal-in-linux/)를 검토하세요.
터미널에 wget https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/archive/refs/heads/main.zip -O ~/Desktop/Easy-Shells_CUTnRUN.zip를 입력하여 Github에서 압축된 분석 파이프라인을 다운로드합니다.
zip 파일을 다운로드한 후 터미널에 unzip ~/Desktop/Easy-Shells_CUTnRUN.zip -d ~/Desktop/을 입력하여 다운로드한 zip 파일의 압축을 풉니다.
압축을 푼 후 터미널에 rm ~/Desktop/Easy-Shells_CUTnRUN.zip 를 입력하여 zip 파일을 삭제하고 mv ~/Desktop/Easy-Shells_CUTnRUN-master ~/Desktop/Easy-Shells_CUTnRUN를 입력하여 폴더 이름을 변경합니다.
압축된 파일을 제거한 후 터미널에 chmod +x ~/Desktop/Easy-Shells_CUTnRUN/script/*.sh 를 입력하여 작업 디렉토리 내의 모든 쉘 스크립트에 대한 실행 권한을 설정합니다. 이제부터는 터미널에 이러한 쉘 스크립트의 경로와 이름을 입력하거나 스크립트를 터미널로 드래그하고 Enter 키를 눌러 터미널에서 이러한 쉘 스크립트를 실행하십시오.
참고: Bash 셸은 일반적으로 대부분의 Linux 배포판에 사전 설치되어 있습니다. 그러나 최신 macOS 버전은 더 이상 사전 설치된 Bash 셸을 제공하지 않습니다. 시스템에 Bash가 없는 경우 먼저 Bash 셸을 설치합니다. Linux OS(https://ioflood.com/blog/install-bash-shell-linux/) 및 macOS(https://www.cs.cornell.edu/courses/cs2043/2024sp/styled-3/#:~:text=The%20first%20thing%20you%20will,you%20will%20see%20the%20following:)에 Bash 셸을 설치하는 방법을 설명하는 지침은 아래 링크를 참조하십시오. 이 단계별 쉘 스크립트는 ~/Desktop/GSE126612 하나의 폴더를 생성하여 수정할 필요 없이 이 디렉토리 내에서 대부분의 CUT&RUN 분석을 수행하도록 작성되었습니다. 사용자가 이러한 셸 스크립트의 사용 방법을 이해하면 사용자는 이러한 셸 스크립트를 수정하고 사용자 정의하여 다른 CUT&RUN 데이터 세트를 분석하고 프로젝트별 요구 사항에 따라 옵션을 수정할 수 있습니다. 이러한 셸 스크립트를 읽고 편집하려면 주요 운영 체제에서 사용할 수 있는 사용하기 쉬운 프로그램의 한 가지 옵션으로 https://code.visualstudio.com/(Visual Studio Code)를 사용하는 것이 좋습니다.

2. Easy Shells CUTnRUN에 필요한 프로그램 설치

이름이 Script_01_installation_***.sh인 쉘 스크립트 중에서 사용자 시스템의 운영 체제 유형이 포함된 이름의 쉘 스크립트를 찾으십시오. 현재 Easy Shells CUTnRUN은 macOS, Debian/Ubuntu 및 CentOS/RPM 기반 시스템용 설치 스크립트를 지원합니다.
터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에서 /path/to/bash (또는 /bin/bash와 같은 유사한 메시지)를 볼 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 chsh -s $(which bash) 를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널이 기본적으로 Bash 셸을 사용하는 경우 이 단계를 건너뜁니다.
터미널에서 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_01_installation_***.sh 를 입력하여 설치 셸 스크립트를 작동하거나 셸 스크립트 파일을 터미널로 드래그하여 입력합니다.
/path/to/SEACR-1.3/Testfiles 폴더에서 Test_README.md 파일을 읽습니다. README 파일의 지침에 따라 사용자 시스템의 SEACR이 제대로 작동하는지 확인하십시오.
참고: CUT&RUN 데이터에서 적절한 피크 호출 결과를 얻으려면 SEACR Github 페이지에서 제공하는 테스트 파일로 SEACR 기능을 검증하는 것이 중요합니다. 따라서 SEACR 설치 직후 /path/to/SEACR-1.3/Testfiles 의 Test_README.md 지침을 따르십시오. Easy Shells CUTnRUN은 일부 운영 체제에 대한 설치 셸 스크립트를 제공하지만 일부 사용자의 시스템에서는 Easy Shells CUTnRUN에 필요한 모든 프로그램을 설치하는 데 이러한 스크립트가 작동하지 않을 수 있습니다. 설치에 문제가 있는 경우 제거된 프로그램의 원래 웹 사이트를 검토하거나 Easy Shells CUTnRUN github 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)를 사용하여 지원을 요청하십시오.

3. SRA(Sequence Read Archive)에서 공개적으로 사용 가능한 CUT&RUN 데이터 세트 다운로드

터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에서 /path/to/bash (또는 /bin/bash와 같은 유사한 메시지)를 볼 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 chsh -s $(which bash) 를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널이 기본적으로 Bash 셸을 사용하는 경우 이 단계를 건너뜁니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_02_download-fastq.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) 하나의 폴더(~/Desktop/GSE126612/fastq)를 만들고 fastq 폴더 내에 텍스트 파일(~/Desktop/Easy-Shells_CUTnRUN/sample_info/SRR_list.txt)로 작성된 SRA 파일 목록을 다운로드합니다. 예를 들어, SRR_list.txt에는 GSE126612 CUT&RUN 샘플의 하위 집합에 대한 fastq 파일이 포함되어 있습니다. (ii) fastq 폴더 내에서 원시 fastq 파일을 다운로드합니다. (iii) 하나의 폴더(~/Desktop/GSE126612/log/fastq)를 만들고 이 로그 폴더 내에 로그 파일(download-fastq_log.txt)과 다운로드한 샘플 정보 파일(SRR_list_info.txt)을 기록합니다.
스크립트를 실행한 후 로그 파일을 확인합니다. 로그 파일에 오류 메시지가 있는 경우 오류를 수정하고 3.3단계를 다시 시도합니다. 문제를 해결하는 데 문제가 있는 경우 Easy Shells CUTnRUN github 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)에서 도움을 요청하십시오.
참고: 이 CUT&RUN 분석 파이프라인의 실습을 용이하게 하기 위해 SRA에서 공개적으로 사용 가능한 샘플이 검색됩니다: 모의 대조군(IgG)의 샘플 1개, 염색질 구조 및 전사 인자 단백질(CTCF) 샘플 3개, '활성' 히스톤 마크(H3K27Ac)에 해당하는 샘플 4개, RNA 중합효소 II(RNAPII-S5P)로 표시된 전사 시작 영역에 해당하는 샘플 3개. 염기서열분석은 paired-end로 수행되었으므로 샘플당 두 개의 파일이 쌍을 이룹니다.

4. raw sequencing 파일에 대한 초기 품질 검사

터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에서 /path/to/bash (또는 /bin/bash와 같은 유사한 메시지)를 볼 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 chsh -s $(which bash) 를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널이 기본적으로 Bash 셸을 사용하는 경우 이 단계를 건너뜁니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_03_fastQC.sh 를 입력하거나 쉘 스크립트를 터미널로 드래그하여 입력합니다.
참고: 이 쉘 스크립트는 (i) ~/Desktop/GSE126612/fastq 폴더의 모든 원시 fastq 파일에 대해 FastQC 프로그램을 실행하고 품질 검사 보고서 파일을 ~/Desktop/GSE126612/fastqc.1st 폴더에 저장합니다. (ii) FastQC 실행당 로그 파일(fastqc.1st.log.SRR-number.txt)을 로그 폴더(~/Desktop/GSE126612/log/fastqc.1st)에 기록합니다.
셸 스크립트 실행을 완료한 후 로그 파일을 검토하여 실행의 성공 여부를 확인합니다. 로그 파일에 오류 메시지가 있는 경우 오류를 수정하고 4.3단계를 반복합니다. 문제를 해결하는 데 문제가 있는 경우 Easy Shells CUTnRUN GitHub 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)를 사용하여 지원을 요청하십시오.
참고: 출력 파일 중 fastqc.html 파일에는 사용자 친화적인 품질 검사 결과가 포함되어 있습니다. 심각한 품질 문제가 있는 경우 생물정보학 동료와 논의하여 다운스트림 분석에 대한 데이터 적합성을 결정합니다. 어댑터 트리밍 후 향상된 데이터 품질을 확인하기 위해 유사한 품질 관리 보고서가 사용됩니다. 다른 데이터 세트에 대해 이 스크립트를 사용하려면 사용자의 요구에 맞게 작업 및 출력 디렉터리의 경로를 편집합니다. ChIP-seq 판독과 비교하여 CUT&RUN의 QC를 해석할 때 주목할 만한 차이점은 CUT&RUN의 중복 판독이 반드시 PCR 중복을 나타내는 것은 아니라는 것입니다. 이는 모집된 MNase가 실험 그룹 내에서 동일하거나 유사한 위치에서 소화되기 때문입니다.

5. 원시 염기서열분석 파일에 대한 품질 및 어댑터 트리밍

터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에서 /path/to/bash (또는 /bin/bash와 같은 유사한 메시지)를 볼 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 chsh -s $(which bash) 를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널이 기본적으로 Bash 셸을 사용하는 경우 이 단계를 건너뜁니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_04_trimming.sh 를 입력하거나 Script_04_trimming.sh 스크립트를 터미널로 드래그하여 입력합니다.
참고: 이 쉘 스크립트는 (i) ~/Desktop/GSE126612/fastq 의 모든 원시 fastq 파일에 대해 Trim-Galore 프로그램을 실행하여 어댑터 및 품질 트리밍을 수행합니다. (ii) 하나의 폴더(~/Desktop/GSE126612/trimmed)를 만들고 trimmed 폴더 내에 Trim-Galore 출력 파일을 저장합니다. (iii) 하나의 로그 폴더(~/Desktop/GSE126612/log/trim_galore)를 만들고 Trim-Galore 실행당 trim_galore_log_RSS-number.txt 로그 파일을 기록합니다.
실행이 완료된 후 로그 파일을 주의 깊게 검토합니다. 로그 파일에 오류 메시지가 있는 경우 오류를 수정하고 5.3단계를 반복합니다. 문제를 해결하는 데 문제가 있는 경우 Easy Shells CUTnRUN GitHub 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)를 사용하여 지원을 요청하십시오.
이 프로세스를 완료한 후 .html 출력 파일을 4.3에서 생성된 fastqc.html 파일과 비교합니다. 입력 및 출력 디렉토리의 경로를 수정하여 다른 위치에 있는 fastq 파일에 대한 트리밍 단계를 수행합니다.

6. 실제 및 스파이크인 대조군 샘플에 대한 참조 게놈에 대한 bowtie2 인덱스 다운로드

터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에서 /path/to/bash (또는 /bin/bash와 같은 유사한 메시지)를 볼 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 chsh -s $(which bash) 를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널이 기본적으로 Bash 셸을 사용하는 경우 이 단계를 건너뜁니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_05_bowtie2-index.sh 를 입력하거나 셸 스크립트를 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) 실제 샘플 참조 게놈(인간; hg19, 원래 출판물²²에서 사용됨) 및 Spike-in control 참조 게놈(신진 효모; R64-1-1)을 bowtie2-index 폴더(~/Desktop/Easy-Shells_CUTnRUN/bowtie2-index)에 넣습니다. (iii) 로그 파일(bowtie2-index-log.txt)을 로그 디렉토리(~/Desktop/GSE126612/log/bowtie2-index)에 기록합니다.
실행이 완료되면 로그 파일을 확인합니다. 오류 메시지가 있는 경우 오류를 수정하고 6.3단계를 반복합니다. 문제를 해결하는 데 문제가 있는 경우 Easy Shells CUTnRUN GitHub 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)를 사용하여 지원을 요청하십시오.
참고: 현재 다양한 참조 게놈에 대한 Bowtie2 인덱스는 Bowtie2 웹사이트(https://bowtie-bio.sourceforge.net/bowtie2/manual.shtml)에서 제공됩니다. 사용자는 Script_05_bowtie2-index.sh 편집하여 사용자의 요구 사항에 맞게 Bowtie2 인덱스를 다운로드할 수 있습니다. 사용자가 관심 있는 참조 게놈의 Bowtie2 인덱스를 찾을 수 없는 경우 다음에서 참조 게놈 염기서열 fasta 파일을 찾습니다.
1. Ensembl ftp (https://ftp.ensembl.org/pub/current_fasta/)
2. UCSC 웹 페이지(https://hgdownload.soe.ucsc.edu/downloads.html)
3. 또는 다른 종 특이적 데이터베이스.
  참조 게놈 염기서열 fasta 파일을 찾은 후 Bowtie2 웹 사이트의 "bowtie2-build indexer" 섹션(https://bowtie-bio.sourceforge.net/bowtie2/manual.shtml#the-bowtie2-build-indexer)에 따라 다운로드한 참조 게놈에 대한 Bowtie2 인덱스를 만듭니다.

7. 트리밍된 CUT&RUN 염기서열분석 판독을 참조 게놈에 매핑

터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에서 /path/to/bash (또는 /bin/bash와 같은 유사한 메시지)를 볼 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 chsh -s $(which bash) 를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널이 기본적으로 Bash 셸을 사용하는 경우 이 단계를 건너뜁니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_06_bowtie2-mapping.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 쉘 스크립트는 (1) bowtie2 프로그램을 실행하여 모든 어댑터 및 품질 트리밍된 fastq 파일을 실험적(인간, hg19) 및 스파이크인 제어(신진 효모; R64-1-1)은 게놈을 독립적으로 참조합니다. (ii) samtools view 기능을 실행하여 매핑된 읽기 쌍 파일을 bam 형식으로 압축합니다. (iii) 하나의 폴더(~/Desktop/GSE126612/bowtie2-mapped)를 만들고 압축된 매핑된 읽기 쌍 파일을 bowtie2-mapped 폴더 내에 저장합니다. (iv) 하나의 폴더(~/Desktop/GSE126612/log/bowtie2-mapped)를 만들고 매핑 프로세스의 로그를 텍스트 파일로 기록하고, hg19 참조 게놈에 매핑된 읽기 쌍의 경우 bowtie2_log_hg19_SRR-number.txt , R64-1-1에 매핑된 읽기 쌍의 경우 bowtie2_log_R64-1-1_SRR-number.txt )하여 bowtie2-mapping 로그 폴더 내에서 매핑 효율성을 나타냅니다.
실행이 완료되면 로그 파일을 확인합니다. 로그 파일에 오류 메시지가 있는 경우 오류를 수정하고 셸 스크립트를 다시 실행합니다. 문제를 해결하는 데 문제가 있는 경우 Easy Shells CUTnRUN GitHub 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)를 사용하여 지원을 요청하십시오.
참고: 이 쉘 스크립트는 10 bp-700 bp 프래그먼트 길이로 일치하게 매핑된 읽기 쌍을 찾기 위해 paired-end sequencing 파일을 매핑하는 옵션과 함께 bowtie2를 실행합니다. 터미널에 bowtie2 --help 를 입력하거나 bowtie2 웹 사이트(https://bowtie-bio.sourceforge.net/bowtie2/manual.shtml#the-bowtie2-aligner)를 방문하여 옵션 설명을 확인하고 필요에 따라 옵션을 변경합니다. 이 셸 스크립트를 사용하여 fastq 파일 및 Bowtie2 인덱스의 경로 및 이름 형식을 변경하여 다른 fastq 파일을 매핑합니다.

8. 매핑된 읽기 쌍 파일 정렬 및 필터링

터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에서 /path/to/bash (또는 /bin/bash와 같은 유사한 메시지)를 볼 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 "chsh -s $(which bash)"를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널이 기본적으로 Bash 셸을 사용하는 경우 이 단계를 건너뜁니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_07_filter-sort-bam.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) ~/Desktop/GSE126612/bowtie2-mapped 폴더의 모든 압축된 매핑된 읽기 쌍 파일에 대해 samtools 보기 기능을 실행하여 비표준 염색체 영역, 공개적으로 주석이 달린 블랙리스트 및 TA 반복 영역에서 매핑된 읽기 쌍을 필터링합니다. (ii) samtools sort 기능을 실행하여 필터링된 bam 파일을 동일한 디렉토리 내에서 조각의 이름 또는 좌표별로 정렬합니다. (iii) ~/Desktop/GSE126612/log/filter-sort-bam 디렉토리에 입력 bam 파일당 로그 파일을 기록합니다.
실행이 완료된 후 로그 파일을 주의 깊게 검토합니다. 로그 파일에 오류 메시지가 있는 경우 오류를 수정하고 셸 스크립트를 다시 실행해 보십시오. 문제를 해결하는 데 문제가 있는 경우 Easy Shells CUTnRUN GitHub 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)를 사용하여 지원을 요청하십시오.
참고: 프래그먼트 이름별로 정렬된 결과 bam 파일(출력)은 프래그먼트 BED 및 원시 readcounts bedGraph 파일을 생성하기 위한 입력 파일 역할을 합니다. 좌표별로 정렬된 bam 파일은 조각 BEDPE 파일을 생성하기 위한 입력 파일 역할을 합니다. 모든 BED, bedGraph 및 BEDPE는 다운스트림 분석에서 피크 호출 및 시각화에 사용됩니다. 표준 염색체 영역(chr1~22, chrX, chrY 및 chrM), 공개적으로 주석이 달린 블랙리스트 영역(²³ ) 및 TA 반복 영역⁽¹⁸ )에 대한 모든 주석 베드 파일은 ~/Desktop/Easy-Shells_CUTnRUN/blacklist 디렉토리에 있습니다. 필요한 경우 이 디렉토리를 사용하여 추가 블랙리스트 파일을 추가합니다. 이 쉘 스크립트를 사용하여 bam 파일의 경로와 이름을 변경하여 다른 매핑된 읽기 쌍 bam 파일에 대해 동일한 기능을 수행합니다. 이러한 기능에 대한 자세한 설명을 보려면 터미널에 samtools view --help 및 samtools sort --help 를 입력하십시오.

9. 매핑된 읽기 쌍을 단편 BEDPE, BED 및 원시 readcounts bedGraph 파일로 변환

터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에서 /path/to/bash (또는 /bin/bash와 같은 유사한 메시지)를 볼 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 chsh -s $(which bash) 를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널이 기본적으로 Bash 셸을 사용하는 경우 이 단계를 건너뜁니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_08_bam-to-BEDPE-BED-bedGraph.sh 를 입력하거나 셸 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) macs3 filterdup 및 awk 함수를 실행하여 좌표별로 정렬된 bam 파일을 프래그먼트 길이가 1kb보다 짧은 프래그먼트 BEDPE 파일로 변환하고 BEDPE 파일을 ~/Desktop/GSE126612/BEDPE에 저장합니다. (ii) 로그 디렉토리(~/Desktop/GSE126612/log/bam-to-BEDPE)를 만들고 매핑된 읽기 프래그먼트 파일당 로그 파일을 기록합니다. (iii) bedtools bamtobed 및 awk, cut, sort 기능을 실행하여 조각 이름별로 정렬된 bam 파일을 조각 길이가 1kb 미만인 조각 BED 파일로 변환합니다. (iv) 하나의 폴더(~/Desktop/GSE126612/bam-to-bed)를 만들고 bam-to-bed 폴더 내에 조각 BED 파일을 저장합니다. (v) 매핑된 읽기 조각 BED 파일당 로그 파일을 로그 디렉토리(~/Desktop/GSE126612/log/bam-to-bed)에 기록합니다. (vi) bedtools genomecov 기능을 실행하여 하나의 폴더(~/Desktop/GSE126612/bedGraph)에 있는 단편 BED 파일을 사용하여 원시 판독 수 bedGraph 파일을 생성합니다.
실행이 완료된 후 로그 파일을 주의 깊게 확인합니다. 문제를 해결하는 데 문제가 있는 경우 Easy Shells CUTnRUN GitHub 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)를 사용하여 지원을 요청하십시오.
참고: 출력 원시 판독 수 bedGraph 파일은 섹션 12의 정규화 옵션 및 섹션 10의 SFRC(Scaled Fractional Readcount) 정규화²²를 사용하여 SEACR 피크 호출자 프로그램의 입력 파일로 사용됩니다. 단편 BED 파일은 섹션 SRPMC(negative Control) 정규화^24,25에서 Spike-in normalized Reads Per Million 매핑된 읽기에 대한 입력 파일 역할을 10.To 염색질 관련 인자의 CUT&RUN 데이터에 대해서만 짧은 단편(>100bp)을 캡처하고 이 스크립트에서 단편 여과 단계를 변경하고 정규화 단계를 진행합니다. 동일한 샘플 내에서 짧은 크기의 단편과 일반 크기의 단편 간의 CUT&RUN 신호를 비교하기 위해 SFRC 정규화는 짧은 단편만 캡처하여 발생할 수 있는 다운 샘플링 효과를 줄이는 데 도움이 될 수 있습니다. 이 쉘 스크립트를 사용하여 bam 및 bed 파일의 경로 및 이름 형식을 변경하여 다른 paired-end sequenced sorted bam 파일에 대해 동일한 프로세스를 수행할 수 있습니다.

10. 원시 readcounts bedGraph 파일을 정규화된 bedGraph 및 bigWig 파일로 변환

터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에서 /path/to/bash (또는 /bin/bash와 같은 유사한 메시지)를 볼 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 chsh -s $(which bash) 를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널이 기본적으로 Bash 셸을 사용하는 경우 이 단계를 건너뜁니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_09_normalization_SFRC.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고 :이 스크립트는 (i) ~/Desktop/GSE126612/bedGraph 내에서 원시 readcounts bedGraph 파일을 사용하여 SFRC 정규화 된 bedGraph 파일을 생성하기 위해 awk 함수로 for-loop를 실행합니다. (ii) bedGraphToBigWig 함수를 실행하여 ~/Desktop/GSE126612/bigWig에서 SFRC 정규화 bedGraph 파일의 압축 형식(.bw)을 생성합니다. (iii) 실행당 SFRC 계산에 사용되는 정규화 계수를 기록하기 위해 하나의 로그 파일을 기록하고 로그 파일을 ~/Desktop/GSE126612/log/SFRC에 저장합니다.
실행이 완료되면 로그 파일을 확인합니다. 오류 메시지가 있는 경우 오류를 수정하고 셸 스크립트를 다시 실행합니다. 문제를 해결하는 데 문제가 있는 경우 Easy Shells CUTnRUN GitHub 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)를 사용하여 지원을 요청하십시오.
참고: 스케일링된 분수 판독 횟수 정규화는 CUT&RUN 데이터 세트의 원래 출판물²² GSE126612 사용되었습니다. bin i 에서의 정규화 공식은 다음과 같습니다.

이 정규화 방법에는 negative control(예: IgG 샘플) 또는 spike-in control을 사용한 정규화가 포함되지 않기 때문에 이 접근 방식은 샘플 간의 게놈 전체 신호 차이를 관찰하는 데 이상적이지 않을 수 있습니다. 그러나 이 방법은 이론적으로 다른 총 판독 횟수 기반 정규화(예: 백만당 개수)와 유사하기 때문에 샘플 간의 로컬 신호 차이를 관찰하기에 충분합니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_09_normalization_SRPMC.sh 를 입력하거나 셸 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) ~/Desktop/GSE126612/bam-to-bed의 단편 BED 파일을 사용하여 ~/Desktop/GSE126612/bedGraph에 SRPMC 정규화된 베드 파일을 생성하기 위해 bedtools genomecov 함수로 for-loop를 실행합니다. (ii) ~/Desktop/GSE126612/log/SRPMC에서 실행당 SRPMC 정규화에 사용되는 정규화 요소를 기록하는 로그 파일을 기록합니다. (iii) bedGraphToBigWig 함수를 실행하여 정규화된 bedGraph 파일의 압축 형식(.bw)을 생성하고 정규화된 bigWig 파일을 ~/Desktop/GSE126612/bigWig 폴더에 저장합니다.
실행이 완료된 후 로그 파일을 주의 깊게 검토합니다. 로그 파일에 오류 메시지가 있는 경우 오류를 수정하고 셸 스크립트를 다시 실행합니다. 문제를 해결하는 데 문제가 있는 경우 Easy Shells CUTnRUN GitHub 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)를 사용하여 지원을 요청하십시오.
참고: SRPMC 정규화 공식은 RPM(Reads Per Million mapped Reads) 정규화 계수, RPS(Ratio Reads Per Spike-in read) 및 상대 신호 비율을 결합하여^24,25를 제어함으로써 음성 제어(예: IgG 샘플) 및 스파이크인 제어를 모두 사용하여 실제 샘플 판독 수를 정규화하기 위해 개발되었습니다. RPS의 정의는 다음과 같습니다.

실제 샘플과 네거티브 컨트롤 샘플 모두에 RPS를 적용하면 실제 샘플에 대한 컨트롤에 대한 상대 신호 비율(RS)을 다음과 같이 계산할 수 있습니다.

그리고 RPM 정규화 계수(RPM:NF)의 정의는 다음과 같습니다.

여기에서 RS와 RPM:NF를 결합하여 SRPMC 정규화 계수(SRPMC:NF)가 나왔습니다.

이 공식은 다음과 같이 단순화 할 수 있습니다.

따라서 SRPMC 방법은 (1) control과 sample 사이의 spike-in read 비율과 (2) RPM normalized control read로 판독을 정규화합니다. 이 정규화 인자는 spike-in read를 고려하고 샘플 간에 control read를 함께 비교할 수 있도록 하기 때문에 이 방법은 샘플 간의 게놈 전체 차이를 관찰하고 다른 배치 실험에서 실제 샘플 및 대조군의 총 읽기에서 배치 효과를 줄이는 데 적합합니다. 이러한 정규화된 bedGraph 파일은 섹션 11에서 SEACR을 사용하여 피크를 호출하기 위한 입력 파일이 됩니다. 그리고 이러한 정규화 된 bigWig 파일은 IGV를 통한 위치 시각화와 Deeptools를 통한 히트 맵 및 평균 플롯 생성에 사용됩니다. 데이터 품질을 평가하기 위해 대표적인 게놈 영역에서 정규화된 bigWig 파일을 사용하여 CUT&RUN 데이터 세트의 풍경 패턴을 시각화하려면 게놈 브라우저를 사용하는 것이 좋습니다. IgG 대조군과 유사한 노이즈가 있는 배경 신호 패턴을 표시하는 CUT&RUN 샘플은 다운스트림 분석에 생략하는 것이 적절할 수 있습니다. 이러한 셸 스크립트를 사용하여 입력 및 출력 bed 파일과 bedgraph 파일 모두의 경로와 파일 이름을 변경하여 다른 reads bed 파일 및 원시 readcounts bedGraph 파일을 정규화합니다. 이 스크립트를 편집하여 이 스크립트 내에서 요인과 공식을 변경하여 다른 정규화 계산을 적용합니다.

11. 프래그먼트 크기 분포 검증

터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에서 /path/to/bash (또는 /bin/bash와 같은 유사한 메시지)를 볼 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 chsh -s $(which bash) 를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널이 기본적으로 Bash 셸을 사용하는 경우 이 단계를 건너뜁니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_10_insert-size-analysis.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) 삽입 크기 분포를 식별하기 위해 ~/Desktop/GSE126612/filtered-bam 폴더의 매핑된 읽기 쌍 bam 파일을 사용하여 picard.jar CollectInsertSizeMetrics 함수를 실행합니다. (ii) 하나의 폴더(~/Desktop/GSE126612/insert-size-distribution)를 만들고 인서트 크기 분포 분석 결과를 생성된 폴더에 저장합니다. (iii) ~/Desktop/GSE126612/log/insert-size-distribution 폴더에 입력 bam 파일당 로그 파일을 기록합니다.
실행이 완료된 후 로그 파일을 주의 깊게 확인합니다. 로그 파일에 오류 메시지가 있는 경우 오류를 수정하고 셸 스크립트를 다시 실행해 보십시오. 문제를 해결하는 데 문제가 있는 경우 Easy Shells CUTnRUN GitHub 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)를 사용하여 지원을 요청하십시오.
참고: 일반적으로 CUT&RUN 샘플에 대한 인서트 크기 분석(출력)은 모노(100-300 bp) 및 디-(300-500 bp) 뉴클레오솜 크기 범위에서 주요 피크를 보여줍니다. 기술적 오류/제한(예: CUT&RUN 시료 전처리 중 MNase의 과잉/과소 분해 또는 라이브러리 전처리 중 부적절한 크기 선택)으로 인해 삼핵좀(500-700 bp)과 같거나 더 크거나 준핵체(<100 bp) 단편과 같거나 더 짧은 단편이 농축될 수 있습니다. 때때로 긴 단편(>500 bp) 및 짧은 단편(<100 bp)의 농축과 함께 단일 뉴클레오솜 크기 피크가 없는 것은 습식 실험실 단계에서 선택된 라이브러리 크기 선택 범위 또는 낮은 염기서열분석 깊이 때문일 수 있습니다. 염기서열분석 깊이('총 염기서열 염기' / '총 참조 게놈 크기'), 섹션 10의 정규화된 판독 횟수 bigWig 파일을 사용한 게놈 환경 개요, 인서트 크기 분포 패턴을 함께 비교하여 처리된 CUT&RUN 샘플의 품질을 명확히 합니다. 히스토그램의 점선은 삽입 크기가 x축의 값보다 크거나 같은 읽기의 '누적 비율'을 나타냅니다. 이 파선을 사용하면 입력 매핑된 읽기 파일의 삽입 크기 분포를 식별할 수 있습니다. x축을 따른 진행은 인서트 크기 증가와 관련이 있습니다. 점선은 입력 bam 파일에서 최소한 교차하는 x축 위치에 표시된 것과 같은 크기의 삽입 크기를 가진 매핑된 읽기 쌍의 비율을 식별합니다. 따라서 해석은 왼쪽의 1에서 시작하여 모든 읽기의 삽입 크기가 가장 작은 크기보다 크거나 같음을 나타내고 삽입 크기가 증가함에 따라 0으로 감소합니다.

12. MACS2, MACS3 및 SEACR을 사용하여 피크 호출

터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에서 /path/to/bash (또는 /bin/bash와 같은 유사한 메시지)를 볼 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 chsh -s $(which bash) 를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널이 기본적으로 Bash 셸을 사용하는 경우 이 단계를 건너뜁니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_11_peak-calling_MACS.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) 프래그먼트 BEDPE 파일을 사용하여 IgG 제어를 사용하거나 사용하지 않고 macs2 callpeak 및 macs3 callpeak 함수를 실행하여 피크를 호출하고 피크 호출 결과를 출력 디렉토리(~/Desktop/GSE126612/MACS2 및 ~/Desktop/GSE126612/MACS3)에 저장합니다. (ii) 이러한 피크 호출의 로그를 로그 디렉토리(~/Desktop/GSE126612/log/MACS2 및 ~/Desktop/GSE126612/log/MACS3)에 텍스트 파일로 기록합니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_11_peak-calling_SEACR.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) 원시 readcounts bedGraph 및 정규화된 bedGraph 파일을 사용하여 피크를 호출하는 엄격하고 편안한 옵션으로 IgG 제어 SEACR_1.3.sh 관계없이 스크립트를 실행합니다. (ii) 출력 디렉토리(~/Desktop/GSE126612/SEACR-peaks)를 생성하고 SEACR에 의한 피크 호출 결과를 저장합니다. (iii) 이러한 피크 콜링의 로그를 로그 디렉토리(~/Desktop/GSE126612/log/SEACR)에 텍스트 파일로 기록합니다.
셸 스크립트 실행을 완료한 후 로그 파일을 주의 깊게 확인합니다. 로그 파일에 오류 메시지가 있는 경우 먼저 오류를 수정하십시오. 일부 프로그램은 IgG 제어 옵션이 있는 IgG 제어 샘플에 대한 피크를 함께 호출하지 않을 수 있으므로 IgG 제어 옵션이 있는 IgG 제어 샘플에 대한 오류 메시지를 생략합니다. 문제를 해결하는 데 문제가 있는 경우 Easy Shells CUTnRUN GitHub 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)를 사용하여 지원을 요청하십시오.
참고: 이 두 쉘 스크립트는 IgG 제어 옵션 유무에 관계없이 다양한 옵션과 함께 3개의 피크 호출자(MACS2, MACS3 및 SEACR)를 사용하여 CUT&RUN 샘플에 대한 피크 호출을 수행합니다: IgG 제어 옵션 포함/제외, 피크 호출자의 정규화 옵션이 있는 원시 readcounts bedGraph 파일 사용 또는 피크 호출자의 정규화 옵션이 없는 정규화된 readcounts bedGraph 파일 사용, 엄격하고 완화된 SEACR 피크 호출 옵션. 피크 호출 출력 파일은 다운스트림 분석에서 직접 사용하기에 충분하지 않기 때문에 Easy Shells CUTnRON에는 이러한 호출된 피크 출력 파일을 처리하여 염색체, 시작, 끝 및 피크 이름을 포함하는 새로운 피크 파일을 생성하는 하나의 스크립트가 포함되어 있습니다. Easy Shells CUTnRUN은 집중적인 피크 호출 접근 방식을 통해 3개의 피크 호출 간에 호출된 피크를 비교하여 사용자의 CUT&RUN 프로젝트에 가장 적합한 피크 호출 프로그램을 선택할 수 있는 기회를 제공합니다. 또한 이 CUT&RUN 분석 파이프라인은 사용자의 CUT&RUN 프로젝트에 가장 적합한 피크 호출 옵션을 선택할 수 있는 기회를 제공합니다. 이러한 비교는 벤 다이어그램으로 수행되며 히트맵 및 평균 플롯으로 시각화됩니다.

13. 피크 베드 파일이라는 파일 만들기

터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에서 /path/to/bash (또는 /bin/bash와 같은 유사한 메시지)를 볼 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 chsh -s $(which bash) 를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널이 기본적으로 Bash 셸을 사용하는 경우 이 단계를 건너뜁니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_12_make-peak-bed.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) ~/Desktop/GSE126612/SEACR 폴더의 bed 파일을 사용하여 awk 함수를 실행하여 ~/Desktop/GSE126612/peak-bed_SEACR 폴더의 두 가지 유형의 SEACR peak bed 파일을 만듭니다. 전체 피크 베드 파일에는 각 피크의 시작과 끝이 포함되고, focused 피크 베드 파일에는 각 피크 내 가장 높은 신호 Bin의 시작과 베드가 포함됩니다. (ii) ~/Desktop/GSE126612/MACS2 및 ~/Desktop/GSE126612/MACS3 폴더의 _peaks.xls 파일을 사용하여 awk 기능을 실행하여 ~/Desktop/GSE126612/peak-bed_MACS2 및 ~/Desktop/GSE126612/peak-bed_MACS3 폴더에서 MACS2 및 MACS3가 호출한 각 피크의 시작과 끝을 포함하는 전체 피크 베드 파일을 만듭니다. (iii) ~/Desktop/GSE126612/MACS2 및 ~/Desktop/GSE126612/MACS3 폴더의 _summits.bed 파일을 사용하여 awk 기능을 실행하여 각 피크 내에서 가장 중요한 빈의 시작과 끝을 포함하는 집중된 피크 베드 파일을 생성합니다. (iv) 로그 파일은 ~/Desktop/GSE126612/log/peak-bed 폴더에 텍스트 파일 형식으로 작성됩니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_13_filter-peaks.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) IgG 제어 피크와 겹치는 피크를 제거하기 위해 IgG 제어 옵션 없이 호출되는 피크 베드 파일을 사용하여 bedtools intersect 함수를 실행합니다. (ii) 필터링된 피크 베드 파일은 ~/Desktop/GSE126612/peak-bed-filtered_MACS2, ~/Desktop/GSE126612/peak-bed-filtered_MACS3 및 ~/Desktop/GSE126612/peak-bed-filtered_SEACR 폴더에 저장됩니다. (iii) 로그 파일 log_filter-peaks.txt ~/Desktop/GSE126612/log/filter-peaks 폴더에 생성됩니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_14_cat-merge-peak-bed_MACS.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) cat 및 sort 함수를 실행하여 복제의 MACS2 및 MACS3 전체 피크 베드 파일을 하나의 피크 베드 파일로 연결하고 연결된 피크 베드 파일을 ~/Desktop/GSE126612/bed-for-comparison 폴더에 정렬합니다. (ii) 연결된 전체 피크 베드 파일을 사용하여 bedtools 병합 기능을 실행하여 서로 겹치는 피크를 병합합니다. (iii) 로그 파일 log_cat-merged-peak-bed_MACS.txt 는 로그 폴더 ~/Desktop/GSE126612/log/cat-merged-peak-bed에 기록됩니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_14_cat-merge-peak-bed_SEACR.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) cat 및 sort 함수를 실행하여 복제의 SEACR 전체 피크 베드 파일을 하나의 피크 베드 파일로 연결하고 연결된 피크 베드 파일을 ~/Desktop/GSE126612/bed-for-comparison 폴더에 정렬합니다. (ii) 연결된 전체 피크 베드 파일을 사용하여 bedtools 병합 기능을 실행하여 서로 겹치는 피크를 병합합니다. (iii) 로그 파일 log_cat-merged-peak-bed_SEACR.txt 는 로그 폴더 ~/Desktop/GSE126612/log/cat-merged-peak-bed에 기록됩니다.
셸 스크립트 실행을 완료한 후 로그 파일을 주의 깊게 검토합니다. 로그 파일에 오류 메시지가 있는 경우 오류를 수정하고 스크립트를 다시 실행합니다. 문제를 해결하는 데 문제가 있는 경우 Easy Shells CUTnRUN GitHub 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)를 사용하여 지원을 요청하십시오.
참고: 전체 피크 영역 피크 베드 파일은 벤 다이어그램 분석의 입력 파일로 사용되어 피크 호출 옵션, 피크 호출 방법, 반복 횟수 및 피크 영역 근처의 게놈 지형 관찰 간의 유사성을 비교합니다. 병합된 전체 피크 영역 피크 베드 파일은 deeptools를 사용하여 주성분(PC) 분석 및 Pearson 계수 상관 분석에 사용됩니다. 집중된 피크 베드 파일은 Deeptools를 사용한 히트맵 및 평균 플롯 분석에 사용됩니다.

14. Pearson 상관 관계와 주성분(PC) 분석을 사용하여 반복실험 간의 유사성을 검증합니다.

터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에서 /path/to/bash (또는 /bin/bash와 같은 유사한 메시지)를 볼 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 chsh -s $(which bash) 를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널이 기본적으로 Bash 셸을 사용하는 경우 이 단계를 건너뜁니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_15_correlation_plotCorrelation.sh 를 입력하거나 셸 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) 좌표별로 정렬된 반복실험의 bam 파일을 사용하여 multiBamSummary BED 파일 함수를 실행하고 CTCF, H3K27Ac 및 RNAPII-S5P에 대한 전체 피크 베드 파일을 병합하여 Desktop/GSE126612/deeptools_multiBamSummary 폴더에서 Pearson 상관 분석용 매트릭스 파일을 생성합니다. (ii) 행렬 파일을 사용하여 plotCorrelation 함수를 실행하여 Pearson 상관 계수 계산 및 히트맵 클러스터링을 수행하고 결과를 ~/Desktop/GSE126612/deeptools_plotCorrelation 폴더에 저장합니다. (iii) ~/Desktop/GSE126612/log/correlation 폴더에 log_plotCorrelation.txt 로그 파일을 기록합니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_15_correlation_plotPCA.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) 좌표별로 정렬된 bam 파일을 사용하여 multiBamSummary BED 파일 함수를 실행하고 모든 CTCF, H3K27ac 및 RNAPII-S5P 피크를 포함하는 전체 피크 베드 파일을 병합하여 Desktop/GSE126612/deeptools_multiBamSummary 폴더에서 주성분 분석(PCA)용 매트릭스 파일을 생성합니다. (ii) 매트릭스 파일을 사용하여 plotPCA 함수를 실행하여 PCA를 수행하고 결과를 ~/Desktop/GSE126612/deeptools_plotPCA 폴더에 저장합니다. (iii) ~/Desktop/GSE126612/log/correlation 폴더에 log_plotPCA.txt 로그 파일을 기록합니다.
셸 스크립트 실행이 완료되면 로그 파일을 확인합니다. 오류 메시지가 있는 경우 오류를 수정하고 셸 스크립트를 다시 실행합니다. 문제를 해결하는 데 문제가 있는 경우 Easy Shells CUTnRUN GitHub 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)를 사용하여 지원을 요청하십시오.
참고: 원칙적으로 적절하게 준비되고 처리된 반복실험은 동일한 군집화 그룹 내에서 더 높은 Pearson 상관 계수 값을 보여주고 주성분 분석에서 가까운 위치를 보여줍니다. Pearson 상관 계수가 더 낮고 주성분 그림에서 다른 반복실험에서 멀리 떨어져 있는 모든 반복실험은 반복실험 간에 잠재적인 특이치를 나타낼 수 있습니다. 이 셸 스크립트는 매핑된 모든 bam 형식 읽기 데이터에 적용할 수 있습니다. 프로젝트별 요구 사항에 맞게 bigwig 파일의 경로와 파일 이름을 변경합니다.

15. Venn 다이어그램을 사용하여 반복실험, 피크 호출 방법 및 옵션 간의 유사성 검증

터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에 /path/to/bash (예: /bin/bash)와 같은 것이 있을 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 chsh -s $(which bash) 를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널에서 Bash 셸을 기본 셸로 사용하는 경우 이 단계를 건너뛰는 것이 좋습니다
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_16_venn-diagram_methods.sh 를 입력하거나 셸 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) 다양한 옵션(IgG 제어 옵션 포함/제외, 정규화 포함/제외, SEACR에 대한 엄격한/완화된 피크 호출 옵션)에 의해 호출되는 피크 간의 겹침을 찾기 위해 전체 피크 영역 피크 베드 파일을 사용하여 intervene venn 함수를 실행합니다. (ii) 하나의 폴더(~/Desktop/GSE126612/intervene_methods)를 만들고 이 폴더에 벤다이어그램 분석 결과를 저장합니다. (iii) ~/Desktop/GSE126612/log/intervene 폴더에 log_intervene_methods.txt 하나의 로그 파일을 기록해 둡니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_16_venn-diagram_replicates.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) 전체 피크 영역 피크 베드 파일을 사용하여 반복실험의 피크 간 겹침을 찾기 위해 intervene venn 함수를 실행합니다. (ii) 하나의 폴더(~/Desktop/GSE126612/intervene_replicates)를 만들고 이 폴더에 벤 다이어그램 분석 결과를 저장합니다. (iii) ~/Desktop/GSE126612/log/intervene 폴더에 log_intervene_replicates.txt 하나의 로그 파일을 기록해 둡니다.
셸 스크립트 실행이 완료되면 로그 파일을 검토합니다. 오류 메시지가 있는 경우 오류를 수정하고 셸 스크립트를 다시 실행합니다. Easy Shells CUTnRUN 분석 파이프라인 사용에 문제가 있는 경우 Easy Shells CUTnRUN github 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)에 도움을 요청하세요.
참고: 이러한 벤 다이어그램 분석 결과는 다운스트림 분석을 위한 높은 재현성을 가진 가장 적합한 피크 호출 옵션, 방법 및 반복실험을 선택할 수 있는 통찰력을 제공합니다. 피크 호출 옵션 및 다른 피크 호출 방법 및 옵션과 양호한 중첩을 가지며 가장 높은 호출된 피크 수를 보여주는 방법을 선택하는 것이 바람직할 수 있다.

16. 히트맵과 평균 플롯을 분석하여 호출된 피크를 시각화합니다.

터미널을 열고 echo $SHELL 를 입력하여 활성 터미널의 기본 셸을 확인합니다. Bash 셸이 현재 터미널의 기본 셸인 경우 터미널에 /path/to/bash (예: /bin/bash)와 같은 것이 있을 수 있습니다.
기본 셸이 Bash가 아닌 경우 터미널에 chsh -s $(which bash) 를 입력하여 Bash 셸을 기본 셸로 설정합니다. 터미널에서 Bash 셸을 기본 셸로 사용하는 경우 이 단계를 건너뛰는 것이 좋습니다
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_27_plotHeatmap_focused.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
참고: 이 스크립트는 (i) 정규화된 bigWig 파일 및 포커스된 피크 베드 파일을 사용하여 computeMatrix 참조 포인트 함수를 실행하여 ~/Desktop/GSE126612/deeptools_computeMatrix 폴더의 포커스된 피크 중앙에 정규화된 readcounts 행렬을 만듭니다. (ii) 정규화된 readcounts 행렬을 사용하여 plotHeatmap 함수를 실행하여 집중된 피크 위치에서 정규화된 readcounts 분포 패턴을 시각화하는 히트맵 및 평균 플롯을 생성합니다. (iii) 하나의 폴더(~/Desktop/GSE126612/deeptools_plotHeatmap)를 만들고 이 폴더 내에 plotHeatmap 출력 파일을 저장합니다. (iv) ~/Desktop/GSE126612/log/plotHeatmap 폴더에 log_plotHeatmap_focused.txt 하나의 로그 파일을 기록합니다.
터미널에 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_27_plotHeatmap_whole.sh 를 입력하거나 쉘 스크립트 파일을 터미널로 드래그하여 입력합니다.
이 스크립트는 (i) 정규화 된 bigWig 파일 및 전체 피크 베드 파일을 사용하여 computeMatrix 참조 포인트 함수를 실행하여 ~ / Desktop / GSE126612 / deeptools_computeMatrix 폴더의 전체 피크 중앙에 정규화 된 readcounts 행렬을 만듭니다. (ii) 정규화된 readcounts 행렬을 사용하여 plotHeatmap 함수를 실행하여 전체 피크 위치에서 정규화된 readcounts 분포 패턴을 시각화하는 히트맵 및 평균 플롯을 생성합니다. (iii) 하나의 폴더(~/Desktop/GSE126612/deeptools_plotHeatmap)를 만들고 이 폴더 내에 plotHeatmap 출력 파일을 저장합니다. (iv) ~/Desktop/GSE126612/log/plotHeatmap 폴더에 log_plotHeatmap_whole.txt 하나의 로그 파일을 기록해 둡니다.
셸 스크립트 실행이 완료되면 로그 파일을 검토합니다. 오류 메시지가 있는 경우 오류를 수정하고 셸 스크립트를 다시 실행합니다. Easy Shells CUTnRUN 분석 파이프라인 사용에 문제가 있는 경우 Easy Shells CUTnRUN github 문제 웹 페이지(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)에 도움을 요청하세요.
참고: 이상적으로는 MACS2/3 피크의 피크 정상 위치와 SEACR 피크의 집중 피크 위치는 플롯 중앙에서 선명하고 집중된 신호 분포를 나타냅니다. 그러나 CUT&RUN 데이터에 대해 피크 호출 알고리즘이 제대로 작동하지 않으면 초점이 덜 맞춰진 '잡음' 신호 분포가 플롯에 나타날 수 있습니다. 따라서 호출된 피크의 수와 출력 플롯의 피크 신호 분포 패턴을 사용하면 다운스트림 피크 주석을 포함하는 추가 CUT&RUN 분석을 위한 피크 유효성을 결정할 수 있습니다.

Access restricted. Please log in or start a trial to view this content.

결과

Quality and adapter trimming은 높은 sequencing 품질로 판독을 유지합니다.
High-throughput sequencing 기법은 read에서 염기서열 'mutations'와 같은 염기서열분석 오류를 발생시키기 쉽습니다. 또한, 시퀀싱 어댑터 이량체는 라이브러리 준비 중 어댑터 제거가 불량하기 때문에 시퀀싱 데이터 세트에서 강화될 수 있습니다. 판독 돌연변이, 적절한 매핑에 필요한 것보다 짧은 판...

Access restricted. Please log in or start a trial to view this content.

토론

염색질에 대한 단백질 점유율을 매핑하는 능력은 염색질 생물학 분야에서 기계론적 연구를 수행하는 데 기본입니다. 실험실에서 크로마틴을 프로파일링하기 위해 새로운 습식 실험실 기술을 채택함에 따라 이러한 습식 실험실 실험의 염기서열 분석 데이터를 분석하는 능력은 습식 실험실 과학자들에게 일반적인 병목 현상이 되고 있습니다. 따라서 생물정보학 초보자가...

Access restricted. Please log in or start a trial to view this content.

공개

저자는 공개하지 않음을 선언합니다.

감사의 말

모든 일러스트 피규어는 BioRender.com 로 만들어졌습니다. CAI는 난소암 연구 연합(Ovarian Cancer Research Alliance)의 조기 경력 연구자상(Early Career Investigator Award), 포벡 재단 액셀러레이터 보조금(Forbeck Foundation Accelerator Grant), 미네소타 난소암 연합(Minnestoa Ovarian Cancer Alliance)의 국가 조기 발견 연구상(National Early Detection Research Award)을 통해 제공된 지원을 인정합니다.

Access restricted. Please log in or start a trial to view this content.

자료

Name	Company	Catalog Number	Comments
bedGraphToBigWig	ENCODE	https://hgdownload.soe.ucsc.edu/admin/exe/	Software to compress and convert readcounts bedGraph to bigWig
bedtools-2.31.1	The Quinlan Lab @ the U. of Utah	https://bedtools.readthedocs.io/en/latest/index.html	Software to process bam/bed/bedGraph files
bowtie2 2.5.4	Johns Hopkins University	https://bowtie-bio.sourceforge.net/bowtie2/index.shtml	Software to build bowtie index and perform alignment
CollectInsertSizeMetrics (Picard)	Broad institute	https://github.com/broadinstitute/picard	Software to perform insert size distribution analysis
Cutadapt	NBIS	https://cutadapt.readthedocs.io/en/stable/index.html	Software to perform adapter trimming
Deeptoolsv3.5.1	Max Planck Institute	https://deeptools.readthedocs.io/en/develop/index.html	Software to perform Pearson coefficient correlation analysis, Principal component analysis, and Heatmap/average plot analysis
FastQC Version 0.12.0	Babraham Bioinformatics	https://github.com/s-andrews/FastQC	Software to check quality of fastq file
Intervenev0.6.1	Computational Biology & Gene regulation - Mathelier group	https://intervene.readthedocs.io/en/latest/index.html	Software to perform venn diagram analysis using peak files
MACSv2.2.9.1	Chan Zuckerberg initiative	https://github.com/macs3-project/MACS/tree/macs_v2	Software to call peaks
MACSv3.0.2	Chan Zuckerberg initiative	https://github.com/macs3-project/MACS/tree/master	Software to call peaks
Samtools-1.21	Wellcome Sanger Institute	https://github.com/samtools/samtools	Software to process sam/bam files
SEACRv1.3	Howard Hughes Medial institute	https://github.com/FredHutch/SEACR	Software to call peaks
SRA Toolkit Release 3.1.1	NCBI	https://github.com/ncbi/sra-tools	Software to download SRR from GEO
Trim_Galore v0.6.10	Babraham Bioinformatics	https://github.com/FelixKrueger/TrimGalore	Software to perform quality and atapter trimming

참고문헌

Hainer, S. J., Fazzio, T. G. High-resolution chromatin profiling using CUT&RUN. Curr Protoc Mol Biol. 126 (1), e85(2019).
Zhang, Y., et al. Model-based analysis of ChiP-Seq (MACS). Genome Biology. 9 (9), R137(2008).
Xu, S., Grullon, S., Ge, K., Peng, W. Stem cell transcriptional networks: Methods and Protocols. , Springer. New York, NY. (2014).
Meers, M. P., Tenenbaum, D., Henikoff, S. Peak calling by sparse enrichment analysis for cut&run chromatin profiling. Epigenetics Chromatin. 12 (1), 42(2019).
Ashburner, M., et al. Gene ontology: Tool for the unification of biology. The gene ontology consortium. Nat Genet. 25 (1), 25-29 (2000).
Harris, M. A., et al. The gene ontology (GO) database and informatics resource. Nucleic Acids Res. 32 (Database issue), D258-D261 (2004).
The Gene Ontology Consortium. The gene ontology resource: 20 years and still going strong. Nucleic Acids Res. 47 (D1), D330-D338 (2019).
Conesa, A., et al. Blast2go: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
Carbon, S., et al. AmiGO: Online access to ontology and annotation data. Bioinformatics. 25 (2), 288-289 (2009).
Eden, E., Navon, R., Steinfeld, I., Lipson, D., Yakhini, Z. Gorilla: A tool for discovery and visualization of enriched go terms in ranked gene lists. BMC Bioinformatics. 10, 48(2009).
Huang Da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
Huang Da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using david bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
Ge, S. X., Jung, D., Yao, R. ShinyGO: A graphical gene-set enrichment tool for animals and plants. Bioinformatics. 36 (8), 2628-2629 (2020).
Tang, D., et al. SRplot: A free online platform for data visualization and graphing. PLoS One. 18 (11), e0294236(2023).
Ramírez, F., et al. Deeptools2: A next generation web server for deep-sequencing data analysis. Nucleic Acids Res. 44 (W1), W160-W165 (2016).
Robinson, J. T., et al. Integrative genomics viewer. Nat Biotechnol. 29 (1), 24-26 (2011).
Kent, W. J., et al. The human genome browser at ucsc. Genome Res. 12 (6), 996-1006 (2002).
Yu, F., Sankaran, V. G., Yuan, G. -C. CUT&RUNTools 2.0: A pipeline for single-cell and bulk-level CUT&RUN and CUT&Tag data analysis. Bioinformatics. 38 (1), 252-254 (2021).
Zhu, Q., Liu, N., Orkin, S. H., Yuan, G. -C. CUT&RUNTools: A flexible pipeline for CUT&RUN processing and footprint analysis. Genome Biol. 20 (1), 192(2019).
Chris Cheshire, C. -W., et al. Nf-core/cutandrun: Nf-core/cutandrun v3.2.2 iridium ibis. , At https://github.com/nf-core/cutandrun/tree/3.2.2 (2024).
Kong, N. R., Chai, L., Tenen, D. G., Bassal, M. A. A modified CUT&RUN protocol and analysis pipeline to identify transcription factor binding sites in human cell lines. STAR Protoc. 2 (3), 100750(2021).
Meers, M. P., Bryson, T. D., Henikoff, J. G., Henikoff, S. Improved CUT&RUN chromatin profiling tools. eLife. 8, e46314(2019).
Amemiya, H. M., Kundaje, A., Boyle, A. P. The encode blacklist: Identification of problematic regions of the genome. Sci Rep. 9 (1), 9354(2019).
Deberardine, M. BRgenomics for analyzing high-resolution genomics data in R. Bioinformatics. 39 (6), btad331(2023).
Deberardine, M., Booth, G. T., Versluis, P. P., Lis, J. T. The nelf pausing checkpoint mediates the functional divergence of cdk9. Nat Commun. 14 (1), 2762(2023).
Andrews, S. Fastqc: A quality control tool for high throughput sequence data. , At http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ (2010).
Krueger, F., James, F. O., Ewels, P. A., Afyounian, E., Schuster-Boeckler, B. FelixKrueger/TrimGalore: v0.6.7 - DOI via Zenodo. , (2021).
Mcgaughey, D. Easy bam downsampling. , Available from: https://davemcg.github.io/post/easy-bam-downsampling/ (2018).
Positionbaseddownsamplesam (picard). , GATK Team. At https://gatk.broadinstitute.org/hc/en-us/articles/360041850311-PositionBasedDownsampleSam-Picard (2020).

Access restricted. Please log in or start a trial to view this content.

재인쇄 및 허가

JoVE'article의 텍스트 или 그림을 다시 사용하시려면 허가 살펴보기

허가 살펴보기

더 많은 기사 탐색

Genetics nuclease CUT RUN DNA

This article has been published

Video Coming Soon

Keep me updated: