CUT&#38;RUNシーケンシングデータの入門解析と検証

Junwoo Lee; Biji Chatterjee; Nakyung Oh; Dhurjhoti Saha; Yue Lu; Blaine Bartholomew; Charles A. Ishak

doi:10.3791/67359

このコンテンツを視聴するには、JoVE 購読が必要です。サインイン又は無料トライアルを申し込む。

この記事について

要約
要約
概要
プロトコル
結果
ディスカッション
開示事項
謝辞
資料
参考文献
転載および許可

要約

このプロトコルは、バイオインフォマティクスの初心者に、CUT&RUNシーケンシングデータの初期解析とバリデーションを完了するための入門的なCUT&RUN解析パイプラインをガイドします。ここで説明する分析ステップを完了し、ダウンストリームのピークアノテーションと組み合わせることで、ユーザーはクロマチン制御に関するメカニズムの洞察を引き出すことができます。

要約

CUT&RUN技術は、ゲノム全体にわたるタンパク質-DNA相互作用の検出を容易にします。CUT&RUNの代表的なアプリケーションには、ヒストンテール修飾のプロファイリング変更や、転写因子のクロマチン占有率のマッピングなどがあります。CUT&RUNが広く採用されるようになったのは、従来のChIP-seqに比べて、細胞投入量やシーケンシング深度の要件が低いこと、抗体エピトープをマスクする架橋剤がないためにバックグラウンドシグナルが減少することで感度が向上することなど、技術的な利点が一因となっています。また、ヘニコフ研究室による試薬の寛大な共有や、初心者への普及を加速するための市販キットの開発により、CUT&RUNの普及が進んでいます。CUT&RUNの技術的な採用が進むにつれ、CUT&RUNのシーケンシング解析とバリデーションは、主にウェットラボチームによる完全な採用を可能にするために克服しなければならない重大なボトルネックとなっています。CUT&RUN解析は、通常、生のシーケンシングリードの品質管理チェックから始まり、シーケンシングの深さ、リード品質、潜在的なバイアスを評価します。次に、リードをリファレンスゲノム配列アセンブリにアラインメントし、その後、いくつかのバイオインフォマティクスツールを使用して、タンパク質濃縮のゲノム領域にアノテーションを付け、データの解釈可能性を確認し、生物学的結論を導き出します。CUT&RUNデータ解析をサポートするために、複数の in silico 解析パイプラインが開発されていますが、その複雑なマルチモジュール構造や複数のプログラミング言語の使用により、複数のプログラミング言語に精通していないバイオインフォマティクスの初心者にとっては、CUT&RUNの解析手順を理解し、解析パイプラインをカスタマイズしたいと考えている人にとっては、このプラットフォームは困難です。ここでは、バイオインフォマティクスの経験が豊富なユーザー向けに、単一言語のステップバイステップのCUT&RUN解析パイプラインプロトコルを提供します。このプロトコルには、シーケンシングデータが生物学的解釈に適していることを確認するための重要な品質チェックを完了することが含まれます。本稿で紹介した導入プロトコルに従い、ダウンストリームのピークアノテーションと組み合わせることで、ユーザーは自身のCUT&RUNデータセットから生物学的な知見を引き出すことができると期待しています。

概要

タンパク質とゲノムDNAとの間の相互作用を測定する能力は、クロマチン制御の生物学を理解するための基本です。特定のタンパク質のクロマチン占有率を測定する効果的なアッセイは、少なくとも2つの重要な情報を提供します:i)ゲノム局在とii)特定のゲノム領域におけるタンパク質の存在量。クロマチンに関心のあるタンパク質の動員と局在の変化を追跡することで、タンパク質の直接的な標的遺伝子座を明らかにし、転写の調節、DNA修復、DNA複製などのクロマチンベースの生物学的プロセスにおけるそのタンパク質の機構的役割を明らかにすることができます。現在、タンパク質とDNAの相互作用をプロファイリングする技術が利用可能なため、研究者はこれまでにない解像度で制御を探求することができます。このような技術的進歩は、Henikoff研究室によるCleavage Under Targets and Release Using Nuclease(CUT&RUN)の開発を含む新しいクロマチンプロファイリング技術の導入によって可能になりました。CUT&RUNは、従来のクロマチン免疫沈降法 (ChIP) に比べて、細胞投入量が少なく、シーケンシング深度が不十分で、抗体エピトープを隠す架橋剤がないためバックグラウンドシグナルが減少し感度が向上するなど、いくつかの技術的利点があります。この手法をクロマチン制御の研究に採用するには、この手法の根底にある原理を十分に理解し、CUT&RUNデータの解析、検証、解釈の方法を理解する必要があります。

CUT&RUNの手技は、磁気ビーズに結合したコンカナバリンAに細胞を結合させることから始まり、手技全体を通して低い細胞数を操作できるようになります。単離された細胞は、目的のタンパク質を標的とする抗体の導入を容易にするために、中性界面活性剤を使用して透過処理されます。次に、ミクロコッカスヌクレアーゼ(MNase)は、酵素につながれたプロテインAまたはプロテインA/Gタグを使用して、結合した抗体にリクルートされます。カルシウムは酵素活性を開始するために導入されます。MNase消化は、モノヌクレオソームDNA-タンパク質複合体をもたらします。その後、カルシウムをキレート化して消化反応を終了させ、MNase消化から得られた短いDNA断片を核から放出した後、DNA精製、ライブラリー調製、ハイスループットシーケンシングを行います¹ (図1)。

ゲノム全体のタンパク質占有率をマッピングおよび定量化するインシリコアプローチは、DNAとタンパク質の相互作用を濃縮するために使用されるウェットラボアプローチと並行して開発されました。濃縮されたシグナル(ピーク)の領域の同定は、バイオインフォマティクス解析における最も重要なステップの1つです。初期のChIP-seq解析法では、MACS²やSICER³などのアルゴリズムを使用し、統計モデルを用いて真正なタンパク質-DNA結合部位をバックグラウンドノイズから区別しました。しかし、CUT&RUNデータのバックグラウンドノイズが少なく、解像度が高いため、ChIP-seq解析で使用される一部のピークコールプログラムはCUT&RUN解析には適していません⁴。この課題は、CUT&RUNデータの解析により適した新しいツールの必要性を浮き彫りにしています。SEACR⁴は、ChIP-seq解析に通常使用されるツールに関連する制限を克服しながら、CUT&RUNデータからのピークコールを可能にするために最近開発されたツールの1つです。

CUT&RUNシーケンシングデータからの生物学的解釈は、解析パイプラインのピークコールの下流の出力から引き出されます。CUT&RUNデータから呼び出されたピークの生物学的関連性を予測するために、いくつかの機能アノテーションプログラムを実装することができます。例えば、Gene Ontology(GO)プロジェクトは、関心のある遺伝子の確立された機能的同定を提供します^5,6,7。さまざまなソフトウェアツールやリソースにより、GO解析が容易になり、CUT&RUNピーク⁸^、⁹^、¹⁰^、¹¹^、¹²^、¹³^、¹⁴に濃縮された遺伝子や遺伝子セットが明らかになります。さらに、Deeptools¹⁵、Integrative genomics viewer(IGV)¹⁶、UCSC Genome Browser¹⁷などの可視化ソフトウェアにより、ゲノム全体の関心領域におけるシグナル分布とパターンの可視化が可能になります。

CUT&RUNのデータから生物学的な解釈を引き出すことができるかどうかは、データ品質の検証に大きく依存します。バリデーションを行う重要なコンポーネントには、i) CUT&RUNライブラリのシーケンシング品質、ii) 複製類似性、iii) ピークセンターでのシグナル分布の評価が含まれます。3つのコンポーネントすべてのバリデーションを完了することは、CUT&RUNライブラリのサンプルとダウンストリーム解析結果の信頼性を確保するために重要です。そのため、バイオインフォマティクスの初心者やウェットラボの研究者が、標準的なCUT&RUN解析パイプラインの一部としてこのような検証ステップを実施できるように、CUT&RUN解析の入門ガイドを作成することが不可欠です。

ウェットラボでのCUT&RUN実験の開発と並行して、CUT&RUNTools 2.0^18,19、nf-core/cutandrun²⁰、CnRAP²¹など、さまざまなin silico CUT&RUN解析パイプラインが開発され、CUT&RUNデータ解析を支援してきました。これらのツールは、シングルセルおよびバルクのCUT&RUNおよびCUT&Tagデータセットを解析するための強力なアプローチを提供します。しかし、比較的複雑なモジュール化されたプログラム構造や、これらの解析パイプラインを実行するために複数のプログラミング言語に精通している必要があるため、CUT&RUNの解析ステップを徹底的に理解し、独自のパイプラインをカスタマイズしようとするバイオインフォマティクスの初心者には採用が妨げられる可能性があります。この障壁を回避するには、シンプルな単一のプログラミング言語を使用してエンコードされたシンプルなステップバイステップのスクリプトで提供される新しい入門的なCUT&RUN解析パイプラインが必要です。

この記事では、新規ユーザーや初心者ユーザーがCUT&RUNシーケンシング解析を実施できるように、ステップバイステップのスクリプトと詳細な説明を提供する、シンプルな単一言語のCUT&RUN解析パイプラインプロトコルについて説明します。このパイプラインで使用されるプログラムは、元の開発者グループによって公開されています。このプロトコルに記載されている主なステップには、リードアライメント、ピークコール、機能解析、そして最も重要なのは、生物学的解釈に対するデータの適合性と信頼性を判断するためのサンプル品質を評価するためのバリデーションステップです(図2)。さらに、このパイプラインにより、ユーザーは公開されているCUT&RUNデータセットに対して解析結果を相互参照することができます。最終的に、このCUT&RUN解析パイプラインプロトコルは、バイオインフォマティクス解析の初心者やウェットラボの研究者にとって、入門ガイドおよびリファレンスとして機能します。

プロトコル

注意: GSE126612のCUT&RUN高速qファイルに関する情報は 、表1に記載されています。この調査で使用したソフトウェアアプリケーションに関連する情報は、 資料の表に記載されています。

1. GithubページからEasy-Shells_CUTnRUNパイプラインをダウンロードする

オペレーティングシステムからターミナルを開きます。
注意: ユーザーがmacOSおよびWindowsでターミナルを開く方法がわからない場合は、このWebページ(https://discovery.cs.illinois.edu/guides/System-Setup/terminal/)を確認してください。Linux の場合は、この Web ページ (https://www.geeksforgeeks.org/how-to-open-terminal-in-linux/) を確認してください。
ターミナルで 「wget https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/archive/refs/heads/main.zip -O ~/Desktop/Easy-Shells_CUTnRUN.zip」と入力して、圧縮された分析パイプラインを Github からダウンロードします。
zipファイルをダウンロードしたら、ターミナルに unzip ~/Desktop/Easy-Shells_CUTnRUN.zip -d ~/Desktop/と入力して、ダウンロードしたzipファイルを解凍します。
解凍後、ターミナルに rm ~/Desktop/Easy-Shells_CUTnRUN.zip と入力してzipファイルを削除し、 mv ~/Desktop/Easy-Shells_CUTnRUN-master ~/Desktop/Easy-Shells_CUTnRUNと入力してフォルダ名を変更します。
zipファイルを削除した後、ターミナルで chmod +x ~/Desktop/Easy-Shells_CUTnRUN/script/*.sh と入力して、作業ディレクトリ内のすべてのシェルスクリプトの実行可能権限を設定します。これからは、これらのシェルスクリプトのパスと名前をターミナルに入力するか、スクリプトをターミナルにドラッグしてEnterキーを入力し、ターミナルでこれらのシェルスクリプトを実行します。
注: Bash シェルは通常、ほとんどの Linux ディストリビューションにプリインストールされています。ただし、最近のmacOSバージョンでは、Bashシェルがプリインストールされなくなりました。システムにBashがない場合は、最初にBashシェルをインストールします。Linux OS(https://ioflood.com/blog/install-bash-shell-linux/)およびmacOS(https://www.cs.cornell.edu/courses/cs2043/2024sp/styled-3/#:~:text=The%20first%20thing%20you%20will,you%20will%20see%20the%20following:)にBashシェルをインストールする方法については、以下のリンクを参照してください。これらのステップバイステップのシェルスクリプトは、このディレクトリ内でこのCUT&RUN解析のほとんどを変更せずに実行するためのフォルダ~/Desktop/GSE126612 を作成するように書かれています。これらのシェルスクリプトの使用方法を理解している場合、ユーザーはこれらのシェルスクリプトを修正およびカスタマイズして、他のCUT&RUNデータセットを分析し、プロジェクト固有のニーズに応じてオプションを変更することができます。これらのシェルスクリプトを読み取って編集するには、主要なオペレーティングシステムで使用できる使いやすいプログラムの 1 つのオプションとして Visual Studio Code (https://code.visualstudio.com/) を使用することを検討してください。

2. Easy Shells CUTnRUNに必要なプログラムのインストール

Script_01_installation_***.shという名前のシェルスクリプトの中から、ユーザーのシステムのオペレーティングシステムタイプを含む名前のシェルスクリプトを見つけてください。現在、Easy Shells CUTnRUNは、macOS、Debian/Ubuntu、およびCentOS/RPMベースのシステムのインストールスクリプトをサポートしています。
ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルに /path/to/bash (または /bin/bash などの同様のメッセージ) が表示される場合があります。
デフォルトシェルがBashでない場合は、ターミナルで chsh -s $(which bash) と入力して、Bashシェルをデフォルトシェルとして設定します。ターミナルがデフォルトでBashシェルを使用している場合は、この手順をスキップします。
ターミナルで、 ~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_01_installation_***と入力し てインストールシェルスクリプトを操作するか.shシェルスクリプトファイルをターミナルにドラッグして入力します。
/path/to/SEACR-1.3/Testfilesフォルダ内の Test_README.md ファイルを読み込みます。READMEファイルの指示に従って、ユーザーのシステムのSEACRが正しく動作しているかどうかを確認してください。
注意: SEACR Githubページが提供するテストファイルを使用してSEACR機能を検証することは、CUT&RUNデータから適切なピーク呼び出し結果を取得することが重要です。したがって、SEACRのインストール直後に、/path/to/SEACR-1.3/TestfilesのTest_README.md の指示に従ってください。Easy Shells CUTnRUNは、一部のオペレーティング・システム用のインストール・シェル・スクリプトを提供しますが、これらのスクリプトは、一部のユーザーのシステムでは、Easy Shells CUTnRUNに必要なすべてのプログラムをインストールするために機能しない場合があります。インストールに問題がある場合は、アンインストールしたプログラムの元のWebサイトを確認するか、Easy Shells CUTnRUNのgithub問題Webページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)を使用してサポートを依頼してください。

3. Sequence Read Archive (SRA) から公開されているCUT&RUNデータセットのダウンロード

ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルに /path/to/bash (または /bin/bash などの同様のメッセージ) が表示される場合があります。
デフォルトシェルがBashでない場合は、ターミナルで chsh -s $(which bash) と入力して、Bashシェルをデフォルトシェルとして設定します。ターミナルがデフォルトでBashシェルを使用している場合は、この手順をスキップします。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_02_download-fastq.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このスクリプトは、(i) 1つのフォルダ(~/Desktop/GSE126612/fastq)を作成し、fastqフォルダ内にテキストファイル(~/Desktop/Easy-Shells_CUTnRUN/sample_info/SRR_list.txt)に書かれたSRAファイルのリストをダウンロードします。たとえば、SRR_list.txtには、GSE126612 CUT&RUNサンプルのサブセットのfastqファイルが含まれています。(ii)fastqフォルダ内の生のfastqファイルをダウンロードします。(iii) フォルダ(~/Desktop/GSE126612/log/fastq)を1つ作成し、このログフォルダ内にログファイル(download-fastq_log.txt)とダウンロードしたサンプル情報ファイル(SRR_list_info.txt)を書き留めます。
スクリプトを実行した後、ログファイルを確認します。ログファイル内にエラーメッセージがある場合は、エラーを修正し、手順3.3を再試行してください。解決すべき問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)で助けを求めてください。
注: このCUT&RUN解析パイプラインの実践を容易にするため、SRAから公開されているサンプルは、模擬対照 (IgG) から1サンプル、クロマチンアーキテクチャおよび転写因子タンパク質 (CTCF) から3サンプル、活性ヒストンマークに対応する4サンプル (H3K27Ac)、RNAポリメラーゼIIでマークされた転写開始領域に対応する3サンプル (RNAPII-S5P) です。シーケンシングはペアエンドとして実行したため、サンプルごとに2つのファイルがペアになります。

4. 生のシーケンシングファイルの初期品質チェック

ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルに /path/to/bash (または /bin/bash などの同様のメッセージ) が表示される場合があります。
デフォルトシェルがBashでない場合は、ターミナルで chsh -s $(which bash) と入力して、Bashシェルをデフォルトシェルとして設定します。ターミナルがデフォルトでBashシェルを使用している場合は、この手順をスキップします。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_03_fastQC.sh と入力するか、シェルスクリプトをターミナルにドラッグして入力します。
注:このシェルスクリプトは、(i) ~/Desktop/GSE126612/fastq フォルダ内のすべての生のfastqファイルに対してFastQCプログラムを実行し、品質チェックレポートファイルを ~/Desktop/GSE126612/fastqc.1st フォルダに保存します。(ii) FastQC実行ごとにログファイル(fastqc.1st.log.SRR-number.txt)をログフォルダ(~/Desktop/GSE126612/log/fastqc.1st)に書き留めます。
シェル・スクリプトの実行が完了したら、ログ・ファイルを確認して、実行が成功したことを確認します。ログファイル内にエラーメッセージがある場合は、エラーを修正し、手順4.3を繰り返します。解決すべき問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)を使用してサポートを依頼してください。
注:出力ファイルの中には、fastqc.htmlファイルにはユーザーフレンドリーな品質チェック結果が含まれています。深刻な品質問題がある場合は、バイオインフォマティクスの同僚と話し合って、ダウンストリーム分析へのデータの適合性を判断してください。同様の品質管理レポートは、アダプターのトリミング後のデータ品質の向上を確認するために使用されます。このスクリプトを他のデータセットに使用するには、ユーザーのニーズに合わせて作業ディレクトリと出力ディレクトリのパスを編集します。CUT&RUNのQCをChIP-seqリードと比較して解釈する場合の顕著な違いは、CUT&RUNの重複リードが必ずしもPCRの重複を示すわけではないことです。これは、募集されたMNaseが実験グループ内の同じまたは類似の場所で消化されるためです。

5. 生のシーケンシングファイルの品質とアダプターのトリミング

ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルに /path/to/bash (または /bin/bash などの同様のメッセージ) が表示される場合があります。
デフォルトシェルがBashでない場合は、ターミナルで chsh -s $(which bash) と入力して、Bashシェルをデフォルトシェルとして設定します。ターミナルがデフォルトでBashシェルを使用している場合は、この手順をスキップします。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_04_trimming.sh と入力するか、 Script_04_trimming.sh スクリプトをターミナルにドラッグして入力します。
注: このシェルスクリプトは、(i) ~/Desktop/GSE126612/fastq にあるすべての生の fastq ファイルに対して Trim-Galore プログラムを実行し、アダプタと品質のトリミングを実行します。(ii) フォルダ (~/Desktop/GSE126612/trimmed) を 1 つ作成し、トリミングしたフォルダ内に Trim-Galore 出力ファイルを保存します。(iii) ログフォルダ (~/Desktop/GSE126612/log/trim_galore) を 1 つ作成し、Trim-Galore の実行ごとにログファイル を 1 trim_galore_log_RSS-number.txt 書き留めます。
実行が完了したら、ログファイルを慎重に確認してください。ログファイル内にエラーメッセージがある場合は、エラーを修正し、手順5.3を繰り返します。解決すべき問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)を使用してサポートを依頼してください。
このプロセスが完了したら、.html出力ファイルと 4.3 で作成されたfastqc.htmlファイルを比較します。入力ディレクトリと出力ディレクトリのパスを修正して、他の場所にある fastq ファイルのトリミング手順を実行します。

6. 実サンプルおよびスパイクインコントロールサンプルの参照ゲノムのbowtie2インデックスのダウンロード

ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルに /path/to/bash (または /bin/bash などの同様のメッセージ) が表示される場合があります。
デフォルトシェルがBashでない場合は、ターミナルで chsh -s $(which bash) と入力して、Bashシェルをデフォルトシェルとして設定します。ターミナルがデフォルトでBashシェルを使用している場合は、この手順をスキップします。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_05_bowtie2-index.sh と入力するか、シェルスクリプトをターミナルにドラッグして入力します。
注:このスクリプトは、(i)実際のサンプル参照ゲノム(ヒト;hg19;元の出版物²²で使用)およびSpike-in制御参照ゲノム(出芽酵母;R64-1-1)をbowtie2-indexフォルダ(~/Desktop/Easy-Shells_CUTnRUN/bowtie2-index)に格納します。(iii) ログファイル (bowtie2-index-log.txt) をログディレクトリ (~/Desktop/GSE126612/log/bowtie2-index) に書き留めます。
実行が完了したら、ログファイルを確認します。エラーメッセージが表示された場合は、エラーを修正し、手順6.3を繰り返します。解決すべき問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)を使用してサポートを依頼してください。
注:現在、Bowtie2のウェブサイト(https://bowtie-bio.sourceforge.net/bowtie2/manual.shtml)では、さまざまな参照ゲノムのBowtie2インデックスを提供しています。ユーザーは、 Script_05_bowtie2-index.sh を編集して、ユーザーの要件を満たす任意のBowtie2インデックスをダウンロードできます。ユーザーが目的の参照ゲノムのBowtie2インデックスを見つけることができない場合は、以下から参照ゲノム配列fastaファイルを見つけてください。
1. Ensembl ftp (https://ftp.ensembl.org/pub/current_fasta/)
2. UCSC の Web ページ (https://hgdownload.soe.ucsc.edu/downloads.html)
3. または他の種固有のデータベース。
  参照ゲノム配列のfastaファイルを見つけたら、Bowtie2 Webサイトの「The bowtie2-build indexer」セクション(https://bowtie-bio.sourceforge.net/bowtie2/manual.shtml#the-bowtie2-build-indexer)に従って、ダウンロードした参照ゲノムのBowtie2インデックスを作成します。

7. トリミングされたCUT&RUNシーケンシングリードのリファレンスゲノムへのマッピング

ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルに /path/to/bash (または /bin/bash などの同様のメッセージ) が表示される場合があります。
デフォルトシェルがBashでない場合は、ターミナルで chsh -s $(which bash) と入力して、Bashシェルをデフォルトシェルとして設定します。ターミナルがデフォルトでBashシェルを使用している場合は、この手順をスキップします。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_06_bowtie2-mapping.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このシェルスクリプトは、(1)bowtie2プログラムを実行して、すべてのアダプターと高品質のトリミングされたfastqファイルを実験(ヒト;hg19)とスパイクイン制御(出芽酵母;R64-1-1)は独立してゲノムを参照します。(ii) samtools ビュー 機能を実行して、マップされた読み取りペアファイルを bam 形式で圧縮します。(iii) フォルダ (~/Desktop/GSE126612/bowtie2-mapped) を 1 つ作成し、圧縮された mapped 読み取りペアファイルを bowtie2-mapped フォルダ内に保存します。(iv) 1つのフォルダ(~/Desktop/GSE126612/log/bowtie2-mapped)を作成し、hg19参照ゲノムにマッピングされたリードペアはテキストファイル bowtie2_log_hg19_SRR-number.txt 、R64-1-1にマッピングされたリードペアは bowtie2_log_R64-1-1_SRR-number.txt )としてマッピング処理のログをbonet2-mappingログフォルダ内に書き留めます。
実行が完了したら、ログファイルを確認します。ログ・ファイル内にエラー・メッセージがある場合は、エラーを修正し、シェル・スクリプトを再実行してください。解決すべき問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)を使用してサポートを依頼してください。
注:このシェルスクリプトは、ペアエンドシーケンシングファイルをマップするオプションを使用してbowtie2を実行し、フラグメント長が10 bp〜700 bpの一致するマッピングされた読み取りペアを見つけます。ターミナルで bowtie2 --help と入力するか、bowtie2のWebサイト(https://bowtie-bio.sourceforge.net/bowtie2/manual.shtml#the-bowtie2-aligner)にアクセスしてオプションの説明を確認し、必要に応じてオプションを理解して変更します。このシェルスクリプトを使用して、fastq ファイルと Bowtie2 インデックスのパスと名前の形式を変更することにより、他の fastq ファイルをマップします。

8. マップされた読み取りペアファイルの並べ替えとフィルタリング

ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルに /path/to/bash (または /bin/bash などの同様のメッセージ) が表示される場合があります。
デフォルトのシェルがBashでない場合は、ターミナルで「chsh -s $(which bash)」と入力して、Bashシェルをデフォルトのシェルとして設定します。ターミナルがデフォルトでBashシェルを使用している場合は、この手順をスキップします。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_07_filter-sort-bam.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このスクリプトは、(i)~/Desktop/GSE126612/bowtie2-mappedフォルダ内のすべての圧縮されたマップされた読み取りペアファイルに対してsamtoolsビュー機能を実行し、非正規染色体領域、公開注釈付きブラックリスト、およびTAリピート領域にマップされた読み取りペアをフィルタリングします。(ii) samtools の sort 関数を実行して、フィルタリングされた bam ファイルをフラグメントの名前または同じディレクトリ内の座標でソートします。(iii) ~/Desktop/GSE126612/log/filter-sort-bam ディレクトリに入力された bam ファイルごとにログファイルを書き留めてください。
実行が完了したら、ログファイルを慎重に確認してください。ログ・ファイルにエラー・メッセージがある場合は、エラーを修正し、シェル・スクリプトの実行を再試行してください。解決すべき問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)を使用してサポートを依頼してください。
注: フラグメントの名前でソートされた結果の bam ファイル (出力) は、フラグメント BED および生の readcounts bedGraph ファイルを作成するための入力ファイルとして機能します。座標でソートされた bam ファイルは、フラグメント BEDPE ファイルを生成するための入力ファイルとして機能します。すべての BED、bedGraph、および BEDPE は、ダウンストリーム解析でのピーク呼び出しと視覚化に使用されます。標準染色体領域 (chr1~22, chrX, chrY, chrM)、公開アノテーション付きブラックリスト領域²³ 、TA リピート領域¹⁸ のすべてのアノテーションベッドファイルは、 ~/Desktop/Easy-Shells_CUTnRUN/blacklist ディレクトリにあります。必要に応じて、このディレクトリを使用してブラックリストファイルを追加します。このシェル・スクリプトを使用して、bam ファイルのパスと名前を変更することにより、他のマップされた読み取りペア bam ファイルに対して同じ機能を実行します。ターミナルで samtools view --help と samtools sort --help と入力して、これらの機能についてさらに説明してください。

9. マッピングされた読み取りペアをフラグメント BEDPE、BED、および生の readcounts bedGraph ファイルに変換します

ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルに /path/to/bash (または /bin/bash などの同様のメッセージ) が表示される場合があります。
デフォルトシェルがBashでない場合は、ターミナルで chsh -s $(which bash) と入力して、Bashシェルをデフォルトシェルとして設定します。ターミナルがデフォルトでBashシェルを使用している場合は、この手順をスキップします。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_08_bam-to-BEDPE-BED-bedGraph.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注: このスクリプトは、(i) macs3 filterdup と awk 関数を実行して、座標でソートされた bam ファイルをフラグメント長が 1kb 未満のフラグメント BEDPE ファイルに変換し、BEDPE ファイルを ~/Desktop/GSE126612/BEDPE に保存します。(ii) ログディレクトリ (~/Desktop/GSE126612/log/bam-to-BEDPE) を作成し、マッピングされた読み取りフラグメントファイルごとにログファイルを書き留めます。(iii) bedtools bamtobed と awk, cut, sort 関数を実行して、フラグメントの名前でソートされた bam ファイルをフラグメント長が 1 kb 未満のフラグメント BED ファイルに変換します。(iv) フォルダ (~/Desktop/GSE126612/bam-to-bed) を 1 つ作成し、bam-to-bed フォルダ内にフラグメント BED ファイルを保存します。(v) マッピングされた読み取りフラグメントBEDファイルごとにログファイルをログディレクトリ(~/Desktop/GSE126612/log/bam-to-bed)に書き留めます。(vi) bedtools genomecov 関数を実行し、1つのフォルダ(~/Desktop/GSE126612/bedGraph)内のフラグメントBEDファイルを使用して、生のreadcounts bedGraphファイルを生成します。
実行が完了したら、ログファイルを注意深く確認してください。解決すべき問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)を使用してサポートを依頼してください。
注: 出力された未処理の readcounts bedGraph ファイルは、セクション 12 の正規化オプションとセクション 10 のスケーリングされたフラクショナル readcount (SFRC) 正規化²² を備えた SEACR ピーク呼び出し元プログラムの入力ファイルとして使用されます。フラグメントBEDファイルは、セクション 10.To のネガティブコントロール（SRPMC)正規化^24,25でマッピングされたSpike-in正規化リード数100万当たりリードの入力ファイルとして機能します。クロマチン関連因子のCUT&RUNデータのみの短いフラグメント（>100bp)をキャプチャしたり、このスクリプトのフラグメントフィルタリングステップを変更して、正規化ステップを続行します。同じサンプル内の短いサイズのフラグメントと通常のサイズのフラグメント間でCUT&RUN信号を比較するには、SFRCノーマライゼーションが短いフラグメントのみのキャプチャによる潜在的なダウンサンプリング効果を減らすのに役立つ場合があります。このシェル・スクリプトを使用して、bam ファイルと bed ファイルのパスと名前の形式を変更することにより、他のペア・エンド・シーケンス・ソート bam ファイルに対して同じプロセスを実行します。

10. 未加工の readcounts bedGraph ファイルを正規化された bedGraph および bigWig ファイルに変換する

ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルに /path/to/bash (または /bin/bash などの同様のメッセージ) が表示される場合があります。
デフォルトシェルがBashでない場合は、ターミナルで chsh -s $(which bash) と入力して、Bashシェルをデフォルトシェルとして設定します。ターミナルがデフォルトでBashシェルを使用している場合は、この手順をスキップします。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_09_normalization_SFRC.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このスクリプトは次のように書かれています:(i)awk関数でforループを実行し、 ~/Desktop/GSE126612/bedGraph内の生のreadcounts bedGraphファイルを使用してSFRC正規化されたbedGraphファイルを作成します。(ii) bedGraphToBigWig 関数を実行して、 ~/Desktop/GSE126612/bigWig に SFRC 正規化された bedGraph ファイルの圧縮形式 (.bw) を作成します。(iii) SFRC計算に使用した正規化係数を1回の実行ごとに記録するログファイルを1つ書き留め、 ~/Desktop/GSE126612/log/SFRC内にログファイルを保存します。
実行が完了したら、ログファイルを確認します。エラーメッセージが表示された場合は、エラーを修正し、シェルスクリプトを再度実行してください。解決すべき問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)を使用してサポートを依頼してください。
注: スケーリングされた小数 readcount の正規化は、CUT&RUN データセットの元の出版物²² で使用GSE126612。 bin i での正規化の公式は、以下と同じです。

このノーマライゼーション法には、ネガティブコントロール(IgGサンプルなど)によるノーマライゼーションやスパイクインコントロールが含まれていないため、サンプル間のゲノムワイドなシグナルの違いを観察するには、このアプローチは理想的ではない可能性があります。ただし、この方法は理論的には他の合計読み取りカウントベースの正規化 (Count Per Million など) と類似しているため、サンプル間のローカル信号の違いを観察するのに十分です。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_09_normalization_SRPMC.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このスクリプトは、(i)bedtools genomecov関数でforループを実行し、~/Desktop/GSE126612 GSE126612/bam-to-bedのフラグメントBEDファイルを使用して、~/Desktop//bedGraphにSRPMC正規化されたベッドグラフファイルを作成します。(ii) SRPMC の正規化に使用された正規化係数を ~/Desktop/GSE126612/log/SRPMC に記録するログファイルを書き留めます。(iii) bedGraphToBigWig 関数を実行して、正規化された bedGraph ファイルの圧縮形式 (.bw) を作成し、正規化された bigWig ファイルを ~/Desktop/GSE126612/bigWig フォルダに保存します。
実行が完了したら、ログファイルを慎重に確認してください。ログ・ファイル内にエラー・メッセージがある場合は、エラーを修正し、シェル・スクリプトを再実行してください。解決すべき問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)を使用してサポートを依頼してください。
注:SRPMC正規化の式は、RPM(Reads Per Million mapped reads)正規化係数、RPS(Rep-per Spike-in reads比率)、および制御^24,25への相対信号比を組み合わせることにより、ネガティブコントロール(IgGサンプルなど)とスパイクイン制御の両方で実際のサンプルリードカウントを正規化するために開発されました。RPSの定義は以下と同じです。

実サンプルとネガティブコントロールサンプルの両方にRPSを適用すると、実サンプルの制御に対する相対信号比(RS)は次のように計算できます。

また、RPM正規化係数(RPM:NF)の定義は以下と同じです。

ここから、RS と RPM:NF を組み合わせることにより、SRPMC 正規化係数 (SRPMC:NF) が出力されます。

そして、この式は次のように簡略化できます。

したがって、SRPMC法では、(1)コントロールとサンプル間のスパイクインリードの比率、および(2)RPM正規化コントロールリードの比率でリードを正規化します。この正規化係数はスパイクインリードを考慮し、サンプル間でコントロールリードを比較可能にするため、この方法は、サンプル間のゲノムワイドな違いを観察し、異なるバッチ実験における実際のサンプルとコントロールの合計リードのバッチ効果を減らすのに適しています。これらの正規化されたbedGraphファイルは、セクション11でSEACRを使用してピークを呼び出すための入力ファイルになります。また、これらの正規化されたbigWigファイルは、IGVによる遺伝子座の視覚化や、Deeptoolsによるヒートマップと平均プロットの作成に使用されます。データ品質を評価するためには、ゲノムブラウザを使用して、代表的なゲノム領域で正規化されたbigWigファイルを使用してCUT&RUNデータセットのランドスケープパターンを視覚化することを強くお勧めします。IgGコントロールに似たノイズの多いバックグラウンドシグナルパターンを示すCUT&RUNサンプルは、ダウンストリーム解析では省略するのが適切です。これらのシェル・スクリプトを使用して、入力と出力の両方のベッド・ファイルとベッドグラフ・ファイルのパスとファイル名を変更することにより、他の読み取りベッド・ファイルと未加工の readcounts bedGraph ファイルを正規化します。これらのスクリプトを編集して、このスクリプト内の係数と式を変更することにより、他の正規化計算を適用します。

11. フラグメントサイズ分布の検証

ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルに /path/to/bash (または /bin/bash などの同様のメッセージ) が表示される場合があります。
デフォルトシェルがBashでない場合は、ターミナルで chsh -s $(which bash) と入力して、Bashシェルをデフォルトシェルとして設定します。ターミナルがデフォルトでBashシェルを使用している場合は、この手順をスキップします。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_10_insert-size-analysis.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注: このスクリプトは、(i) ~/Desktop/GSE126612/filtered-bam フォルダ内のマップされた読み取りペア bam ファイルを使用して picard.jar CollectInsertSizeMetrics 関数を実行し、挿入サイズの分布を特定するために記述されています。(ii) フォルダ(~/Desktop/GSE126612/insert-size-distribution)を1つ作成し、作成したフォルダに挿入サイズ分布の解析結果を保存します。(iii) ~/Desktop/GSE126612/log/insert-size-distribution フォルダ内の入力 bam ファイルごとにログファイルを書き留めてください。
実行が完了したら、ログファイルを注意深く確認してください。ログ・ファイル内にエラー・メッセージがある場合は、エラーを修正し、シェル・スクリプトの実行を再試行してください。解決すべき問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)を使用してサポートを依頼してください。
注:一般に、CUT&RUNサンプルのインサートサイズ解析 (出力) では、モノ (100-300 bp) およびジ (300-500 bp) のヌクレオソームサイズ範囲に主要なピークが見られます。技術的なエラーや制限 (CUT&RUNサンプル調製中のMNaseの過剰消化/消化不足や、ライブラリー調製中の不適切なサイズ選択など) により、トリヌクレオソームフラグメント以上 (500-700 bp) およびサブヌクレオソームフラグメントより同等またはそれより短いフラグメント (<100 bp) が濃縮される可能性があります。長鎖フラグメント(>500 bp)と短分子フラグメント(<100 bp)の濃縮にモノヌクレオソームサイズのピークが存在しないのは、ウェットラボステージで選択したライブラリーサイズの選択範囲、またはシーケンシング深度が低いことが原因である場合があります。シーケンシングの深さ ('total sequencingd bases' / 'total reference genome size')、セクション10の正規化されたreadcounts bigWigファイルを使用したゲノムランドスケープの概要、およびインサートサイズの分布パターンを一緒に比較して、処理されたCUT&RUNサンプルの品質を明らかにします。ヒストグラムの破線は、挿入サイズが X 軸の値以上の読み取りの「累積割合」を表しています。この破線により、入力マップ読み取りファイル内の挿入サイズの分布を識別できます。X軸に沿った進行は、チップサイズの増加と関連しています。破線は、入力 bam ファイル内のマップされた読み取りペアのうち、交差する x 軸の位置に示されている以上の挿入サイズを持つものの割合を示します。したがって、解釈は左側の 1 から始まり、すべての読み取りの挿入サイズが最小サイズ以上であることを示し、挿入サイズが大きくなるにつれて 0 に向かって減少します。

12. MACS2、MACS3、SEACRを使用したピークの呼び出し

ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルに /path/to/bash (または /bin/bash などの同様のメッセージ) が表示される場合があります。
デフォルトシェルがBashでない場合は、ターミナルで chsh -s $(which bash) と入力して、Bashシェルをデフォルトシェルとして設定します。ターミナルがデフォルトでBashシェルを使用している場合は、この手順をスキップします。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_11_peak-calling_MACS.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このスクリプトは、(i)フラグメントBEDPEファイルを使用してIgG制御の有無にかかわらず macs2 callpeak および macs3 callpeak 関数を実行し、ピークを呼び出し、ピーク呼び出し結果を出力ディレクトリ(~/Desktop/GSE126612/MACS2 および ~/Desktop/GSE126612/MACS3)に保存します。(ii) これらのピークコールのログをテキストファイルとしてログディレクトリ(~/Desktop/GSE126612/log/MACS2 および ~/Desktop/GSE126612/log/MACS3)に書き留めます。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_11_peak-calling_SEACR.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このスクリプトは、(i)IgG制御の有無にかかわらず、 SEACR_1.3.sh生の readcounts bedGraphおよび正規化されたbedGraphファイルを使用してピークを呼び出すための厳密で緩和されたオプションを使用して、スクリプトを実行します。(ii) 出力ディレクトリ (~/Desktop/GSE126612/SEACR-peaks) を作成し、ピーク呼び出し結果を SEACR で保存します。(iii) これらのピークコールのログをテキストファイルとしてログディレクトリ(~/Desktop/GSE126612/log/SEACR)に書き留めます。
シェルスクリプトの実行が完了したら、ログファイルを注意深く確認してください。ログ・ファイルにエラー・メッセージがある場合は、まずエラーを修正してください。プログラムによっては、IgG制御オプション付きIgG制御サンプルのピークを一緒に呼び出さない場合があるため、IgG制御オプション付きIgG制御サンプルに関するエラーメッセージを省略しています。解決すべき問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)を使用してサポートを依頼してください。
注意: これら 2 つのシェルスクリプトは、3 つのピークコーラー (MACS2、MACS3、SEACR) を使用して CUT&RUN サンプルのピークコーリングを行います。IgG 制御オプションの有無にかかわらず、raw readcounts bedGraph ファイルを使用してピークコーラーの正規化オプションを使用するか、ピークコーラーの正規化オプションなしで正規化された readcounts bedGraph ファイルを使用し、厳密で緩和された SEACR ピークコーリングオプションを使用します。ピーク呼び出し出力ファイルはダウンストリーム解析で直接使用するには十分ではないため、Easy Shells CUTnRUNには、これらのピーク出力ファイルを処理して、染色体、開始、終了、ピークの名前を含む新しいピークファイルを作成するスクリプトが1つ含まれています。Easy Shells CUTnRUNは、集中的なピークコールアプローチを通じて、3つのピークコール間でコールされたピークを比較することにより、ユーザーのCUT&RUNプロジェクトに最適なピークコールプログラムを選択する機会を提供します。さらに、このCUT&RUN解析パイプラインは、ユーザーのCUT&RUNプロジェクトに最適なピークコールオプションを選択する機会も提供します。これらの比較は、ベン図によって行われ、ヒートマップと平均プロットとして視覚化されます。

13. ピークベッドファイルの作成

ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルに /path/to/bash (または /bin/bash などの同様のメッセージ) が表示される場合があります。
デフォルトシェルがBashでない場合は、ターミナルで chsh -s $(which bash) と入力して、Bashシェルをデフォルトシェルとして設定します。ターミナルがデフォルトでBashシェルを使用している場合は、この手順をスキップします。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_12_make-peak-bed.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このスクリプトは、(i)~/Desktop/GSE126612/SEACRフォルダ内のベッドファイルを使用してawk機能を実行し、2種類のSEACRピークベッドファイル~/Desktop/GSE126612/peak-bed_SEACRフォルダを作成します。ピークベッドファイル全体には各ピークの開始と終了が含まれ、フォーカスされたピークベッドファイルには、各ピーク内の最も高い信号ビンの開始とベッドが含まれます。(ii) ~/Desktop/GSE126612/MACS2 フォルダと ~/Desktop/GSE126612/MACS3 フォルダの _peaks.xls ファイルを使用して awk 機能を実行し、~/Desktop/GSE126612/peak-bed_MACS2 フォルダと ~/Desktop/GSE126612/peak-bed_MACS3 フォルダに MACS2 と MACS3 が呼び出した各ピークの開始と終了を含むピークベッドファイル全体を作成します。(iii) ~/Desktop/GSE126612/MACS2 フォルダと ~/Desktop/GSE126612/MACS3 フォルダの _summits.bed ファイルを使用して awk 機能を実行し、各ピーク内の最上位ビンの開始と終了を含むフォーカスされたピークベッドファイルを作成します。(iv) ログファイルは、~/Desktop/GSE126612/log/peak-bedフォルダにテキストファイル形式で書き込まれます。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_13_filter-peaks.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このスクリプトは、(i)IgG制御ピークと重複するピークを削除するためにIgG制御オプションなしで呼び出されるピークベッドファイルを使用して 、bedtools交差 関数を実行するために書かれています。(ii) フィルタリングされたピークベッドのファイルは 、~/Desktop/GSE126612/peak-bed-filtered_MACS2、~/Desktop/GSE126612/peak-bed-filtered_MACS3、 ~/Desktop/GSE126612/peak-bed-filtered_SEACR フォルダに保存されます。(iii) ログファイル log_filter-peaks.txt が ~/Desktop/GSE126612/log/filter-peaks フォルダに作成されます。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/s Script_14_cat-merge-peak-bed_MACS.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このスクリプトは、(i) cat および sort 関数を実行して、複製のMACS2およびMACS3全体のピークベッドファイルを1つのピークベッドファイルとして連結し、連結されたピークベッドファイルを ~/Desktop/GSE126612/bed-for-comparison フォルダにソートします。(ii)連結された全ピークベッドファイルを使用して bedtoolsマージ 機能を実行し、互いに重なるピークをマージします。(iii) ログファイル log_cat-merged-peak-bed_MACS.txt がログフォルダ ~/Desktop/GSE126612/log/cat-merged-peak-bedに書き込まれます。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_14_cat-merge-peak-bed_SEACR.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このスクリプトは、(i) cat 関数と sort 関数を実行して、replicatesのSEACR全ピークベッドファイルを1つのピークベッドファイルとして連結し、連結されたピークベッドファイルを ~/Desktop/GSE126612/bed-for-compare フォルダにソートします。(ii)連結された全ピークベッドファイルを使用して bedtoolsマージ 機能を実行し、互いに重なるピークをマージします。(iii) ログファイル log_cat-merged-peak-bed_SEACR.txt がログフォルダ ~/Desktop/GSE126612/log/cat-merged-peak-bed に書き込まれます。
シェル・スクリプトの実行が完了したら、ログ・ファイルを慎重に検討します。ログファイルにエラーメッセージがある場合は、エラーを修正してスクリプトを再度実行してください。解決すべき問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)を使用してサポートを依頼してください。
注:ピーク領域全体のピークベッドファイルは、ベン図解析の入力ファイルとして使用され、ピークコールオプション、ピークコール方法、反復、およびピーク領域近くのゲノムランドスケープ観測間の類似性を比較します。マージされた全ピーク領域のピークベッドファイルは、主成分(PC)分析およびdeeptoolsを使用したピアソン係数相関分析に使用されます。フォーカスされたピークベッドファイルは、Deeptoolsを使用したヒートマップおよび平均プロット分析に使用されます。

14. ピアソン相関と主成分(PC)分析を使用した反復間の類似性の検証。

ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルに /path/to/bash (または /bin/bash などの同様のメッセージ) が表示される場合があります。
デフォルトシェルがBashでない場合は、ターミナルで chsh -s $(which bash) と入力して、Bashシェルをデフォルトシェルとして設定します。ターミナルがデフォルトでBashシェルを使用している場合は、この手順をスキップします。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_15_correlation_plotCorrelation.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このスクリプトは、(i)座標でソートされた反復のbamファイルを使用してmultiBamSummary BEDファイル機能を実行し、CTCF、H3K27Ac、およびRNAPII-S5Pのマージされた全ピークベッドファイルを使用して、Desktop/GSE126612/deeptools_multiBamSummaryフォルダにPearson相関分析用のマトリックスファイルを生成します。(ii) 行列ファイルを使用してplotCorrelation関数を実行し、Pearson相関係数の計算とヒートマップクラスタリングを行い、結果を~/Desktop/GSE126612/deeptools_plotCorrelationフォルダに保存します。(iii) ログファイルを ~/Desktop/GSE126612/log/correlation フォルダにlog_plotCorrelation.txt書き留めます。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_15_correlation_plotPCA.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このスクリプトは、(i)座標でソートされたbamファイルを使用し、すべてのCTCF、H3K27ac、およびRNAPII-S5Pピークを含むマージされた全ピークベッドファイルを使用してmultiBamSummary BEDファイル機能を実行し、Desktop/GSE126612/deeptools_multiBamSummaryフォルダに主成分分析(PCA)用のマトリックスファイルを生成するために書かれています。(ii) 行列ファイルを使用してplotPCA関数を実行し、結果を~/Desktop/GSE126612/deeptools_plotPCAフォルダに保存します。(iii) ログファイルを ~/Desktop/GSE126612/log/correlation フォルダにlog_plotPCA.txt書き留めます。
シェル・スクリプトの実行が完了したら、ログ・ファイルを確認します。エラー・メッセージが表示された場合は、エラーを修正し、シェル・スクリプトを再実行してください。解決すべき問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)を使用してサポートを依頼してください。
注:原則として、適切に準備および処理された反復は、同じクラスタリンググループ内でより高いピアソン相関係数値を示し、主成分分析での位置が近いことを示します。主成分プロットでピアソン相関係数が低く、他の反復からの距離が長い反復は、反復間で潜在的な外れ値を示している可能性があります。このシェルスクリプトは、マップされた読み取りデータ任意の bam 形式に適用できます。bigwig ファイルのパスとファイル名を変更して、プロジェクト固有の要件を満たします。

15. ベン図を使用した反復、ピーク呼び出し方法、およびオプション間の類似性の検証

ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルには /path/to/bash (/ bin/bash など) のようなものが存在する可能性があります。
デフォルトシェルがBashでない場合は、ターミナルで chsh -s $(which bash) と入力して、Bashシェルをデフォルトシェルとして設定します。ターミナルがデフォルトのシェルとしてBashシェルを使用している場合は、この手順をスキップすることを検討してください
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_16_venn-diagram_methods.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このスクリプトは、(i)ピーク領域全体のピークベッドファイルを使用して介入ベン関数を実行し、さまざまなオプション(IgG制御オプションの有無、正規化の有無、SEACRのストリンジェント/リラックスピークコールオプション)によって呼び出されたピーク間のオーバーラップを見つけるために書かれています。(ii) フォルダ (~/Desktop/GSE126612/intervene_methods) を 1 つ作成し、このフォルダにベン図解析結果を保存します。(iii) ログファイルを 1 つ ~/Desktop/GSE126612/log/intervene フォルダにlog_intervene_methods.txt書き留めます。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_16_venn-diagram_replicates.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注:このスクリプトは、(i)全ピーク領域ピークベッドファイルを使用して介入ベン関数を実行し、レプリケートのピーク間のオーバーラップを見つけるために記述されています。(ii) フォルダ(~/Desktop/GSE126612/intervene_replicates)を1つ作成し、このフォルダにベン図の解析結果を保存します。(iii) ログファイルを 1 つ ~/Desktop/GSE126612/log/intervene フォルダにlog_intervene_replicates.txt書き留めます。
シェル・スクリプトの実行が終了したら、ログ・ファイルを確認します。エラー・メッセージが表示された場合は、エラーを修正し、シェル・スクリプトを再実行してください。Easy Shells CUTnRUN解析パイプラインの使用に問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)でヘルプを求めてください。
注:これらのベン図解析の結果は、ダウンストリーム解析に最も適したピークコールオプション、メソッド、および再現性の高い反復を選択するための洞察を提供します。ピーク呼び出しオプションと、他のピーク呼び出し方法およびオプションと適切に重複して、最も高い呼び出しピーク番号を示す方法を選択することが好ましい場合があります。

16.ヒートマップと平均プロットを分析して、ピークを視覚化します。

ターミナルを開き、「 echo $SHELL 」と入力して、アクティブなターミナルのデフォルトシェルを確認します。Bash シェルが現在のターミナルのデフォルトシェルである場合、ターミナルには /path/to/bash (/ bin/bash など) のようなものが存在する可能性があります。
デフォルトシェルがBashでない場合は、ターミナルで chsh -s $(which bash) と入力して、Bashシェルをデフォルトシェルとして設定します。ターミナルがデフォルトのシェルとしてBashシェルを使用している場合は、この手順をスキップすることを検討してください
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_27_plotHeatmap_focused.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
注: このスクリプトは、(i) 正規化された bigWig ファイルとフォーカスされたピークベッドファイルを使用して computeMatrix 参照ポイント関数を実行し、~/Desktop/GSE126612/deeptools_computeMatrix フォルダー内のフォーカスされたピークの中心に正規化された readcounts マトリックスを作成するために記述されています。(ii) 正規化された readcounts 行列を使用して plotHeatmap 関数を実行し、フォーカスされたピーク位置での正規化された readcounts 分布パターンを視覚化するヒートマップと平均プロットを生成します。(iii) フォルダ(~/Desktop/GSE126612/deeptools_plotHeatmap)を1つ作成し、このフォルダ内にplotHeatmapの出力ファイルを保存します。(iv) ログファイルを 1 つ log_plotHeatmap_focused.txt ~/Desktop/GSE126612/log/plotHeatmap フォルダに書き留めます。
ターミナルに 「~/Desktop/Easy-Shells_CUTnRUN/scripts/Script_27_plotHeatmap_whole.sh と入力するか、シェルスクリプトファイルをターミナルにドラッグして入力します。
このスクリプトは、(i) 正規化された bigWig ファイルとピークベッド全体のファイルを使用して computeMatrix 参照点 関数を実行し、 ~/Desktop/GSE126612/deeptools_computeMatrix フォルダー内のピーク全体の中心に正規化された読み取りカウント行列を作成するために書かれています。(ii) 正規化された readcounts 行列を使用して plotHeatmap 関数を実行し、ピーク位置全体で正規化された readcounts 分布パターンを視覚化するヒートマップと平均プロットを生成します。(iii) フォルダ (~/Desktop/GSE126612/deeptools_plotHeatmap) を 1 つ作成し、このフォルダ内に plotHeatmap 出力ファイルを保存します。(iv) ログファイル log_plotHeatmap_whole.txt を ~/Desktop/GSE126612/log/plotHeatmap フォルダに 1 つ書き留めます。
シェル・スクリプトの実行が終了したら、ログ・ファイルを確認します。エラー・メッセージが表示された場合は、エラーを修正し、シェル・スクリプトを再実行してください。Easy Shells CUTnRUN解析パイプラインの使用に問題がある場合は、Easy Shells CUTnRUN github issuesのWebページ(https://github.com/JunwooLee89/Easy-Shells_CUTnRUN/issues)でヘルプを求めてください。
注:理想的には、MACS2/3 ピークのピーク山頂位置と SEACR ピークの焦点が合ったピーク位置は、プロットの中心でシャープで焦点が合った信号分布を示します。ただし、ピーク呼び出しアルゴリズムがCUT&RUNデータに対して適切に機能しない場合、プロットにあまり焦点の合っていない「ノイズの多い」信号分布が表示されることがあります。したがって、呼び出されたピークの数と出力プロットのピーク信号分布パターンを使用することで、ダウンストリームのピークアノテーションを含むさらなるCUT&RUN解析のピーク妥当性を判断することができます。

結果

品質とアダプタートリミングにより、高いシーケンシング品質で読み取りを保持
ハイスループットシーケンシング技術は、リードの配列「変異」などのシーケンシングエラーを生成する傾向があります。さらに、シーケンシングアダプターダイマーは、ライブラリ調製中のアダプター除去が不十分なため、シーケンシングデータセットで濃縮できます...

ディスカッション

クロマチン上のタンパク質占有率をマッピングする能力は、クロマチン生物学の分野で機構研究を行うための基本です。ラボがクロマチンのプロファイリングに新しいウェットラボ技術を採用するにつれて、ウェットラボ実験からのシーケンシングデータを分析する能力は、ウェットラボの科学者にとって共通のボトルネックになります。そこで、バイオインフォマ...

開示事項

著者は開示しないことを宣言します。

謝辞

イラスト入りのフィギュアはすべて BioRender.com で作成しました。CAIは、Ovarian Cancer Research Alliance Early Career Investigator Award、Forbeck Foundation Accelerator Grant、Minnestoa Ovarian Cancer Alliance National Early Detection Research Awardを通じて提供された支援を認めています。

資料

Name	Company	Catalog Number	Comments
bedGraphToBigWig	ENCODE	https://hgdownload.soe.ucsc.edu/admin/exe/	Software to compress and convert readcounts bedGraph to bigWig
bedtools-2.31.1	The Quinlan Lab @ the U. of Utah	https://bedtools.readthedocs.io/en/latest/index.html	Software to process bam/bed/bedGraph files
bowtie2 2.5.4	Johns Hopkins University	https://bowtie-bio.sourceforge.net/bowtie2/index.shtml	Software to build bowtie index and perform alignment
CollectInsertSizeMetrics (Picard)	Broad institute	https://github.com/broadinstitute/picard	Software to perform insert size distribution analysis
Cutadapt	NBIS	https://cutadapt.readthedocs.io/en/stable/index.html	Software to perform adapter trimming
Deeptoolsv3.5.1	Max Planck Institute	https://deeptools.readthedocs.io/en/develop/index.html	Software to perform Pearson coefficient correlation analysis, Principal component analysis, and Heatmap/average plot analysis
FastQC Version 0.12.0	Babraham Bioinformatics	https://github.com/s-andrews/FastQC	Software to check quality of fastq file
Intervenev0.6.1	Computational Biology & Gene regulation - Mathelier group	https://intervene.readthedocs.io/en/latest/index.html	Software to perform venn diagram analysis using peak files
MACSv2.2.9.1	Chan Zuckerberg initiative	https://github.com/macs3-project/MACS/tree/macs_v2	Software to call peaks
MACSv3.0.2	Chan Zuckerberg initiative	https://github.com/macs3-project/MACS/tree/master	Software to call peaks
Samtools-1.21	Wellcome Sanger Institute	https://github.com/samtools/samtools	Software to process sam/bam files
SEACRv1.3	Howard Hughes Medial institute	https://github.com/FredHutch/SEACR	Software to call peaks
SRA Toolkit Release 3.1.1	NCBI	https://github.com/ncbi/sra-tools	Software to download SRR from GEO
Trim_Galore v0.6.10	Babraham Bioinformatics	https://github.com/FelixKrueger/TrimGalore	Software to perform quality and atapter trimming

参考文献

Hainer, S. J., Fazzio, T. G. High-resolution chromatin profiling using CUT&RUN. Curr Protoc Mol Biol. 126 (1), e85 (2019).
Zhang, Y., et al. Model-based analysis of ChiP-Seq (MACS). Genome Biology. 9 (9), R137 (2008).
Xu, S., Grullon, S., Ge, K., Peng, W. . Stem cell transcriptional networks: Methods and Protocols. , (2014).
Meers, M. P., Tenenbaum, D., Henikoff, S. Peak calling by sparse enrichment analysis for cut&run chromatin profiling. Epigenetics Chromatin. 12 (1), 42 (2019).
Ashburner, M., et al. Gene ontology: Tool for the unification of biology. The gene ontology consortium. Nat Genet. 25 (1), 25-29 (2000).
Harris, M. A., et al. The gene ontology (GO) database and informatics resource. Nucleic Acids Res. 32 (Database issue), D258-D261 (2004).
The Gene Ontology Consortium. The gene ontology resource: 20 years and still going strong. Nucleic Acids Res. 47 (D1), D330-D338 (2019).
Conesa, A., et al. Blast2go: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
Carbon, S., et al. AmiGO: Online access to ontology and annotation data. Bioinformatics. 25 (2), 288-289 (2009).
Eden, E., Navon, R., Steinfeld, I., Lipson, D., Yakhini, Z. Gorilla: A tool for discovery and visualization of enriched go terms in ranked gene lists. BMC Bioinformatics. 10, 48 (2009).
Huang Da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
Huang Da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using david bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
Ge, S. X., Jung, D., Yao, R. ShinyGO: A graphical gene-set enrichment tool for animals and plants. Bioinformatics. 36 (8), 2628-2629 (2020).
Tang, D., et al. SRplot: A free online platform for data visualization and graphing. PLoS One. 18 (11), e0294236 (2023).
Ramírez, F., et al. Deeptools2: A next generation web server for deep-sequencing data analysis. Nucleic Acids Res. 44 (W1), W160-W165 (2016).
Robinson, J. T., et al. Integrative genomics viewer. Nat Biotechnol. 29 (1), 24-26 (2011).
Kent, W. J., et al. The human genome browser at ucsc. Genome Res. 12 (6), 996-1006 (2002).
Yu, F., Sankaran, V. G., Yuan, G. -. C. CUT&RUNTools 2.0: A pipeline for single-cell and bulk-level CUT&RUN and CUT&Tag data analysis. Bioinformatics. 38 (1), 252-254 (2021).
Zhu, Q., Liu, N., Orkin, S. H., Yuan, G. -. C. CUT&RUNTools: A flexible pipeline for CUT&RUN processing and footprint analysis. Genome Biol. 20 (1), 192 (2019).
. Nf-core/cutandrun: Nf-core/cutandrun v3.2.2 iridium ibis Available from: https://github.com/nf-core/cutandrun/tree/3.2.2 (2024)
Kong, N. R., Chai, L., Tenen, D. G., Bassal, M. A. A modified CUT&RUN protocol and analysis pipeline to identify transcription factor binding sites in human cell lines. STAR Protoc. 2 (3), 100750 (2021).
Meers, M. P., Bryson, T. D., Henikoff, J. G., Henikoff, S. Improved CUT&RUN chromatin profiling tools. eLife. 8, e46314 (2019).
Amemiya, H. M., Kundaje, A., Boyle, A. P. The encode blacklist: Identification of problematic regions of the genome. Sci Rep. 9 (1), 9354 (2019).
Deberardine, M. BRgenomics for analyzing high-resolution genomics data in R. Bioinformatics. 39 (6), btad331 (2023).
Deberardine, M., Booth, G. T., Versluis, P. P., Lis, J. T. The nelf pausing checkpoint mediates the functional divergence of cdk9. Nat Commun. 14 (1), 2762 (2023).
Krueger, F., James, F. O., Ewels, P. A., Afyounian, E., Schuster-Boeckler, B. . FelixKrueger/TrimGalore: v0.6.7 - DOI via Zenodo. , (2021).
. Easy bam downsampling Available from: https://davemcg.github.io/post/easy-bam-downsampling/ (2018)
. Positionbaseddownsamplesam (picard) Available from: https://gatk.broadinstitute.org/hc/en-us/articles/360041850311-PositionBasedDownsampleSam-Picard (2020)

転載および許可

このJoVE論文のテキスト又は図を再利用するための許可を申請します

許可を申請

さらに記事を探す

Genetics CUT RUN DNA

This article has been published

Video Coming Soon

Keep me updated: