サインイン

このコンテンツを視聴するには、JoVE 購読が必要です。 サインイン又は無料トライアルを申し込む。

この記事について

  • 要約
  • 要約
  • 概要
  • プロトコル
  • 結果
  • ディスカッション
  • 開示事項
  • 謝辞
  • 資料
  • 参考文献
  • 転載および許可

要約

DiCoExpress は、品質管理から共発現までの RNA-Seq 分析を実行するために R に実装されたスクリプトベースのツールです。DiCoExpressは、最大2つの生物学的要因まで完全でアンバランスな設計を処理します。このビデオチュートリアルでは、DiCoExpressのさまざまな機能について説明します。

要約

NGSデータ分析で統計モデリングを適切に使用するには、高度な専門知識が必要です。最近、RNA-Seqデータの微分解析に一般化線型モデルを使用することと、共発現解析を実行するための混合モデルの利点について、コンセンサスが高まっています。これらのモデリングアプローチを使用するための管理された設定を提供するために、RNA-Seq分析を実行するための標準化されたRパイプラインを提供するDiCoExpressを開発しました。統計学やRプログラミングの知識がなくても、一般化線型モデル内のコントラストに基づく微分解析により、品質管理から共発現まで、完全なRNA-Seq解析を実行できます。エンリッチメント解析は、発現差のある遺伝子のリストと、共発現遺伝子クラスターの両方で提案されています。このビデオチュートリアルは、ユーザーがDiCoExpressとRNA-Seq実験の生物学的解釈を強化する可能性を最大限に活用するのに役立つステップバイステップのプロトコルとして考案されています。

概要

次世代RNAシーケンシング(RNA-Seq)技術は、トランスクリプトーム解析のゴールドスタンダードとなっています1。この技術の黎明期から、バイオインフォマティシャンと生物統計学者の共同の努力により、マッピングから転写産物の定量化まで、トランスクリプトーム解析のすべての重要なステップに取り組む多数の方法が開発されました2。生物学者が現在利用できるツールのほとんどは、統計計算とグラフ3のためのRソフトウェア環境内で開発されており、生物学的データ分析のための多くのパッケージはBioconductorリポジトリ4で利用可能です。これらのパッケージは、分析の完全な制御とカスタマイズを提供しますが、コマンドラインインターフェイスの広範な使用を犠牲にしています。多くの生物学者は「ポイントアンドクリック」アプローチ5により慣れているため、RNA-Seq分析の民主化には、よりユーザーフレンドリーなインターフェースまたはプロトコルの開発が必要です6。例えば、Shiny7 を使用して R パッケージの Web インターフェイスを構築することができ、R-studio8 インターフェイスを使用するとコマンドラインデータ分析がより直感的になります。専用のステップバイステップのチュートリアルの開発は、新しいユーザーにも役立ちます。特に、ビデオチュートリアルは古典的なテキストチュートリアルを補完し、すべての手順ステップの理解を深めます。

我々は最近、中立的な比較研究10,11,12に基づいて最良のものと考えられる方法を用いて、Rにおける多因子RNA-Seq実験を分析するためのツールであるDiCoExpress9を開発しました。DiCoExpressは、カウントテーブルから始めて、データ品質管理ステップを提案し、続いて一般化線型モデル(GLM)を用いた差動遺伝子発現解析(edgeRパッケージ13)およびガウス混合モデル(coseqパッケージ12)を用いた共発現クラスターの生成を提案します。DiCoExpressは、最大2つの生物学的要因(遺伝子型と治療)と1つの技術的要因(すなわち、複製)までの完全でアンバランスな設計を処理します。DiCoExpressの独創性は、データ、スクリプト、および結果を格納および整理するディレクトリアーキテクチャと、コントラストの書き込みの自動化にあり、ユーザーは同じ統計モデル内で多数の質問を調査できます。統計結果を示すグラフィカルな出力を提供する努力も行われました。

DiCoExpressワークスペースは https://forgemia.inra.fr/GNet/dicoexpress でご利用いただけます。4つのディレクトリ、2つのpdf、2つのテキストファイルが含まれています。Data/ ディレクトリには、入力データセットが含まれています。このプロトコルでは、「チュートリアル」データセットを使用します。Sources/ ディレクトリには、分析の実行に必要な 7 つの R 関数が含まれており、ユーザーが変更してはなりません。分析は、Template_scripts/ ディレクトリに格納されているスクリプトを使用して実行されます。このプロトコルで使用されるプロトコルはDiCoExpress_Tutorial_JoVE.Rと呼ばれ、任意のトランスクリプトームプロジェクトに簡単に適応できます。すべての結果は Results/ ディレクトリに書き込まれ、プロジェクトに従って名前が付けられたサブディレクトリに格納されます。README.md ファイルには有用なインストール情報が含まれており、メソッドとその使用法に関する特定の詳細はDiCoExpress_Reference_Manual.pdfファイルにあります。

このビデオチュートリアルでは、コマンドラインベースのツールを使用して生物学者が感じる躊躇を克服することを目的として、DiCoExpressのさまざまな機能について説明します。ここでは、治療の有無にかかわらず、4つの遺伝子型の3つの生物学的複製における遺伝子発現を記述する人工RNA-Seqデータセットの解析を提示する。次に、図 1 に示す DiCoExpress ワークフローのさまざまな手順について説明します。「プロトコル」セクションで説明されているスクリプトと入力ファイルは、サイトで入手できます: https://forgemia.inra.fr/GNet/dicoexpress

データファイルの準備
Data/ ディレクトリに格納されている 4 つの csv ファイルは、プロジェクト名に従って名前を付ける必要があります。したがって、この例では、すべての名前は「チュートリアル」で始まり、プロトコルのステップ4でProject_Name = 「チュートリアル」を設定します。csv ファイルで使用される区切り記号は、ステップ 4 の Sep 変数に指定する必要があります。「チュートリアル」データセットでは、区切り文字は表です。上級ユーザーの場合、Filter 変数を使用して命令のリストと新しいProject_Nameを提供することで、データセット全体をサブセットに縮小できます。このオプションは、入力ファイルの冗長コピーを回避し、FAIR 原則14 を検証します。

4 つの csv ファイルのうち、COUNTS ファイルと TARGET ファイルのみが必須です。それらには、すべての遺伝子の生カウント(ここではTutorial_COUNTS.csv)と実験計画の説明(ここではTutorial_TARGET.csv)が含まれています。TARGET.csv ファイルには、すべてのサンプル (行ごとに 1 つのサンプル) が、各生物学的または技術的要因 (列内) のモダリティとともに記述されます。モダリティに選択する名前は、数字ではなく文字で始めることを強くお勧めします。最後の列の名前 ("レプリケート") は変更できません。最後に、サンプル名 (最初の列) は、COUNTS.csv ファイルの見出しの名前と一致する必要があります (この例ではGenotype1_control_rep1)。Enrichment.csv ファイルで、すべての行に 1 つのGene_IDと 1 つの注釈用語が含まれているのは、ユーザーがエンリッチメント分析を実行する予定がある場合のみです。1つの遺伝子に複数の注釈がある場合、それらは異なる行に記述する必要があります。Annotation.csv ファイルはオプションであり、出力ファイル内のすべての遺伝子の簡単な説明を追加するために使用されます。注釈ファイルを取得する最善の方法は、専用のデータベース(例:Thalemine:シロイヌナズナの https://bar.utoronto.ca/thalemine/begin.do)から情報を取得することです。

ディコエクスプレスの設置
DiCoExpress には、特定の R パッケージが必要です。コマンドラインソース("../Sources/Install_Packages.R") を R コンソールで表示し、必要なパッケージのインストール状態を確認します。Linux上のユーザーにとって、もう1つの解決策は、DiCoExpress専用で https://forgemia.inra.fr/GNet/dicoexpress/container_registry で利用可能なコンテナをインストールすることです。定義上、このコンテナーには、ライブラリやその他の依存関係など、必要なすべてのパーツを含む DiCoExpress が含まれています。

プロトコル

1. ディコエクスプレス

  1. R スタジオ セッションを開き、ディレクトリを Template_scripts に設定します。
  2. R スタジオで DiCoExpress_Tutorial.R スクリプトを開きます。
  3. DiCoExpress 関数を以下のコマンドを使用して R セッションにロードします。
    >ソース("../出典/Load_Functions.R")
    > Load_Functions()
    > Data_Directory = "../データ"
    > Results_Directory = "../結果/"
  4. 次のコマンドを使用して、R セッションにデータ・ファイルをロードします。
    > Project_Name = "チュートリアル"
    > フィルター = NULL
    > 9月="\t"
    > Data_Files = Load_Data_Files(Data_Directory、Project_Name、フィルター、9月)
  5. オブジェクトData_Filesをいくつかのオブジェクトに分割して、簡単に操作できるようにします。
    > Project_Name = Data_Files$Project_Name
    >ターゲット = Data_Files$ターゲット
    > Raw_Counts = Data_Files$Raw_Counts
    >アノテーション = Data_Files$アノテーション
    > Reference_Enrichment = Data_Files$Reference_Enrichment
  6. 「Nb条件」、「Nb複製」または「filterByExpr」の中から戦略を選択し、低発現遺伝子をフィルタリングするためのしきい値を選択します。ここで我々は選択します
    > Filter_Strategy = "Nbレプリケート"
    > CPM_Cutoff = 1
  7. コマンドでグループの色を指定する
    > Color_Group = ヌル
    注: NULL に設定すると、R は自動的に生物学的条件に色を属性付けます。それ以外の場合は、生物学的グループごとの色を示すベクトルを入力します。
  8. edgeR の関数 calcNormFactors によって受け入れられる正規化方法の中から、正規化方法を選択します。例えば
    > Normalization_Method = "TMM"
  9. 以下の機能を実行して品質管理を行う
    > Quality_Control(Data_Directory、Results_Directory、Project_Name、ターゲット、Raw_Counts、Filter_Strategy、Color_Group、CPM_Cutoff、Normalization_Method)
  10. 状態レプリケート = データがレプリケート係数に従ってペアになっている場合は TRUE、それ以外の場合は FALSE です。
  11. 交互作用 = TRUE を割り当てて、2 つの生物学的因子間の交互作用を考慮し、それ以外の場合は FALSE を割り当てます。
  12. 次のコマンドで統計モデルを指定します。
    >モデル = GLM_Contrasts(Results_Directory、Project_Name、ターゲット、レプリケート、インタラクション)
    > GLM_Model = モデル$GLM_Model
    >コントラスト = モデル$コントラスト
  13. 誤検出率のしきい値を定義します。ここでは 0.05
    > Alpha_DiffAnalysis = 0.05
  14. 次のコマンドで微分分析を実行します。
    > Index_Contrast=1:nrow(コントラスト)
    > NbGenes_Profiles = 20
    > NbGenes_Clustering = 50
    > DiffAnalysis.edgeR (Data_Directory、Results_Directory、Project_Name、ターゲット、Raw_Counts、GLM_Model、コントラスト、Index_Contrast、Filter_Strategy、Alpha_DiffAnalysis、NbGenes_Profiles、NbGenes_Clustering、CPM_Cutoff、Normalization_Method)
  15. エンリッチメント分析のしきい値を固定する (ここでは 0.01)
    > Alpha_Enrichment = 0.01
  16. 発現差のある遺伝子(DEG)リストのエンリッチメント解析を実行する
    >タイトル = ヌル
    >エンリッチメント(Results_Directory、Project_Name、タイトル、Reference_Enrichment、Alpha_Enrichment)
  17. 比較する DEG リストを選択します。例えば、
    >グループ = コントラスト$コントラスト[24:28]
  18. リスト比較の名前を指定します。この名前は、出力ファイルが保存されるディレクトリに使用されます。
    > タイトル = "Interaction_with_Genotypes_1_and_2"
  19. DEG リストで実行するアクションを指定するには、パラメーター Operation を共用体または交点に設定します。私たちは選ぶ
    >操作 = "ユニオン"
  20. DEG リストを比較する
    > Venn_IntersectUnion(Data_Directory、Results_Directory、Project_Name、タイトル、グループ、操作)
  21. 関数との共発現解析を実行する
    > Coexpression_coseq(Data_Directory、Results_Directory、Project_Name、タイトル、ターゲット、Raw_Counts、Color_Group)
  22. 共発現クラスターの濃縮分析の実行
    >エンリッチメント(Results_Directory、Project_Name、タイトル、Reference_Enrichment、Alpha_Enrichment)
  23. 分析を再現するために必要なすべての情報を含む 2 つのログ ファイルを生成します。
    > Save_Parameters( )
    メモ: このプロトコルで使用されるコマンドラインを 図 2 に示します。別のデータセットを分析するために変更する必要がある線が強調表示されます。

結果

すべての DiCoExpress 出力は Tutorial/ ディレクトリに保存され、それ自体が Results/ ディレクトリ内に配置されます。ここでは、分析の全体的な品質を評価するためのガイダンスを提供します。

品質管理
Quality_Control/ ディレクトリにある品質管理出力は、RNA-Seq分析結果が信頼できることを確認するために不可欠です。Data_Quality_Control.pdfファイルには、生データ?...

ディスカッション

RNA-Seqは生物学的研究においてユビキタスな方法となっているため、汎用性とユーザーフレンドリーな分析ツールの開発が常に必要とされています。ほとんどの分析ワークフローにおける重要なステップは、多くの場合、生物学的条件および/または治療間で発現差のある遺伝子を自信を持って同定することです15。信頼性の高い結果を生み出すには、適切な統計モデリングが...

開示事項

著者らは開示するものは何もありません

謝辞

この研究は主にANR PSYCHE(ANR-16-CE20-0009)によって支援された。著者らは、DiCoExpressのコンテナの建設についてF. Desprezに感謝する。KBの作業は、未来への投資ANR-10-BTBR-01-01 Amaizing Programによってサポートされています。GQEおよびIPS2研究所は、Saclay Plant Sciences-SPS(ANR-17-EUR-0007)の支援を受けています。

資料

NameCompanyCatalog NumberComments

参考文献

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. . Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
  8. Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  9. Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  10. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  11. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  12. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  13. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  14. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

転載および許可

このJoVE論文のテキスト又は図を再利用するための許可を申請します

許可を申請

さらに記事を探す

185

This article has been published

Video Coming Soon

JoVE Logo

個人情報保護方針

利用規約

一般データ保護規則

研究

教育

JoVEについて

Copyright © 2023 MyJoVE Corporation. All rights reserved