RNAシーケンシングの3つの微分発現解析方法:リンマ、エッジ、DESeq2。RStudio プログラムを開き、R ファイル DEG をロードします。ファイルは補助ファイルから取得できます。1。
データのダウンロードと前処理.1.1.がんゲノムアトラスから、胆管癌のハイスループットシーケンシングカウントデータをダウンロードします。このタブは、次のコードで簡単に実行できます。
[実行] をクリックして R パッケージをインストールします。[実行] をクリックして R パッケージを読み込みます。作業ディレクトリを設定します。
がんの種類を選択します。GDCquery ファイルから R コードを実行して、データをダウンロードします。ファイル GDCquery は補助ファイル/スクリプトから取得できます。
実行後、コリンジオカルシノマRNAシーケンシングカウントデータをダウンロードしてCNTと名付けることができ、行はアンサンブル遺伝子IDを表し、カラムはシンボルIDを表します。シンボル ID の 14 ~ 15 桁目の数字に注意してください。01から09の範囲の範囲は腫瘍を示し、10〜19は正常組織を示す。
遺伝子シンボルに対するアンサンブル遺伝子IDの会話。注釈ファイルを R にインポートします(そのストレージ パスに従って)。注釈ファイルは、補助ファイルから取得できます。
gtf v22 ファイルから R コードを実行します。補助ファイル/スクリプトから取得できます。イン"機能を適用し、アンサンブル遺伝子IDを遺伝子シンボルに変換します。
低発現遺伝子をフィルター処理します。パッケージ edgeR をインストールするクリックして実行する R パッケージ edgeR"次の R コードを実行して、少なくとも 2 つのサンプルの 1 より大きい 100 万個あたりの値を持つ遺伝子を保持します。2。limmaを介した微分式分析「Rパッケージリンマをインストールするには実行をクリックしてください」「Rパッケージlimma"edgeR"をロードするには、次のRコードを実行して設計マトリックスを作成します。
グループ情報を抽出します。01"を腫瘍組織として設定する。11"を正常組織として設定する。
設計マトリックスを作成します。DGEList オブジェクトを作成します。データを正規化します。
次の R コードを実行して、リンマトレンドメソッドベースの微分式分析を実行します。CPM 値を計算します。[実行]をクリックして線形モデルに適合し、データを予測するか、変数間の関係を推測します。
ベイジアンに基づいて T 値、F 値、および対数オッズを計算します。結果表を抽出します。微分式解析の結果は、log2の折り返し変更値を含むres_limma」に保存されます。
実験における遺伝子の平均log2発現量。改変されたT統計量、P値、偽発見率がp値を補正し、微分発現遺伝子の対数オッズを補正した。遺伝子の発現を確認します。
したがって、調整されたP値が0.05未満、および2以上のログ偽変化の絶対値は、微分発現遺伝子をスクリーニングするための閾値である。結果は、正常組織と比較して、1,443個の遺伝子が上調節され、1,880個の遺伝子がコリンジオカルシノマ組織でダウンレギュレートされていることを示している。結果表をファイルに出力します。
Rパッケージggplot2をインストールするには実行をクリックしてRパッケージggplot2"火山ファイルからRコードを実行して火山プロットを作成し、ファイル火山は補助ファイルから取得することができます。遺伝子は、log2の折り返し変化と調整されたP値に従って異なる位置にマッピングすることができます。したがって、アップレギュレートされた微分発現遺伝子は赤色で着色される。
下降制御された微分発現遺伝子は緑色で着色されています。「エクスポート」をクリックして火山プロットを保存します。3。edgeRを介した微分式分析「実行をクリックして R パッケージ edgeR をロードする」次の R コードを実行して、設計マトリックスを作成します。
[実行] をクリックして DGEList オブジェクトを作成し、データを正規化します。[実行]をクリックして、遺伝子発現値の分散を推定します。[実行] をクリックして、データをカウントするモデルに適合します。
統計的検定を実施します。結果表を抽出します。結果は、ログフォールド変更値、logCPM、F、p値、および修正されたp値の偽検出率を含むres edgeRに保存されます。
遺伝子の発現を確認します。結果res edgeR」は、正常組織と比較して、3、121個の遺伝子がアップレギュレートされ、1,578遺伝子がコリンジオカルシノ組織でダウンレギュレートされていることを示している。結果表をファイルに出力します。
火山プロットを作成します。[エクスポート]をクリックして、火山プロットを保存します。4。DESeq2による微分式解析
R パッケージ DESeq2 をインストールするには、[実行] をクリックして R パッケージ DESeq2"次の R コードを実行して、手探り係数を決定します。DESeq2 データ・セット・オブジェクトを作成します。解析を実行します。
結果表を生成します。結果は、正規化された読み取り回数の平均、ログフォールド変更値、ログフォールド変更標準矢印、溶接統計量、元のP値、および修正されたP値を含むreseq2に保存されます。DEG を識別します。
結果はDESeq2は正常組織と比較すると、2938個の遺伝子がアップレギュレートされ、1,661遺伝子がコリンジオカルマ組織でダウンレギュレートされていることを示している。結果表をファイルに出力します。火山プロットを作成します。
[エクスポート]をクリックして、火山プロットを保存します。5。ベン図。[実行] をクリックして、R パッケージのベン図をインストールします。
[実行] をクリックして、R パッケージベン図を読み込みます。アップレギュレーションされた微分発現遺伝子のベン図を作成します。バン図を保存するためにエクスポートをクリックし、ダウンレギュレートされた微分発現遺伝子のベン図を作成します。
[エクスポート] をクリックしてベン図を保存します。6。代表結果。図1は、リンマ、エッジ、DESeq2によって獲得されたすべての遺伝子の火山プロットを示しています。
負の対数 p 値は、ログ折りたたみの変化に対してプロットされます。赤い点は、アップレギュレートされた微分発現遺伝子を表し、緑色の点は、ダウンレギュレートされた差動発現遺伝子を表します。リンマは、遺伝子を1880個のダウンレギュレーションされた差動発現遺伝子と、胆管癌組織における1443個のアップレギュレートされた微分発現遺伝子を同定する。
EdgeRは、1578個のダウンレギュレーションされた微分発現遺伝子と、3,000121のアップレギュレートされた微分発現遺伝子を同定します。DESeq2は、1,000611個のダウンレギュレーションされた微分発現遺伝子と、2938個のアップレギュレートされた微分発現遺伝子を同定します。図2は、ベン図は、リンマエッジRとDESeq2からの結果の分裂の間で重複を示す。
これら3つの方法、1,000431のアップレギュレートされた微分発現遺伝子と、1,531個のダウンレギュレートされた微分発現遺伝子が重複している結果を比較します。7.結論: このプロトコルでは、R パッケージ、limma、edgeR、および DESeq2 を使用して、カウント データのシーケンスの異なる種類の詳細なプロトコルをここに提供しました。3つの方法は、分析のプロセスの中で同様のスタッフを持っています。
そして、これらの3つの薬から部分的に重複しています。3つの薬にはいずれも独自の利点があります。そして、選択はデータの時間に依存します。
私の現在のデータがある場合、limmaは優先順位を持って与えられるべきですが、生成シーケンシングデータ、edgeR、およびDESeq2が好ましいです。