このプロトコルは、差分スプライシング部位、発現差のあるエクソン、およびポリ(A)部位を特定するための段階的なワークフローを提供することにより、選択的スプライシングおよびポリアデニル化によって生成された遺伝子アイソフォームの包括的な理解を提供します。このプロトコルの主な利点は、選択的スプライシングを研究するためのエクソンベースの方法とイベントベースの方法の両方を評価することです。また、代替ポリアデニル化の研究にエクソンベースの方法を適用します。
AS および AP 分析のコードとメモを含む R マークダウン ファイルが提供されています。R Markdownファイルの手順に従い、各手順のメモに慎重に到達することをお勧めします。limma の diffSplice を使用して差分スプライシングを識別するには、R ノートブック ファイルに従ってください。
テキスト原稿の説明に従って入力ファイルを準備します。先に進む前に、原稿のステップ1から3が順番に実行され、入力ファイルが準備されていることを確認してください。まず、必要なライブラリをロードします。
非特異的フィルタリングを実行するには、まず以前に取得したリードカウントのマトリックスを抽出し、edgeRパッケージからDGEList関数を使用して特徴のリストを作成します(行は遺伝子を表し、列はサンプルを表します)。次に、edgeRパッケージのCPM関数を使用して、データを生のスケールから100万あたりのカウントに変換し、設定可能なしきい値を超えるカウントでエクソンを保持します。このデータセットには6つのサンプルが含まれています。
したがって、CPMは1つより大きく、6つのうち少なくとも3つのサンプルに設定されます。M 値のトリム平均を使用して、edgeR パッケージから calcNormFactors 関数を使用してサンプル全体のカウントを正規化します。この関数は、スケーリング係数を計算してライブラリのサイズを調整します。
以前に生成したサンプル表を使用して、各サンプルの実験条件を定義する計画マトリックスを作成します。limma パッケージの voom 関数を実行して RNA シーケンシング・データを処理して分散を推定します。この関数は、ポアソンカウントノイズを補正するための精密な重みを生成し、エクソンレベルカウントを変換して、100万個あたり2カウントまたはlogCPMをログに記録します。
lmfit 関数を実行して、線形モデルを各エクソンの式データに適合させます。次に、eBayes関数を実行して、適合モデルの経験ベースの統計を計算し、エクソン発現の差を検出します。対象の実験比較のためのコントラスト行列を定義します。
コントラストを使用します。比較の各ペアの係数と標準誤差を取得するためのフィット関数。適合モデルでdiffSpliceを実行して、野生型とノックアウト型の間で遺伝子のエクソン使用量の違いをテストします。
topSplice関数を使用して、tに等しいテストがASエクソンのランク付けを与え、simesに等しいテストが遺伝子のランク付けを与えるtopSplice関数を使用して、上位にランク付けされた結果を調べます。plotSplice 関数を実行して、結果をプロットします。目的の遺伝子を遺伝子ID引数に入れる際に、赤い点は発現差のあるエクソンを示す。
EnhancedVolcanoバイオコンダクターパッケージを使用して火山プロットを生成し、発現差のあるエクソンを示します。rMATS を使用するには、作業ディレクトリの conda または GitHub を使用して、最新バージョンの rMATS バージョン 4.1.1 がインストールされていることを確認します。マッピング後に取得したbamファイルを含むフォルダに移動します。
bamファイルの名前とコンマで区切られたパスをコピーする2つの条件について、rMATSで要求されるようにテキストファイルを準備します。rmas を実行します。BAM ファイルのパスと注釈を記述する 2 つの生成された入力テキスト ファイルを使用します。
以前に取得した GTF ファイル。これにより、各スプライシングイベントのP値や包含レベルなどの統計を個別に記述するテキストファイルを含む出力フォルダー rmats_outが生成されます。バイオコンダクターパッケージメーザーを使用して、rMATSの結果を調べます。
ジャンクションとエクソンカウントのテキストファイルを拡張子JCECでメーザーオブジェクトにロードし、スプライシングイベントごとに少なくとも5つの平均読み取りを含めて、カバレッジに基づいて結果をフィルタリングします。rMATSの結果を視覚化するには、まずメーザーパッケージからtopEvents関数を実行し、10%の誤検出率と最小10%のスプライス率またはPSIの変化で重要なスプライシングイベントを選択します。目的の個々の遺伝子の遺伝子イベントを確認し、その遺伝子の各スプライシングイベントのPSI値をプロットします。
イベントタイプを指定して火山プロットを生成します。rMATSで取得したスプライシングイベントの結果をテキストファイルの形式で使用して、rmats2s刺身プロットパッケージを使用して刺身プロットを生成します。刺身プロットは、Wnk1遺伝子のスキップされたエクソンイベントを示しています。
各行は、RNA-seqサンプル、野生型の3回の反復およびMbnl1ノックアウトを表す。高さはRPKMでの読み取りカバレッジを示し、接続アークはエクソン間のジャンクション読み取りを示します。下部は、アノテーションされた遺伝子モデル代替アイソフォームを示す。
実質的なフォールド変化と真の違いの強力な統計的証拠は、diffSpliceとDEXSeqを使用して得られた火山プロットの左上または右象限に位置する遺伝子で観察できます。カセットエクソンは、遺伝子Wnk1について異なる条件間で変化することが見出された。差動エクソン使用プロットは、Wnk1.6.45近くの5つのエクソン部位で差動スプライシングの証拠を示し、ピンク色で強調表示されたエクソンは、野生型と比較してMbnl1ノックアウトサンプルでスプライスアウトされる可能性が高い。
交互にスプライスされた遺伝子の火山プロットは、野生型から除外された遺伝子と野生型に含まれる遺伝子を区別するのに役立ちました。スプライシングイベントSE、A5SS、A3SS、MXE、およびRIのタイプを、これらのイベントの上位有意遺伝子の刺身プロットを使用して視覚化しました。遺伝子の3つの主要な非翻訳領域における差APA活性は、火山プロットを使用して観察されました。
異なるパイプラインから得られた有意差PAサイト使用結果は、イベントプロットを使用して視覚化されました。ダブルノックアウトにおけるPA部位使用の有意な遠位から近位へのシフトは、遺伝子FOSL1とPapolaの両方で観察できます。ゲノムワイドレベルで既知のPA切断部位に固定された隣接領域の平均カバレッジは、診断プロットを使用して決定されました。
トランスピーシフィック情報などのパラメーターや、複数のオーバーラップを許可するパラメーターが、カウント メトリックを生成するときに正しく使用されていることを確認します。線形モデルのフィッティングとコントラストペアの生成は、適切な比較のために重要です。rMATS の場合は、コマンドを実行する前に、すべてのデータパラメーターがデータに従って正しく設定されていることを確認してください。
差次的スプライシング活性から得られた遺伝子は、遺伝子セット濃縮解析を行うために使用することができる。MISOと呼ばれる別のツールは、さらなるイベントベースの分析に使用できます。