宿主と病原体の相互作用を調するためのハイスループットトランスクリプトーム解析

André Nicolau Aquime Gonçalves; Vanessa Escolano Maso; Ícaro Maia Santos de Castro; Amanda Pereira Vasconcelos; Rodrigo Luiz Tomio Ogava; Helder I Nakaya

doi:10.3791/62324

このコンテンツを視聴するには、JoVE 購読が必要です。サインイン又は無料トライアルを申し込む。

この記事について

要約
要約
概要
プロトコル
結果
ディスカッション
開示事項
謝辞
資料
参考文献
転載および許可

要約

ここで示すプロトコルは、高度な統計分析アプローチへの品質管理と前処理のステップを含む、生の読み取りから機能分析までのRNAシーケンシングトランスクリプトームデータを分析するための完全なパイプラインを説明しています。

要約

病原体は、多種多様な感染症を引き起こす可能性があります。感染に応答して宿主によって誘導される生物学的プロセスは、疾患の重症度を決定する。このようなプロセスを研究するために、研究者は、感染、臨床結果、または疾患重症度の異なる段階で宿主転写体の動的変化を測定するハイスループットシーケンシング技術(RNA-seq)を使用することができます。この調査は、病気のより良い理解につながるだけでなく、潜在的な薬物標的と治療を明らかにすることができます。ここで示すプロトコルは、生の読み取りから機能解析までの RNA シーケンシングデータを分析するための完全なパイプラインを記述します。パイプラインは 5 つのステップに分けられます: (1) データの品質管理;(2)遺伝子のマッピングと注釈(3)遺伝子と共発現遺伝子の遺伝子を分化して同定する統計解析(4)サンプルの摂動の分子程度の決定;(5)機能分析。手順 1 では、下流解析の品質に影響を与える可能性のある技術的なアーティファクトを削除します。ステップ2では、遺伝子は標準ライブラリプロトコルに従ってマッピングされ、また、アポイントトされます。ステップ3の統計解析では、感染していないサンプルと比較して、感染したサンプルで差で発現または共発現している遺伝子を特定します。サンプルの変動性および潜在的な生物学的外れ値の存在は、ステップ4の摂動アプローチの分子程度を使用して検証される。最後に、ステップ5の機能解析は、疾患表現型に関連する経路を明らかにする。このパイプラインは、宿主と病原体の相互作用研究によるRNA-seqデータ分析を通じて研究者を支援し、感染の分子メカニズムを理解するために不可欠なインビトロ または インビボ実験の 未来を推進することを目的としています。

概要

デング熱、黄熱病、チクングニア、ジカなどのアルボウイルスは、いくつかの流行の流行に広く関連しており、過去数十年でヒトに感染する主な病原体の1つとして出現しました^1,2。チクングニアウイルス(CHIKV)に感染した人は、発熱、頭痛、発疹、ポリアルーギー、関節炎を持つことがよくあります^3,4,5^。ウイルスは、細胞の遺伝子発現を破壊し、様々な宿主シグナル伝達経路に影響を与える可能性があります。近年、血液転写酵素研究は、RNA-seqを利用して、回復期⁶または健康なコントロール7と比較して急性CHIKV感染に関連する微分発現遺伝子(DEG)を同定^した。CHIKVに感染した小児は、ウイルスRNAの細胞センサー、JAK/STATシグナル伝達、TOLL様受容体シグナル伝達経路に関連するものなど、先天性免疫に関与する遺伝子を^{有していた。}CHIKVに急性感染した成人は、単球および樹状細胞活性化に関連するもの、および抗ウイルス応答に関連するものなど、先天性免疫に関連する遺伝子の誘導も示した^。ダウンレギュレーション遺伝子を豊富に含むシグナル経路には、T細胞の活性化やT細胞およびB細胞における分化および濃縮などの適応免疫に関連するものが含^{まれていた}。

宿主および病原体遺伝子のトランスクリプトームデータを分析するために、いくつかの方法を使用することができる。多くの場合、RNA-seqライブラリー調製は成熟したポリA転写物の濃縮から始まります。このステップは、リボソームRNA(rRNA)の大部分を除去し、いくつかのケースではウイルス/細菌RNAを除去する。しかし、生物学的な質問が病原体転写物検出を伴い、RNAが以前の選択とは無関係に配列化される場合、他の多くの異なる転写物はシーケンシングによって検出され得る。例えば、サブゲノムmRNAは、疾患の重症度を確認する重要な因子であることが示されている⁸。さらに、CHIKVやSARS-CoV-2のような特定のウイルスに対して、ポリA濃縮ライブラリでさえ、下流の分析で利用できるウイルス読み取りを生成します^9,10。宿主転写体の分析に焦点を当てると、研究者はサンプル間の生物学的摂動を調べ、微分発現された遺伝子および濃縮経路を同定し、共発現モジュール^7,11,12を生成することができます。このプロトコルは、異なるバイオインフォマティクスアプローチを用いたCHIKV感染患者および健常者の転写分析を強調する(図1A)。以前に発表された研究からのデータ⁷は、20人の健康な人と39人のCHIKV急性感染者からなるが、代表的な結果を生成するために使用された。

プロトコル

このプロトコルで使用されるサンプルは、サンパウロ大学生物医学研究所の微生物学部門とセルジペ連邦大学の両方の倫理委員会によって承認されました(プロトコル:54937216.5.0000.5400.5467と54835916.2.0000.5546)。

1. Docker デスクトップのインストール

注: Docker 環境を準備する手順は、オペレーティングシステム (OS) によって異なります。したがって、Mac ユーザーは 1.1 としてリストされている手順に従う必要があり、Linux ユーザーは 1.2 としてリストされている手順に従う必要があり、Windows ユーザーは 1.3 としてリストされている手順に従う必要があります。

MacOS にインストールします。
1. Docker ウェブサイト (素材テーブル) にアクセスし、 Mac 用 Docker デスクトップ をクリックし、[ Docker Hub からダウンロード ] リンクをクリックします。
2. [Docker の取得] ボタンをクリックして、インストールファイルをダウンロードします。
3. Docker.dmg ファイルを実行してインストーラーを開き、アイコンを [アプリケーション] フォルダーにドラッグします。 アプリケーション フォルダーで Docker.app をローカライズして実行し、プログラムを起動します。
  メモ:上部のステータスバーのソフトウェア固有のメニューは、ソフトウェアが実行中であり、端末からアクセス可能であることを示します。
Linux OS にコンテナプログラムをインストールします。
1. Docker Linux Web サイト (資料の表) にアクセスし、 Docker Linux リポジトリ リンクで使用可能なリポジトリセクションを使用してインストールする手順に従います。
2. コマンドラインを使用してすべての Linux パッケージを更新します。
  sudo apt-get の更新
3. 必要なパッケージを Docker にインストールします。
  sudo apt-get インストール apt-transport-https ca-Certificates カール gnupg lsb リリース
4. ソフトウェア・アーカイブ鍵リング・ファイルを作成します。
  カール -fsSL https://download.docker.com/linux/ubuntu/gpg |スド gpg --デアーマー -o /usr/共有/キーリング/ドッカーアーカイブキーリング.gpg
5. ソース.リストファイルにドッカーデブ情報を追加します。
  エコー「deb [arch=amd64 signed by=/usr/共有/キーリング/ドッカーアーカイブキーリング.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) 安定|スドティー /etc/apt/sources.list.d/docker.list > /dev/null
6. 最近追加されたものも含め、すべてのパッケージを再度更新します。
  sudo apt-get の更新
7. デスクトップバージョンをインストールします。
  スド apt-get インストールドッカー-ceドッカー-ce-cli containerd.io
8. 地理的領域とタイムゾーンを選択して、インストールプロセスを完了します。
Windows OS にコンテナープログラムをインストールします。
1. Docker のウェブサイト (資料のテーブル) にアクセスし、[ はじめに] をクリックします。Windows 用 Docker デスクトップのインストーラーを検索します。ファイルをダウンロードし、コンピュータにローカルにインストールします。
2. ダウンロード後、インストールファイル (.exe) を起動し、既定のパラメーターをそのまま使用します。 [WSL 2 に必要な Windows コンポーネントをインストールする] と [ デスクトップへのショートカットの追加] の 2 つのオプションがオンになっていることを確認します。
  注 : 場合によっては、このソフトウェアがサービスを開始しようとすると、WSL のインストールが完了しないです。このエラーを確認するには、ウェブサイトWSL2-Kernel(資料表)にアクセスしてください。
3. 最新の WSL2 Linux カーネルをダウンロードしてインストールします。
4. 管理者として PowerShell ターミナルにアクセスし、次のコマンドを実行します。
  dism.exe /オンライン /有効機能 /機能名: マイクロソフト-Windows サブシステム - Linux /すべて /いいえrestart
5. ソフトウェア Docker デスクトップが正常にインストールされていることを確認します。
Docker ハブ (資料一覧) の CSBL リポジトリからイメージをダウンロードします。
1. Docker デスクトップを開き、ステータスがツールバーの左下にある「実行中」であることを確認します。
2. Windows PowerShell ターミナルコマンドラインに移動します。Docker ハブの CSBL リポジトリから、このプロトコルの Linux コンテナーイメージをダウンロードします。次のコマンドを実行してイメージをダウンロードします。
  ドッカープルcsblusp/トランスクリプトーム
  注: イメージをダウンロードすると、ファイルが Docker デスクトップで見ることができます。コンテナを作成するには、Windows ユーザーはステップ 1.5 に従う必要がありますが、Linux ユーザーはステップ 1.6 に従う必要があります。
Windows OS でサーバーコンテナを初期化します。
1. ツールバーからデスクトップアプリケーションマネージャで Docker イメージファイルを表示し、イメージページにアクセスします。
  注: パイプラインイメージが正常にダウンロードされた場合は、csblusp/transcriptome イメージが使用可能になります。
2. [ 実行 ] ボタンをクリックして、csblusp/transcriptome イメージからコンテナーを開始します。 [オプションの設定] を展開して、コンテナーを構成します。
3. コンテナー名 (サーバーなど) を定義します。
4. ローカルコンピューターのフォルダーを docker 内のフォルダーに関連付けます。これを行うには、ホストパスを決定します。最後にダウンロードされる処理済みデータを格納するローカルコンピューターのフォルダーを設定します。コンテナパスを設定します。csblusp/transcriptome コンテナフォルダを定義してローカルマシンパスにリンクします(コンテナパスに「/opt/transferdata」という名前を使用します)。
5. この後、実行をクリックして csblusp/トランスクリプトームコンテナを作成します。
6. csblusp/トランスクリプトームコンテナからLinuxターミナルにアクセスするには、CLIボタンをクリックします。
7. より良い経験をするためにbashターミナルに入力してください。このためには、次のコマンドを実行します。
  バッシュ
8. bash コマンドを実行した後、ターミナルに表示されていることを確認してください (root@<コンテナID>:/#)。
  root@ac12c583b731:/#
Linux OS 用のサーバーコンテナを初期化します。
1. イメージに基づいて Docker コンテナーを作成するには、次のコマンドを実行します。
  ドッカー実行 -d --rm --ネームサーバー -v <ホストパス>:/オプト/転送データ csblusp/トランスクリプトーム
  注: <ホストパス>: ローカルフォルダマシンのパスを定義します。
2. Docker コンテナのコマンドターミナルにアクセスするには、次のコマンドを実行します。
  ドッカー exec -it サーバー・バッシュ
3. コマンドラインを使用してプログラム/スクリプトを実行する Linux 端末の可用性を確認します。
4. bash コマンドを実行した後、ターミナルに表示されていることを確認してください (root@<コンテナID>:/#)。
  root@ac12c583b731:/#
  注: デフォルトでは、ルートパスワードは「トランスクリプトーム」です。必要に応じて、root パスワードは次のコマンドを実行して変更できます。
  パスwd
5. 最初に、source コマンドを実行して addpath.sh すべてのツールが使用可能であることを確認します。次のコマンドを実行します。
  ソース /opt/追加パス.sh
RNA シーケンシングフォルダの構造を確認します。
1. トランスクリプトームパイプラインスクリプトフォルダーにアクセスし、RNA シーケンスからのすべてのデータがフォルダー内に格納されていることを確認します: /home/transcriptome-パイプライン/データ。
2. 解析から得られたすべての結果が、パス /home/transcriptome-パイプライン/結果のフォルダー内に格納されていることを確認します。
3. ゲノムおよびアノテーション参照ファイルが、パス /home/transcriptome-pipeline/データセットのフォルダー内に格納されていることを確認します。これらのファイルは、すべての分析をサポートするのに役立ちます。
4. すべてのスクリプトが、/home/transcriptome-pipeline/scripts パスのフォルダーに格納され、次に説明するように各ステップで区切られていることを確認します。
アノテーションとヒトゲノムをダウンロードします。
1. スクリプトフォルダにアクセスします。
  cd /ホーム/トランスクリプトームパイプライン/スクリプト
2. 参照ヒトゲノムをダウンロードするには、次のコマンドを実行します。
  バッシュ downloadGenome.sh
3. 注釈をダウンロードするには、次のコマンドを実行します。
  downloadAnnotation.sh をバッシング
参照ゲノムの注釈またはバージョンを変更します。
1. downloadAnnotation.sh 開いて downloadGenome.sh して、各ファイルの URL を変更します。
2. downloadAnnotation.sh ファイルと downloadGenome.sh ファイルを転送領域にコピーし、ローカルOSで編集します。
  cd /ホーム/トランスクリプトームパイプライン/スクリプト
  cp downloadAnnotation.sh downloadGenome.sh /opt/転送データ
3. ステップ 1.5.4 でホストと Docker コンテナー間のリンクを選択したホストパスフォルダーを開きます。
4. 優先エディタソフトウェアを使用してファイルを編集し、保存します。最後に、変更したファイルをスクリプトフォルダに入れます。次のコマンドを実行します。
  cd /オプト/転送データ
  cp downloadAnnotation.sh downloadGenome.sh /ホーム/トランスクリプトームパイプライン/スクリプト
  注:これらのファイルは、vimまたはnano Linuxエディタを使用して直接編集することができます。
次に、コマンドラインを使用して fastq-dump ツールを設定します。
vdb-config --インタラクティブ
注: これにより、シーケンシングファイルをサンプルデータからダウンロードできます。
1. タブキーを使用して [ツール] ページをナビゲートし、現在のフォルダオプションを選択します。 [保存 ]オプションに移動し、[ OK]をクリックします。次に、fastq-dump ツールを終了します。
以前に公開された ^Paper7 からの読み取りのダウンロードを開始します。各サンプルの SRA アクセス番号が必要です。SRA NCBIウェブサイト(資料表)からSRA番号を取得します。
注: パブリックデータベースで利用できる RNA-Seq データを解析するには、ステップ 1.12 に従います。プライベートRNA-seqデータを分析するには、ステップ1.13に従います。
特定のパブリックデータを分析します。
1. 国立バイオテクノロジー情報センター(NCBI)のウェブサイトにアクセスし、特定のテーマのキーワードを探してください。
2. 「ゲノム」セクションの「BioProject」の結果リンクをクリックします。
3. 特定のスタディを選択してクリックします。 SRA実験をクリックします。新しいページが開き、このスタディで使用できるすべてのサンプルが表示されます。
4. アクセス番号の上の 「送信先:」を クリックします。[ 出力先の選択] オプションで[ ファイル と 形式] オプションを選択し、[ RunInfo]を選択します。「 ファイルの作成」を クリックして、すべてのライブラリ情報をエクスポートします。
5. SraRunInfo .csv ファイルを 1.5.4 ステップで定義したホストパスに保存し、ダウンロードスクリプトを実行します。
  cp /opt/転送データ/SraRunInfo.csv /ホーム/トランスクリプトームパイプライン/データ
  cd /ホーム/トランスクリプトームパイプライン/スクリプト
  バッシュ downloadAllLibraries.sh
非公開および未公開のシーケンシングデータを分析します。
1. 読み取りという名前のフォルダー内のシーケンスデータを整理します。
  注: Reads フォルダ内に、サンプルごとに 1 つのフォルダを作成します。これらのフォルダーは、各サンプルに対して同じ名前を持つ必要があります。ディレクトリ内に各サンプルのデータを追加します。ペアエンド RNA-Seq の場合、各サンプルディレクトリには 2 つの FASTQ ファイルが含まれ、パターン {sample}_1.fastq.gz および {sample}_2.fastq.gz、順方向および逆方向のシーケンスに従って終了する名前を示す必要があります。たとえば、サンプル "Healthy_control" には、Healthy_control_1.fastq という名前の同じ名前のディレクトリと FASTQ ファイル.gz Healthy_control_2.fastq.gz が必要です。ただし、ライブラリのシーケンスがシングルエンド戦略の場合は、ダウンストリーム解析用に 1 つの読み取りファイルのみを保存する必要があります。たとえば、同じサンプルである "ヘルシーコントロール" には、Healthy_control.fastq.gz という名前の一意の FASTQ ファイルが必要です。
2. すべてのサンプル名を含む表現型ファイルを作成します: 最初の列に「Sample」、2番目の列に「クラス」という名前を付けます。サンプルの列にサンプルディレクトリの名前が同じである必要があり、Class 列に各サンプルの表向きグループ (コントロールや感染など) を入力します。最後に、"metadata.tsv" という名前のファイルを保存し、それを /home/transcriptome-pipeline/data/ ディレクトリに送信します。既存の metadata.tsv をチェックして、その形式のファイルを理解してください。
  cp /opt/転送データ/メタデータ.tsv
  /ホーム/トランスクリプトームパイプライン/データ/メタデータ.tsv
3. ステップ 1.5.4 で定義された Host Path ディレクトリにアクセスし、新しい構造化ディレクトリサンプルをコピーします。最後に、/opt/transferdataからパイプラインデータディレクトリにサンプルを移動します。
  cp -rf /オプト/転送データ/読み取り/*
  /ホーム/トランスクリプトームパイプライン/データ/読み取り/
すべての読み取りがフォルダ/home/transcriptome-パイプライン/データ/読み取りフォルダに保存されていることを確認します。

2. データの品質管理

注: シーケンス読み取りでエラーの確率をグラフィカルに評価します。すべての技術的なシーケンス、例えば、アダプターを削除します。

FastQC ツールを使用して、ライブラリのシーケンス品質にアクセスします。
1. 品質グラフを生成するには、fastqcプログラムを実行します。次のコマンドを実行します。
  バッシュ FastQC.sh
  注: 結果は /home/トランスクリプトームパイプライン/結果/FastQC フォルダーに保存されます。シーケンス・アダプターはライブラリーの準備およびシーケンスに使用されるため、アダプター・シーケンスのフラグメントがマッピング・プロセスを妨げる場合があります。
アダプター・シーケンスと低品質の読み取りを取り外します。 Scripts フォルダにアクセスし、トリムツールのコマンドを実行します。
cd /ホーム/トランスクリプトームパイプライン/スクリプト
バッシュ trimmomatic.sh
注: シーケンスフィルタに使用されるパラメータは次のとおりです: リーディング低品質または 3 ベース (品質 3 以下) を削除します(リーディング:3);トレーリング低品質または3ベース(品質3以下)を削除します(トレーリング:3)。4ベース幅のスライディングウィンドウで読み取りをスキャンし、ベースあたりの平均品質が20(SLIDINGWINDOW:4:20)を下回ったときにカットします。36基長(MINLEN:36)の下にドロップ読み取り。これらのパラメータは、Trimmomatic スクリプトファイルを編集することで変更できます。
1. 結果が次のフォルダーに保存されていることを確認します。次のコマンドを実行します。
  ls /ホーム/トランスクリプトームパイプライン/結果/トリムリード

3. サンプルのマッピングと注釈

注: 良質の読み取りを得た後、これらは参照ゲノムにマッピングされる必要があります。このステップでは、STAR マッパーを使用してサンプル例をマップしました。STARマッパーツールでは、読み込みとゲノムマッピングをロードして実行するために32 GBのRAMメモリが必要です。32 GB の RAM メモリを持たないユーザーは、既にマップされている読み取りを使用できます。このような場合は、ステップ3.3にジャンプするか、ボウタイ2マッパーを使用してください。このセクションには、STAR (すべての図に示す結果) と Bowtie2 (メモリ不足のマッパー) のスクリプトがあります。

最初にマッピングプロセスの参照ゲノムをインデックス化します。
1. コマンドラインを使用して Scripts フォルダにアクセスします。
  cd /ホーム/トランスクリプトームパイプライン/スクリプト
2. STAR マッパーの場合は、次のコマンドを実行します。
  indexGenome.sh をバッシング
3. ボウタイマッパーの場合は、実行します。
  バッシュ indexGenomeBowtie2.sh
次のコマンドを実行して、フィルター処理された読み取り (ステップ 2 から取得) を参照ゲノム (GRCh38 バージョン) にマップします。STAR と Bowtie2 マッパーは、デフォルトのパラメータを使用して実行されます。
1. STAR マッパーの場合は、次のコマンドを実行します。
  バッシュ mapSTAR.sh
2. ボウタイ2マッパーの場合は、実行します。
  バッシュ mapBowtie2.sh
  注: 最終的な結果は、/home/transcriptome-パイプライン/結果/マップリードに格納されている各サンプルに対するバイナリアライメントマップ(BAM)ファイルです。
FeatureCounts ツールを使用してマッピングされた読み取りにアクロージングし、各遺伝子の生の数を取得します。読み取りに関するスクリプトを実行します。
注: FeatureCounts ツールは、マッピングされたシーケンス読み取りをゲノムフィーチャに割り当てます。生物学的な質問に続いて変更できるゲノムアノテーションの最も重要な側面には、アイソフォームの検出、複数のマッピングされた読み取りおよびエキソン-エキソン接合、遺伝子に対するGTF.attrType="gene_name"、またはメタ特徴レベルのパラメータを指定しない、allowMultiOverlap=TRUE、およびjuncCounts=TRUEがそれぞれ含まれる。
1. コマンドラインを使用してスクリプトフォルダにアクセスします。
  cd /ホーム/トランスクリプトームパイプライン/スクリプト
2. マップされた読み取りにアポイントを付けて、ジーンごとの生の数を取得するには、コマンドラインを実行します。
  Rscript アノテーション。R
  注:注釈プロセスに使用されるパラメータは、遺伝子の短い名前(GTF.attrType="gene_name")を返します。複数のオーバーラップを許可する (マルチオーバーラップを許可する = TRUE)。と、ライブラリがペアエンドであることを示します (ペアリングエンド=TRUEです)。シングルエンド戦略の場合は、パラメーターを使用してペアリングエンド=FALSE。結果は /home/トランスクリプトームパイプライン/カウントリードフォルダに保存されます。
遺伝子発現を正規化します。
注:遺伝子発現の正規化は、結果(例えば、健康なサンプルと感染したサンプル)間の結果を比較するために不可欠です。また、共発現と分子の摂動解析を行うためにも正規化が必要です。
1. コマンドラインを使用して Scripts フォルダにアクセスします。
  cd /ホーム/トランスクリプトームパイプライン/スクリプト
2. 遺伝子発現を正規化します。このためには、コマンドラインを実行します。
  Rscript 正規化サンプル。R
  注: この実験では、生のカウント式を M 値のトリミング平均 (TMM) および 100 万分の数 (CPM) メソッドを使用して正規化しました。このステップは、ライブラリサイズの正規化を行うことによって、技術的影響による遺伝子発現の違いを取り除くことを目的としています。結果は /home/トランスクリプトームパイプライン/カウントリードフォルダに保存されます。

4. 遺伝子と共発現遺伝子の発現

オープンソースのEdgeRパッケージを使用して、微分発現遺伝子を同定します。これは、コントロールと比較して発現が高いか低い遺伝子を見つけることを含む。
1. コマンドラインを使用して Scripts フォルダにアクセスします。
  cd /ホーム/トランスクリプトームパイプライン/スクリプト
2. 微分発現遺伝子を識別するには、コマンドラインを使用してDEG_edgeR R スクリプトを実行します。
  スクリプト DEG_edgeR.R
  注: 遺伝子の発現結果は、/home/transcriptome-パイプライン/結果/degs フォルダに保存されます。データはパソコンに転送できます。
csblusp/トランスクリプトームコンテナからデータをダウンロードします。
1. 処理されたデータを /home/transcriptome パイプラインから /opt/transferdata フォルダー (ローカルコンピューター) に転送します。
2. コマンドラインを実行して、すべてのファイルをローカルコンピュータにコピーします。
  cp -rf /ホーム/トランスクリプトームパイプライン/結果 /オプト/転送データ/パイプライン
  cp -rf /ホーム/トランスクリプトームパイプライン/データ /オプト/転送データ/パイプライン
  注: ローカルコンピューターに移動して、すべての結果、データセット、およびデータをホストパスでダウンロードできるようにします。
共式モジュールを識別する。
1. 共同式モジュール識別ツール(CEMiTool)のウェブサイトにアクセス (の表
  材料)。このツールは、ユーザーが提供する式データセットから、共同式モジュールを識別します。メインページで、右上の [ 実行 ] をクリックします。これにより、式ファイルをアップロードする新しいページが開きます。
2. [式ファイル]セクションの下の[ファイルを選択]をクリックし、ホストパスから正規化された遺伝子発現行列'tmm_expression.tsv'をアップロードします。
  注: ステップ 4.4.は必須ではない。
共発現モジュールの生物学的意味を探る。
1. サンプルの「形式」セクションで「ファイルを選択」をクリックし、サンプルの「データのダウンロード」ステップ 4.2.2 からサンプルの「metadata_cemitool.tsv」を使用してファイルをアップロードします。遺伝子セット濃縮解析(GSEA)を実施する。
2. [遺伝子相互作用] セクションで [ファイルの選択] を押して、ジーン相互作用 (cemitool-interactions.tsv) を含むファイルをアップロードします。webCEMiToolによって例として提供される遺伝子相互作用のファイルを使用することができる。相互作用は、タンパク質相互作用、転写因子およびそれらの転写された遺伝子、または代謝経路であり得る。このステップでは、各コ式モジュールの相互作用ネットワークが生成されます。
3. [遺伝子セット] セクションの [ファイルの選択] をクリックして、遺伝子マトリックストランスポーズ (GMT) 形式のファイルに機能的に関連する遺伝子のリストをアップロードします。ジーンセットファイルを使用すると、ツールは各共発現モジュール、すなわち過剰表現解析(ORA)のエンリッチメント分析を実行できます。
  注:この遺伝子のリストには、経路、GO用語、またはmiRNA標的遺伝子が含まれる可能性があります。研究者は、この分析のための遺伝子セットとして血液転写モジュール(BTM)を使用することができます。BTM ファイル (BTM_for_GSEA.gmt)。
共式解析を実行するためのパラメータを設定し、その結果を取得します。
1. 次に、正符号をクリックして [ パラメータ ] セクションを展開し、既定のパラメータを表示します。必要に応じて、変更します。[ VST の適用 ] ボックスをオンにします。
2. 電子 メールセクションに 電子メールを書き込み、結果を電子メールとして受信します。この手順はオプションです。
3. [CEMiTool の実行] ボタンを押します。
4. 右上にある[完全レポートをダウンロード]をクリックして 、完全な分析レポートをダウンロード します。圧縮ファイルcemitool_results.zipダウンロードされます。
5. winRAR を使用してcemitool_results.zipの内容を抽出します。
  注: 抽出された内容を含むフォルダには、解析のすべての結果と、それらのパラメータが設定された複数のファイルが含まれます。

5. サンプルの摂動の分子程度の決定

摂動の分子程度(MDP)ウェブ版。
1. MDP を実行するには、MDP の Web サイト (資料一覧) にアクセスします。MDPは、各サンプルの分子距離を基準から計算します。[ 実行 ] ボタンをクリックします。
2. [ ファイルの選択] リンクで、式ファイル tmm_expression.tsv をアップロードします。次に、ダウンロードデータステップ 4.2.2 から、hehenotipic データファイル metadata.tsv をアップロードします。また、GMT形式で経路注釈ファイルを提出して、疾患に関連する経路の摂動スコアを計算することもできる。
3. データがアップロードされたら、MDP で使用される表向きの情報を含むクラス列を定義します。次に、コントロールクラスに対応するラベルを選択して、コントロールクラスを定義します。
  注: サンプルスコアの計算方法に影響を与えるオプションのパラメータがいくつかあります。必要に応じて、ユーザは、摂動遺伝子の統計平均法、標準偏差、および上位パーセンテージを変更することができる。
4. その後、 MDPを実行 ボタンを押すと、MDPの結果が表示されます。ユーザーは、各プロットの ダウンロードプロット をクリックすると、 MDPスコアファイルのダウンロード ボタンのMDPスコアをクリックして、数字をダウンロードすることができます。
  注: ファイルの提出方法や MDP の動作に関する質問がある場合は、チュートリアルと Web ページを参照してください。

6. 機能強化分析

ダウン規制された DEG のリストと、さらに規制された DEG のリストを作成します。遺伝子名は Entrez 遺伝子シンボルに従う必要があります。リストの各遺伝子は1行に配置する必要があります。
遺伝子リストを txt または tsv 形式で保存します。
機能解析を実行するには、エンリッチャーのウェブサイト(資料表)にアクセスします。
[ファイルを選択]をクリックして、遺伝子のリストを 選択します。いずれかの DEG リストを選択し、[ 送信] ボタンを押します。
WEB ページの上部にある [パスウェイ ] をクリックして、ORA アプローチを使用して機能拡張分析を実行します。
経路データベースを選択します。「Reactome 2016」経路データベースは、ヒトデータの生物学的意味を得るために広く使用される。
経路データベースの名前をもう一度クリックします。 棒グラフを 選択し、p値ランキングで並べ替えられているかどうかを確認します。表示されていない場合は、p値で並べ替えられるまで棒グラフをクリックします。この棒グラフはp値に従って上位10の経路を含む。
[構成] ボタンを押して、アップレギュレート遺伝子分析の赤い色を選択し、下降制御遺伝子分析用の青色を選択します。svg、png、および jpg をクリックして、棒グラフを複数の形式で保存します。
[テーブル] を選択し、棒グラフの左下にある [テーブルにエントリをエクスポート] をクリックして、機能拡張分析結果を txt ファイルに出力します。
注:この機能的エンリッチメント結果ファイルは、各行に1つの経路の名前、提出されたDEGリストと経路の間の重複した遺伝子の数、p値、調整されたp値、オッズ比、結合スコア、および経路に関与するDEGリストに存在する遺伝子の遺伝子シンボルを包含する。
他の DEG リストでも同じ手順を繰り返します。
注: ダウンレギュレーション DEG による解析は、ダウンレギュレーション遺伝子に富んだ経路を提供し、アップレギュレート遺伝子を用いた解析は、アップレギュレーション遺伝子に富んだ経路を提供します。

結果

トランスクリプトーム分析のコンピューティング環境は、Docker プラットフォームで作成および構成されました。このアプローチにより、初心者の Linux ユーザーは、事前管理知識を持たずに Linux 端末システムを使用できます。Docker プラットフォームは、ホスト OS のリソースを使用して、特定のユーザーのツールを含むサービスコンテナーを作成します (図 1B)。Linux OS U...

ディスカッション

シーケンシングライブラリの準備は、可能な限り最善の方法で生物学的な質問に答えするための重要なステップです。研究の関心のあるトランスクリプトの種類は、どのシーケンシングライブラリが選択されるかの指針となり、バイオインフォマティクス分析を推進します。例えば、病原体と宿主相互作用のシーケンシングから、シーケンシングの種類に応じて、ホストトランスクリプトの?...

開示事項

著者らは開示するものは何もない。

謝辞

HNはFAPESP(助成金番号:#2017/50137-3、2012/19278-6、2018/14933-2、2018/21934-5、2013/08216-2)およびCNPq(313662/2017-7)によって資金提供されています。

私たちは、フェローのための次の助成金に特に感謝しています: ANAG (FAPESPプロセス2019/13880-5), VEM (FAPESPプロセス2019/16418-0), IMSC (FAPESPプロセス2020/05284-0), APV (FAPESPプロセス2019/27146-1) RLTO (CNPq プロセス 134204/2019-0)。

資料

Name	Company	Catalog Number	Comments
CEMiTool	Computational Systems Biology Laboratory	1.12.2	Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR	Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au])	3.30.3	Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano	Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk])	1.6.0	Publication-ready volcano plots with enhanced colouring and labeling
FastQC	Babraham Bioinformatics	0.11.9	Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.0.0	Assign mapped sequencing reads to specified genomic features
MDP	Computational Systems Biology Laboratory	1.8.0	Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R	R Core Group	4.0.3	Programming language and free software environment for statistical computing and graphics
STAR	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.7.6a	Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2	Johns Hopkins University	2.4.2	Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic	THE USADEL LAB	0.39	Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker	Docker	20.10.2	Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel	Windows	NA	https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux	Docker	NA	https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository	Docker	NA	https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website	Computational Systems Biology Laboratory	NA	https://mdp.sysbio.tools
Enrichr Website	MaayanLab	NA	https://maayanlab.cloud/Enrichr/
webCEMiTool	Computational Systems Biology Laboratory	NA	https://cemitool.sysbio.tools/
gProfiler	Bioinformatics, Algorithmics and Data Mining Group	NA	https://biit.cs.ut.ee/gprofiler/gost
goseq	Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk])	NA	http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study	NCBI	NA	https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

参考文献

Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
Suhrbier, A., Jaffar-Bandjee, M. -. C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

転載および許可

このJoVE論文のテキスト又は図を再利用するための許可を申請します

許可を申請

さらに記事を探す

181 RNA seq

This article has been published

Video Coming Soon

Keep me updated: