宿主と病原体の相互作用を調査するためのハイスループットトランスクリプトーム分析のプロトコルへようこそ。このプロトコルは、次の手順で分かれています。品質管理は、低品質の読み取りをフィルタリングし、アダプターシーケンスのシーケンスシーケンスを削除し、注釈を削除します。
統計的および共発現解析は、微分発現遺伝子を定義し、共発現モジュールを見つける。潜在的な外れ値サンプルを見つけるために摂動分析の分子程度。そして最後に、機能解析により、遺伝子の発現の生物学的機能を決定する。
これらのパイプラインを利用するすべてのツールは、Linux システムにプリインストールされ、Docker コンテナーにカプセル化されています。これらのプロトコルを利用したサンプルは、当社グループがPLOS病原体で発表した論文に由来する。サンプルは、チクングニアウイルスに感染した20人の健康な人々と39人の患者で構成されています。
血液サンプルを採取し、RNAシーケンシングを行った。Windows システムに Docker をインストールするには、次の手順を実行する必要があります。Docker の公式 Web ページに移動し、開始の順にクリックします。
ウィンドウ用の Docker デスクトップのインストーラーを見つけます。ファイルをダウンロードします。コンピュータにローカルにインストールします。
これら 2 つのオプションがマークされていることを確認します。プログラムをインストールした後、このプロトコルの Docker イメージをダウンロードします。Windows ターミナルに移動します。
コマンドを実行してイメージをダウンロードします。イメージをダウンロードした後、Docker デスクトップでファイルを確認でき、このイメージからコンテナーを開始できます。丸いボタンをクリックした後、元のパラメータとオプションを展開してコンテナの名前を定義し、ローカルコンピュータのフォルダを Docker 内のフォルダに関連付ける必要があります。
この後、[実行] をクリックしてコンテナーを開始します。その後、Docker 内の Linux システムにあるターミナルにアクセスできます。bash コマンドを入力すると、このプロトコルのすべてのコマンドを実行できます。
まず、このプロトコルのすべてのツールを使用できるようにするために、ソースを実行する必要があります。ディレクトリ スクリプトにアクセスする必要があります。トランスクリプトーミック解析を実行するには、まず参照ゲノムをダウンロードする必要があります。
このためには、次のコマンドを実行する必要があります。ゲノムをダウンロードした後、遺伝子の注釈をダウンロードする必要があります。これを行うには、次のコマンドを入力する必要があります。
次に、fastq-dump を設定する必要があります。これにより、例のシーケンスファイルをダウンロードできます。次のコマンドを入力した後、Tab ボタンを使用して[ツール]オプションに移動し、オプションの現在のディレクトリにマークを付ける必要があります。
[タブ] ボタンを使用して保存し、次に OK をクリックします。次に、ツール fastq-dump を終了します。次のコマンドを入力して、読み取りのダウンロードを開始できます。
品質管理は、シーケンス読み込みにおけるエラーの確率をグラフィカルに構成し、評価します。このステップでは、アダプターなどの技術シーケンスも削除する必要があります。品質管理グラフを生成するには、FastQC プログラムを実行する必要があります。
アダプター・シーケンスと低品質シーケンスを除去するには、以下のコマンドを入力する必要があります。良質の読み取りでは、読み取りを参照ゲノムにマッピングする必要があります。マッピングの後、我々は、ヒト遺伝子に応じて遺伝子にアポイントを付け、各ヒト遺伝子に一致する読み取り数を数える必要があります。
最初のステップは、次のコマンドを入力して参照ゲノムをインデックス化することです。そして、このコマンドを入力して、読み取りをヒトゲノムにマッピングします。次に、読み取りに注意を付け込むスクリプトを実行します。
マッピングとアノテーションの後、あるグループで発現が他の群と比較して高いか低い遺伝子を見つけることで構成される微分発現解析を行うことができます。遺伝子の発現を確認するには、次のコマンドを実行する必要があります。その後、データ結果を Docker からローカル コンピューターに転送できます。
この場合は、ターミナルに移動し、次のコマンドを入力して、すべての結果をローカルフォルダーに保存します。残りの分析を実行するには、ディレクトリ データのすべてのファイルをローカル コンピュータのディレクトリにコピーする必要があります。ローカル コンピューターで、Docker からデータを保存したディレクトリを確認できます。
ご覧のとおり、すべてのライブラリにアクセスできます。品質管理レポートを含む HTML ファイルを開くことができます。また、遺伝子の発現が微分されたディレクトリにアクセスすることもできます。
そして、このディレクトリの中には、チクングニアウイルスに感染した患者と健康なコントロールに対して、あるグループと別のグループでアップまたはダウンレギュレートされている遺伝子を見ることができる火山プロットがあります。このプロトコルの残りの手順はすべて、ブラウザを使用してWebツールで実行されます。まずはCEMiToolから始めましょう。
ブラウザに移動し、次のアドレスを入力します。CEMiTool は、ユーザーが提供する式データ・セットから、コ式モジュールを識別します。メインページで、メニューに移動してボタンの実行をクリックできます。
これにより、式ファイルをアップロードできる新しいページが開きます。このファイルは、ローカル コンピュータのディレクトリ データに格納されています。3 つの式ファイルがあり、CEMiTool に使用する式ファイルは tmm の正規化呼び出しです。
次に、フェノデータファイル、タンパク質とタンパク質の相互作用を含むファイルに対して同じものを選択し、最後に、遺伝子セットまたは経路を含むファイルをアップロードする必要があります。遺伝子セットファイルにより、CEMiToolは共発現モジュールのそれぞれについて濃縮分析を行うことができます。次に、パラメーター セクションを展開し、[VST の適用] をクリックします。
その後、CEMiToolを実行をクリックするだけです。CEMiTool を実行すると、12 個の共式モジュールが識別されていることがわかります。ここをクリックすると、これらの分析のすべての結果をダウンロードすることができます。
このプロトコルで使用するもう一つのツールは、MDP、または摂動の分子程度です。ブラウザ mdp.sysbio.tools を入力してください。MDPは、各サンプルの分子距離をサンプルの参照群と比較して計算し、この場合、健康なコントロールは、潜在的な外れ値だけでなく、このグループと比較して各サンプルがどのように摂動されているかを見つけるために計算します。
[実行] ページでは、ボタンをクリックしてファイルを選択するだけで、式ファイルをアップロードできます。その後、フェノデータファイルをアップロードする必要があります。次に、グループまたはクラスに関する情報を含む列を定義し、その後、どのクラスまたはグループが制御グループに対応するかを定義する必要があります。
この後、MDP を実行できます。棒グラフは、各サンプルの分子摂動度のスコアをバーとして示し、色は異なるグループを表します。そして、ボックスプロットは、各ドットに表示される同じ結果を視覚化する別の方法であり、2つのグループによって分離された異なるサンプルです。
機能解析を実行するには、エンリッチャツールを使用します。このためには、アップまたはダウンレギュレートのいずれかで差し出した遺伝子のリストを選択し、エンリッチャーツールの入力遺伝子リストとして使用する必要があります。異なるタブがあることがわかります。
すべての結果は、ローカル コンピューターにダウンロードすることもできます。トランスクリプトーム分析用のコンピューター環境は、Docker プラットフォームに配置されています。このアプローチにより、Linux システムに関する経験のないユーザーは端末を利用できます。
このコンテナには、データセットとスクリプト用の定義済みのフォルダ構造があり、すべての分析に必要です。パイプラインでは、ユーザーはチクングニアウイルスに急性感染した20人の健康な個人と39人の患者からの血液トランスクリプトームデータを利用します。シーケンス処理プラットフォームは、DNA 配列を含む一連の FASTQ ファイルを返します。
読み取り、および各ヌクレオチド塩基に関連する品質。Phred の品質スケールは、各ベースの誤った読み取りの確率を示します。ツールは、サンプルから低品質の読み取りを識別して削除し、読み取りのマッピングの確率を高めます。
このステップでは、マッピングモジュールは、回収された高品質の読み取り値を入力として使用し、それらをヒト参照ゲノムに対して整列させる。CEMiTool は、コエクスプレッション・モジュールを識別し、分析します。同じモジュール内の遺伝子は共発現しており、データセットのサンプル全体で同様の発現パターンを示します。
ネットワーク解析は、最も接続されている遺伝子、すなわちハブに関する情報を提供します。これらの遺伝子の名前はネットワークに表示されます。
ノードのサイズは、接続の程度に比例します。DEG解析から得られた結果を火山プロットにまとめた。摂動の分子程度の分析は健康な、感染した個人からの摂動サンプルの識別を可能にする。
MDPは、どのサンプルが潜在的な生物学的外れ値かを示唆しています。これらのサンプルを削除すると、ダウンストリームの結果に影響します。エンリッチツールを使用して、AURAを使用した機能強化分析を行うことができます。
これらのステップは、差異発現したいくつかの遺伝子の共通の機能的役割を明らかにすることによって、結果を解釈するのに役立ちます。棒グラフに示されている生物学的プロセスは、p値のランク付けに基づく上位10の濃縮遺伝子セットです。結論として、これらのプロトコルはRNA-Seq分析のすべてのステップをカバーしています。
パイプラインは開発され、Docker という名前の非商用システムにカプセル化されました。画像上で、科学界のために利用可能になりました。コンテナシステムにより、すべてのスクリプトとツールは、再現性を保証するために同じ特定のバージョンの下にあります。
さらに、バイオインフォマティクス解析の一部を、無料の使いやすいウェブツールを介して行った。