JoVE Logo

サインイン

このコンテンツを視聴するには、JoVE 購読が必要です。 サインイン又は無料トライアルを申し込む。

この記事について

  • 要約
  • 要約
  • 概要
  • プロトコル
  • 結果
  • ディスカッション
  • 開示事項
  • 謝辞
  • 資料
  • 参考文献
  • 転載および許可

要約

我々は、データの前処理、共発現クラスタリング、経路濃縮、タンパク質間相互作用ネットワーク解析を含む詳細なプロトコルを用いて、定量的プロテオミクスデータのネットワーク解析を実行および視覚化するためのシステム生物学ツールJUMPnを提示する。

要約

質量分析ベースのプロテオミクス技術の最近の進歩により、何百ものプロテオームのディーププロファイリングがますます実現可能になっています。しかし、このような貴重なデータセットから生物学的な洞察を引き出すことは困難です。ここでは、システム生物学ベースのソフトウェアJUMPnと、モジュール(タンパク質複合体など)によって接続されたサンプルおよびタンパク質間相互作用(PPI)ネットワークにわたってプロテオームをタンパク質共発現クラスターに編成するための関連プロトコルを紹介します。R/Shinyプラットフォームを使用して、JUMPnソフトウェアは、統合されたデータ視覚化とユーザーフレンドリーなインターフェースにより、共発現クラスタリング、経路エンリッチメント、PPIモジュール検出の分析を合理化します。プロトコルの主なステップには、JUMPnソフトウェアのインストール、発現差のあるタンパク質または(dys)調節プロテオームの定義、意味のある共発現クラスターおよびPPIモジュールの決定、および結果の視覚化が含まれます。このプロトコルは、等圧標識ベースのプロテオームプロファイルを使用して実証されていますが、JUMPnは一般に、広範囲の定量データセット(例えば、ラベルフリープロテオミクス)に適用可能です。したがって、JUMPnソフトウェアとプロトコルは、定量的プロテオミクスにおける生物学的解釈を容易にする強力なツールを提供します。

概要

質量分析ベースのショットガンプロテオミクスは、複雑なサンプル1のプロテオーム多様性を分析するための重要なアプローチとなっています。質量分析装置23クロマトグラフィー45、イオン移動度検出6、取得方法(データ非依存7およびデータ依存取得8)、定量アプローチ(多重鎖等圧ペプチド標識法例えば、TMT910、および標識フリー定量1112)およびデータ分析戦略における最近の進歩/ソフトウェア開発13、14、15、161718は、プロテオーム全体(例えば、10,000を超えるタンパク質)の定量化が、現在、192021のルーチンである。しかし、このような深い定量的データセットから機械的な洞察を得る方法は依然として挑戦的です22。これらのデータセットを調査する最初の試みは、主にデータの個々の要素の注釈に依存し、各成分(タンパク質)を独立して処理しました。しかしながら、生物学的システムおよびその挙動は、個々の構成要素23を調べることによってのみ説明できない。したがって、定量化された生体分子を相互作用ネットワークの文脈に置くシステムアプローチは、複雑なシステムおよびヒト疾患の胚発生、免疫応答、および病因などの関連プロセスの理解に不可欠である24

ネットワークベースのシステム生物学は、大規模な定量的プロテオミクスデータ25、2627、282930、31、3233を分析するための強力なパラダイムとして浮上している。概念的には、哺乳類細胞のような複雑なシステムは、階層ネットワーク34,35としてモデル化することができ、その中で、システム全体が層で表され、最初に多数の大きな構成要素によって、次にそれぞれがより小さなサブシステムによって反復的にモデル化される。技術的には、プロテオームダイナミクスの構造は、共発現タンパク質クラスターの相互接続されたネットワーク(共発現遺伝子/タンパク質はしばしば調節36の類似の生物学的機能または機構を共有するため)および物理的に相互作用するPPIモジュール37によって提示され得る。最近の例25として、我々は、T細胞活性化中にプロテオーム全体およびホスホプロテオムの時間的プロファイルを生成し、PPIとの統合的共発現ネットワークを使用して、T細胞静止出口を媒介する機能モジュールを同定した。複数の生体エネルギー関連モジュールが強調表示され、実験的に検証された(例えば、ミトリボソームおよび複合体IVモジュール25、ならびに一炭素モジュール38)。別の例26では、アルツハイマー病の病因を研究するための我々のアプローチをさらに拡張し、疾患進行関連タンパク質モジュールおよび分子の優先順位付けに成功した。重要なことに、我々の偏りのない発見の多くは、独立した患者コホート26,29および/または疾患マウスモデル26によって検証された。これらの例は、定量的プロテオミクスおよび他のオミクス統合を用いて分子機構を解剖するためのシステム生物学アプローチの力を示した。

ここでは、ネットワークベースのシステム生物学アプローチを用いて定量的プロテオミクスデータを探求する合理化されたソフトウェアであるJUMPnを紹介します。JUMPnは、確立されたJUMPプロテオミクスソフトウェアスイート131439の下流コンポーネントとして機能し個々のタンパク質定量から生物学的に意味のある経路およびタンパク質モジュールまでのギャップを埋めることを目指しています。JUMPnは、発現差のある(または最も可変的な)タンパク質の定量化マトリックスを入力として取ることにより、プロテオームを、サンプルおよび高密度に接続されたPPIモジュール(例えば、タンパク質複合体)にわたって共発現するタンパク質クラスターの階層階層に編成し、過剰発現(または濃縮)分析によってパブリック経路データベースでさらに注釈を付けることを目指しています(図1)。JUMPnは、ユーザーフレンドリーなインターフェースのためにR/Shinyプラットフォーム40で開発され、共発現クラスタリング解析、経路エンリッチメント解析、PPIネットワーク解析の3つの主要な機能モジュールを統合しています(図1)。各分析後、結果は自動的に視覚化され、R /光沢のあるウィジェット機能を介して調整可能で、Microsoft Excel形式のパブリケーションテーブルとして簡単にダウンロードできます。以下のプロトコルでは、定量的な全プロテオームデータを例にとり、JUMPnソフトウェアのインストール、発現差のあるタンパク質または(dys)調節プロテオームの定義、共発現ネットワーク解析、PPIモジュール解析、結果の視覚化と解釈、トラブルシューティングなど、JUMPnを使用する主なステップについて説明します。JUMPn ソフトウェアは GitHub41 で自由に入手できます。

プロトコル

注:このプロトコルにおいて、JUMPnの使用は、TMT等圧標識試薬27によって定量されたB細胞分化中の全プロテオームプロファイリングの公開されたデータセットを利用することによって例示される。

1. JUMPnソフトウェアのセットアップ

メモ: JUMPn ソフトウェアの設定には、(i) 個人使用のためにローカルコンピュータにインストールする 2 つのオプションがあります。(ii)複数のユーザーのためのリモートシャイニーサーバーへのJUMPnの展開。ローカルインストールの場合、インターネットアクセスと≥ 4 GBのRAMを備えたパーソナルコンピュータは、サンプルサイズが小さいデータセット(n<30)のデータセットに対してJUMPn分析を実行するのに十分です。大規模なコホート分析(例えば、n = 200サンプル)には、より大きなRAM(例えば、16Gb)が必要である。

  1. ソフトウェアをローカル コンピューターにインストールします。インストール後、Web ブラウザーが JUMPn を起動し、ローカル コンピューターで分析を実行できるようにします。
    1. アナコンダ42 またはミニ コンダ43 をオンラインの指示に従ってインストールします。
    2. JUMPnのソースコード41をダウンロードしてください。ダブルクリックして、ダウンロードしたファイルJUMPn_v_1.0.0.zip解凍します。JUMPn_v_1.0.0 という名前の新しいフォルダが作成されます。
    3. コマンドラインターミナルを開きます。Windows では、 アナコンダプロンプトを使用します。MacOSでは、組み込みのターミナルアプリケーションを使用します。
    4. JUMPn Conda 環境を作成する: JUMPn_v_1.0.0 フォルダの絶対パスを取得します (例: /path/to/JUMPn_v_1.0.0)。空のConda環境を作成してアクティブにするには、ターミナルで次のコマンドを入力します。
      conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
      conda activate /path/to/JUMPn_v_1.0.0/JUMPn
    5. JUMPn 依存関係のインストール: R をインストールし (端末に conda install -c conda-forge r=4.0.0 -y と入力し)、現行ディレクトリーを JUMPn_v_1.0.0 フォルダーに変更し (端末で cd path/to/JUMPn_v_1.0.0 と入力)、依存関係パッケージをインストールします (端末に「Rscript ブートストラップ」と入力します)。R)
    6. WebブラウザでJUMPnを起動する:現在のディレクトリを実行フォルダ(ターミナルでcd実行と入力)に変更し、JUMPnを起動します(ターミナルでR -e "shiny::runApp()"と入力します)
    7. 上記が実行されると、端末画面は http://127.0.0.1:XXXXでリスニング 中に表示されます(ここでXXXXは4つの乱数を示します)。 http://127.0.0.1:XXXX をコピーして Web ブラウザーに貼り付けると、JUMPn のウェルカム ページが表示されます (図 2)。
  2. シャイニーサーバーへの展開。Shiny Server の例には、商用の shinyapps.io サーバーや、制度的にサポートされている Shiny Server などがあります。
    1. RStudio は、指示に従ってダウンロードしてインストールします 44.
    2. シャイニーサーバーの展開権限を取得します。shinyapps.io サーバの場合は、指示45に従ってユーザアカウントを設定する。機関用シャイニーサーバーの場合は、サーバー管理者に連絡して権限を要求してください。
    3. JUMPnソースコード41 をローカルマシンにダウンロードします。インストールは必要ありません。いずれかのサーバーを開きます。R または ui。RStudio で R ファイルを作成し、RStudio IDE の右上にある [ サーバーに公開 ] ドロップダウン メニューをクリックします。
    4. 「アカウントに公開」パネルで、サーバーアドレスを入力します。[公開] ボタンを押します。デプロイが成功したかどうかは、RStudio からアプリケーションがデプロイされた RShiny サーバーに自動的にリダイレクトされると検証されます。

2. サンプルデータセットを使用したデモ実行

注: JUMPn は、公開された B 細胞プロテオミクス データセットを使用したデモ実行を提供しています。デモランは、発現差のあるタンパク質の定量マトリックスを入力として受け取り、共発現クラスタリング、経路濃縮、PPIネットワーク解析を順次実行する合理化されたワークフローを示しています。

  1. JUMPnのホームページ(図2)で、[解析 の開始] ボタンをクリックしてJUMPn解析を開始します。
  2. [解析の開始]ページの左下隅にある[図3]で、[デモB細胞プロテオミクスデータのアップロード]ボタンをクリックします。データのアップロードが成功したことを通知するダイアログボックスが表示されます。
  3. ページの右下隅にある [ JUMPn 分析の送信] ボタンをクリックして、既定のパラメーターを使用してデモの実行を開始します。分析の経過を示す進行状況バーが表示されます。進行状況バーが満たされるまで待ちます (3 分かかります)。
  4. デモの実行が完了すると、ダイアログ ボックスが表示され、実行の成功メッセージと結果フォルダーへの絶対パスが表示されます。 [結果に進む ]をクリックして続行します。
  5. この Web ページは、まず WGCNA による共発現クラスターの結果にユーザーを案内します。ダイアログウィンドウの [結果の表示 ]をクリックして続行します。
  6. 結果ページ 1: WGCNA 出力ページの左側にあるタンパク質共発現パターンを見つけます。[式形式の選択] ドロップダウン ボックスをクリックして、2 つの図形式間を移動します。
    1. [ 傾向] を選択して傾向プロットを表示し、各線はサンプル全体の個々のタンパク質の存在量を表します。各線の色は、発現パターンが共発現クラスターコンセンサス(すなわち、WGCNAアルゴリズムによって定義される「固有遺伝子」)にどの程度近いかを表す。
    2. [箱ひげ図]を選択して、各サンプルの共発現パターンを箱ひげ図形式で表示します。
  7. WGCNA出力ページの右側にある経路/オントロジーエンリッチメントヒートマップを表示します。各クラスターの最も高度に濃縮された経路はヒートマップにまとめて表示され、色の強度はベンジャミニ・ホッホベルク調整されたp値を反映しています。
  8. ウェブページを下にスクロールして、個々のタンパク質の発現パターンを表示します。
    1. ドロップダウンボックスを使用して、 共発現クラスターを選択し 、各クラスターのタンパク質を表示します(デフォルトはクラスター1です)。表内の特定のタンパク質を選択すると、表の下の棒グラフが自動的に更新され、そのタンパク質の存在量が反映されます。
    2. 表の右側にある [検索 ] ボックスを使用して、特定のタンパク質名を検索します。
  9. PPI 結果を表示するには、上部の [結果] ページ 2: [PPI 出力] をクリックします。
  10. [ 共発現クラスターの選択 ] をクリックして、特定の共発現クラスター (デフォルトはクラスター 1) の結果を表示します。このページのすべての図パネルの表示は、新しく選択されたクラスターに対して更新されます。
  11. 選択した共発現クラスターの PPI ネットワークを左側の図パネルに表示します。
    1. [ グループで選択] ドロップダウンボックスをクリックして、ネットワーク内の個々のPPIモジュールをハイライト表示します。[ネットワークレイアウト 形式の選択] ドロップダウンボックスをクリックして、ネットワークレイアウトを変更します(デフォルトは Fruchterman Reingoldによるものです)。
    2. マウスとトラックパッドを使用して、手順 2.11.3 ~ 2.11.5 を実行します。
    3. 必要に応じて、PPI ネットワークをズームインまたはズームアウトします。ネットワーク内の各ノードの遺伝子名は、十分にズームインすると表示されます。
    4. ズームインしたら、特定のタンパク質を選択してクリックし、そのタンパク質とそのネットワーク近隣を強調表示します。
    5. ネットワーク内の特定のノード(タンパク質)をドラッグして、レイアウト内の位置を変更します。これにより、ネットワークレイアウトをユーザが再編成することができる。
  12. PPI 結果ページの右側のパネルで、PPI 結果の解釈に役立つ共発現クラスター・レベルの情報を表示します。
    1. 選択したクラスターの共発現パターンをデフォルトで箱ひげ図として表示します。
    2. 詳細については 、「式フォーマットの選択」ドロップダウン・ ボックスをクリックするか、ステップ 2.12.3-2.12.5 で説明したように表示されます。
    3. [傾向] を選択して、共発現パターンの傾向プロットを表示します。
    4. 「経路バープロット」を選択して、共発現クラスターの有意に富んだ経路を表示します。
    5. 「経路円プロット」を選択して、共発現クラスターの有意に富んだ 経路を円プロット 形式で表示します。
  13. 結果ページ 2: PPI 出力」 Web ページを下にスクロールして、個々の PPI モジュール・レベルで結果を表示します。[モジュール の選択] ドロップダウン・ボックスをクリックして、表示する特定のPPIモジュールを選択します(デフォルトでは、クラスタ1:モジュール1 が表示されます)。
  14. 左側のパネルでPPIモジュールを表示します。ネットワーク画面を操作するには、ステップ 2.11.2 から 2.11.5 に従ってください。
  15. 右側のパネルに経路/オントロジーエンリッチメント結果を表示します。「 パスウェイアノテーションスタイルを選択」 ドロップダウンボックスをクリックすると、詳細情報が表示されます。
    1. Barplotを選択して、選択したPPIモジュールの有意に強化された経路を表示します。
    2. 円プロットを選択して、選択したPPIモジュールの有意に強化された経路を円 プロット の形式で表示します。
    3. ヒートマップを選択して、有意に濃縮された経路および選択したPPIモジュールからの関連遺伝子名を表示する。
    4. [表]を選択して、経路/オントロジー用語の名前、遺伝子名、フィッシャーの正確検定によるP値など、詳細な経路濃縮結果を表示します。
  16. パブリケーション テーブルをスプレッドシート形式で表示する: 絶対パス (両方の結果ページの上部に印刷) に従って、 ComprehensiveSummaryTables.xlsx という名前のパブリケーション スプレッドシート テーブルを見つけます。

3. 入力ファイルの準備とJUMPnへのアップロード

注: JUMPn は、発現差のあるタンパク質 (教師あり法) または最も変動の激しいタンパク質 (教師なし法) のいずれかの定量マトリックスを入力として受け取ります。プロジェクトの目的が、複数の条件(例えば、異なる疾患群、または生物学的プロセスの時系列分析)にわたって変化したタンパク質を理解することである場合、DE分析を行う教師付き方法が好ましい。さもなければ、最も可変的なタンパク質を選択する教師なしアプローチが探索目的のために使用され得る。

  1. 各タンパク質を行、各サンプルを列とするタンパク質定量テーブルを生成します。最新の質量分析ベースのプロテオミクスソフトウェアスイート(例えば、JUMPスイート13,14,39、プロテオームディスカバラー、Maxquant 15,46)を介してこれを達成します。
  2. 変数プロテオームを定義します。
    1. プロテオミクスソフトウェアスイートが提供する統計解析結果を使用して、発現差(DE)タンパク質を定義します(たとえば、p値<0.05に調整)。
    2. あるいは、ユーザは、DEまたはほとんどの可変タンパク質のいずれかを定義するために、例Rコード47 に従うことができる。
  3. 定義した変数プロテオームを使用して入力ファイルをフォーマットします。
    メモ: 必要な入力ファイル形式 (図 4) にはヘッダー行が含まれています。カラムには、タンパク質アクセッション(または任意の一意のID)、GN(公式の遺伝子記号)、タンパク質の説明(またはユーザー提供の情報)、および個々のサンプルのタンパク質定量が含まれます。
    1. 手順 3.1 で指定した列の順序に従いますが、ヘッダーの列名はユーザーに対して柔軟です。
    2. TMT(または類似の)定量プロテオームの場合、要約されたTMTレポーター強度を入力定量値として使用する。ラベルのないデータの場合は、正規化されたスペクトルカウント(例えば、NSAF48)または強度ベースの方法(例えば、Maxquant46によって報告されたLFQ強度またはiBAQタンパク質強度)のいずれかを使用する。
    3. 欠損値は JUMPn 分析に許可されます。定量マトリックスでこれらをNAとしてラベル付けしてください。ただし、サンプルの 50% 以上で定量化を伴うタンパク質のみを使用することをお勧めします。
    4. 結果の入力ファイルを.txt、.xlsx、または.csv形式で保存します (3 つすべてが JUMPn でサポートされています)。
  4. 入力ファイルをアップロードする:
    1. [ ブラウザ] ボタンをクリックし、入力ファイルを選択します(図3の左パネル)。ファイル形式 (xlsxcsv、および txt がサポートされています) は自動的に検出されます。
    2. 入力ファイルに強度に似た定量化値(例えば、JUMP suite39によって生成された値)または比のような値(例えば、Proteome Discovererから)が含まれている場合は、[データのlog2変換の実行]オプションに[はい]を選択します。それ以外の場合、データはすでにログ変換されている可能性があるため、このオプションで [いいえ] を選択します。

4. 共発現クラスタリング解析

注:我々のグループ25、26、27およびその他282931WGCNA49が定量的プロテオミクスの共発現クラスタリング分析のための有効な方法であることを証明した。JUMPnは、WGCNA分析25,50のための3段階の手順に従う:(i)トポロジカルオーバーラップマトリックス(TOM;遺伝子/タンパク質間の定量類似性によって決定される)に基づく動的ツリー切断51による共発現遺伝子/タンパク質クラスターの初期定義。(ii)冗長性を低減するための類似のクラスターのマージ(固有遺伝子類似性の樹状図に基づく)。(iii)ピアソン相関の最小カットオフを超える各クラスターへの遺伝子/タンパク質の最終割り当て。

  1. WGCNA パラメーターを構成します (図 3、中央パネル)。次の 3 つのパラメーターは、それぞれ 3 つのステップを制御します。
    1. クラスターの最小サイズを 30 に設定します。このパラメータは、TOMベースのハイブリッド動的ツリー切断の最初のステップ(i)において、各共発現クラスターに必要なタンパク質の最小数を定義する。値が大きいほど、アルゴリズムによって返されるクラスターの数は少なくなります。
    2. 最小クラスター距離を 0.2 に設定します。この値を大きくすると (たとえば、0.2 ~ 0.3 から)、ステップ (ii) 中にクラスターのマージが多くなり、クラスターの数が少なくなる可能性があります。
    3. 最小 kME を 0.7 に設定します。タンパク質は、ステップ(ii)で定義された最も相関のあるクラスターに割り当てられますが、ピアソン相関がこの閾値を超えるタンパク質のみが保持されます。このステップで失敗したタンパク質は、どのクラスターにも割り当てられません (最終レポートでは、失敗したタンパク質の場合は「NA」クラスター)。
  2. 分析を開始します。共発現クラスタリング分析を送信するには、次の 2 つの方法があります。
    1. 右下隅にある [ JUMPn 解析の送信] ボタンをクリックして、WGCNA の包括的な解析を自動的に開始し、その後に PPI ネットワーク解析を開始します。
    2. または、WGCNA ステップのみを実行するように選択します (特にパラメーターのチューニングを目的として、ステップ 4.2.3-4.2.4 を参照)。
    3. [解析の開始]ページの下部にある[高度なパラメータ]ボタンをクリックします。新しいパラメータウィンドウがポップアップ表示されます。下部のウィジェットで、[分析モードの選択]、[WGCNAのみ]を選択してから、[閉じる]をクリックして続行します。
    4. [ 分析の開始 ] ページで、[ JUMPn 分析の送信 ] ボタンをクリックします。
    5. 上記のいずれの場合も、分析の送信時に進行状況バーが表示されます。
      メモ: 解析が完了すると (通常、 WGCNA のみ の解析では 1 分、包括的な解析では <<3 分)、ダイアログボックスが表示され、成功実行メッセージと結果フォルダへの絶対パスが表示されます。
  3. 手順 2.4 ~ 2.8 に示すように、WGCNA の結果を確認します (図 5)。ファイルco_exp_clusters_3colums.txtへの絶対パスは 、結果ページの上部で強調表示されていることに注意してください: WGCNA 出力 各タンパク質のクラスターメンバーシップを記録し、 PPI のみ 分析の入力として使用します。
  4. トラブルシューティング。次の 3 つの一般的なケースについて説明します。以下で説明するようにパラメーターが更新されたら、ステップ 4.2.2-4.2.4 に従って、新しい WGCNA 結果を生成します。
    1. データから 1 つの重要な共発現パターンが予期されるが、アルゴリズムによって見落とされた場合は、ステップ 4.4.2 から 4.4.4 に従ってください。
    2. 欠損クラスターは、小さな共発現クラスター、すなわち、このパターンを示すタンパク質の限られた数(例えば、<30)に対して特に可能性が高い。再解析の前に、タンパク質定量マトリックスの入力ファイルを再検討し、その重要な共発現パターンに付着するいくつかの陽性対照タンパク質を見つけます。
    3. 小さなクラスタをレスキューするには、最小クラスタサイズを小さくし(たとえば、10;10未満のクラスタサイズは堅牢ではない可能性があるため推奨されません)、最小クラスタ距離を減らします(たとえば、0.1;ここでは0としての設定も許可され、自動クラスタマージはスキップされます)。
    4. 更新されたパラメータで共発現クラスタリングステップを実行した後、まず、クラスターが 共発現パターンプロットからレスキューされたかどうかを確認し、次に詳細な タンパク質定量 からタンパク質アクセッションを検索して陽性対照を確認します(検索前に左側のドロップダウンウィジェットから適切な共発現クラスターを選択してください)。
      メモ: レスキューには、パラメータのチューニングと再実行を複数回繰り返す必要がある場合があります。
    5. どのクラスターにも割り当てることができないタンパク質が多すぎる場合は、手順 4.4.6 ~ 4.4.7 を実行します。
      注: 通常、タンパク質のわずかな割合 (通常は <10%)は、データセットの一般的な発現パターンのいずれにも従わない外れ値タンパク質である可能性があるため、クラスターに割り当てられない場合があります。しかしながら、そのようなパーセンテージが有意である場合(例えば、>30%)、無視できない追加の共発現パターンが存在することを示唆している。
    6. [ 最小クラスター サイズ] パラメーターと [最小クラスター距離] パラメーターの両方を減らして、「新しい」共発現クラスターを検出してこの状況を軽減します。
    7. さらに、 最小ピアソン相関(kME) パラメータを小さくして、これらの「NAクラスター」タンパク質を縮小します。
      注:このパラメータを調整しても、新しいクラスターは生成されませんが、代わりに、以前に失敗したタンパク質をより低い閾値で受け入れることによって、「既存の」クラスターのサイズが増加します。しかし、これはまた、より多くのノイズの多いタンパク質が現在許容されているため、各クラスターの不均一性を増加させる。
    8. 2 つのクラスターのパターンの違いは非常に小さいです。ステップ 4.4.9-4.4.11 に従って、それらを 1 つのクラスターにマージします。
    9. [ 最小クラスター距離] パラメーターを増やして、この問題を解決します。
    10. ただし、状況によっては、アルゴリズムが目的のパターンを返さない場合があります。このような瞬間に、マージするファイルco_exp_clusters_3colums.txt(ステップ4.3のファイル)内のクラスタメンバーシップを手動で調整または編集します。
    11. ポストエディットされたファイルをダウンストリーム PPI ネットワーク解析の入力として受け取ります。手動編集の場合は、クラスター割り当ての基準を正当化し、手動編集の手順を記録します。

5. タンパク質間相互作用ネットワーク解析

注:共発現クラスターをPPIネットワークに重ね合わせることによって、各共発現クラスターは、より小さなPPIモジュールにさらに層別化される。解析は、各共発現クラスターに対して実行され、2つの段階を含む:第1段階では、JUMPnは、共発現クラスターからPPIネットワーク上のタンパク質を重ね合わせ、接続されたすべての構成要素(すなわち、接続されたノード/タンパク質の複数のクラスター;例として、 図6Aを参照)を見つける。次いで、コミュニティまたはモジュール(密に接続されたノードの)は、トポロジカルオーバーラップ行列(TOM)法52を使用して、接続された各構成要素について反復的に検出されるであろう。

  1. PPIネットワーク解析のパラメータを設定します(図3の右パネル)。
    1. 最小 PPI モジュール サイズを 2 に設定します。このパラメーターは、第 1 ステージ分析から切り離された構成部品の最小サイズを定義します。指定したパラメータより小さい成分は、最終結果から削除されます。
    2. 最大PPIモジュールサイズを40に設定します。このしきい値を超えた大型の切断されたコンポーネントは、第 2 段階の TOM ベースの分析を受けます。第2段階の分析では、各大きな成分をさらに小さなモジュールに分割し、各モジュールには、おそらく元の成分全体よりも密に接続されたタンパク質が含まれています。
  2. 分析を開始します。PPI ネットワーク解析を送信するには、次の 2 つの方法があります。
    1. [ JUMPn分析の送信] ボタンをクリックして、デフォルトでWGCNA分析に続くPPI分析を自動的に実行します。
    2. または、カスタマイズされた共発現クラスター結果をアップロードし、ステップ 5.2.3 から 5.2.5 に従って PPI のみ 分析を実行します。
    3. co_exp_clusters_3colums.txtしたファイルの形式に従って入力ファイルを準備します (サブセクション 4.4 を参照)。
    4. [解析の開始]ページの下部にある[高度なパラメータ]ボタンをクリックします。新しいパラメータウィンドウがポップアップ表示されます。上位セッション「PPIのみ」分析の共表現クラスタ結果をアップロードするセッションで、「ブラウザ」をクリックして、ステップ5.2.3で準備した入力ファイルをアップロードします。
    5. 下部のウィジェットで 、[分析モードの選択]、[ PPIのみ ]を選択し、[ 閉じ る]をクリックして続行します。[ 分析の開始 ] ページで、[ JUMPn 分析の送信 ] ボタンをクリックします。
  3. 分析が終了したら(通常は<3分)、手順2.10~2.15に示すようにPPI結果を調べます(図6)。
  4. オプションの高度なステップ) パラメータをチューニングしてPPIモジュール化を調整します。
    1. [ 最大モジュール サイズ] パラメーターを大きくして、PPI 結果に含まれるタンパク質を増やすことができます。カスタマイズされたPPIネットワークをアップロードして、文書化されていない相互作用をカバーするために、ステップ5.4.2-5.4.3に従います。
    2. [解析の開始]ページの下部にある[高度なパラメータ]ボタンをクリックします。新しいパラメータウィンドウがポップアップ表示されます。カスタマイズされた PPI ファイルを準備します。このファイルには、、C onnection、および の形式の 3 つの列が含まれます。ここでは、各タンパク質の正式な遺伝子名によってが提示されています。
    3. 「PPI データベースのアップロード」で、「参照」ボタンをクリックして、カスタマイズされた PPI ファイルをアップロードします。

6. 経路濃縮分析

注: 共発現クラスターと PPI モジュールの両方の JUMPn 派生階層構造は、フィッシャーの正確検定を使用して、過剰に表現された経路で自動的に注釈が付けられます。使用される経路/トポロジーデータベースには、Gene Ontology (GO)、KEGG、Hallmark、Reactomeなどがあります。ユーザーは、高度なオプションを使用して、分析用にカスタマイズされたデータベースをアップロードできます(たとえば、人間以外の種からのデータを分析する場合など)。

  1. デフォルトでは、経路エンリッチメント分析は、共発現クラスタリングおよびPPIネットワーク分析によって自動的に開始される。
  2. 経路エンリッチメント結果の表示:
    1. 手順 2.7、2.12、および 2.15 に従って、結果ページにさまざまな形式を視覚化します。スプレッドシートのパブリケーション テーブルの詳細な結果を (包括的な概要テーブル.xlsx ファイルで表示します (手順 2.16)。
  3. (オプションの詳細ステップ)経路エンリッチメント分析用にカスタマイズされたデータベースをアップロードする:
    1. 通常、種のすべての遺伝子の正式な遺伝子名を含む遺伝子背景ファイルを準備します。
    2. オントロジーライブラリファイルを手順6.3.3-6.3.4で準備します。
    3. EnrichR53 や MSigDB54 などの一般公開 Web サイトからオントロジー ライブラリ ファイルをダウンロードします。例えば、ショウジョウバエのオントロジーをEnrichRのウェブサイト55からダウンロードしてください。
    4. ダウンロードしたファイルを、最初の列として経路名、2番目の列として公式の遺伝子記号(「/」で区切られたもの)の2つの列で必要な形式で編集します。詳細なファイル形式については、JUMPn R 光沢のあるソフトウェアの ヘルプ ページで説明されています。
      注:遺伝子背景とオントロジーライブラリ(ショウジョウバエを例に使用)のサンプルファイルをJUMPn GitHubサイト56で見つけてください。
    5. [解析の開始]ページの下部にある[ 高度なパラメータ] ボタンをクリックします。新しいパラメータウィンドウがポップアップ表示されます。
    6. 「経路エンリッチメント分析のバックグラウンド・ファイルをアップロード」項目を見つけ、「ブラウザー」をクリックして、ステップ 6.3.1 で準備したバックグラウンドファイルをアップロードします。次に、セッションで、パスウェイエンリッチメント分析に使用する背景を選択し、[ユーザー指定の背景]をクリックします。
    7. 「経路エンリッチメント分析用のオントロジーライブラリファイルをアップロード」項目を検索し、「ブラウザ」をクリックして、ステップ6.3.2-6.3.4で準備したオントロジーライブラリファイルをアップロードします。次に、セッションで、[パスウェイエンリッチメント分析用のデータベースを選択]で、[.xlsx形式のユーザー指定データベース]をクリックします。
  4. 右下隅にある [ JUMPn 分析の送信] ボタンをクリックして、カスタマイズされたデータベースを使用して分析を開始します。

7. サンプルサイズの大きいデータセットの分析

注: JUMPn は、サンプル サイズが大きいデータセット (最大 200 個のサンプルがテスト済み) の分析をサポートします。大きなサンプルサイズの視覚化を容易にするために、共発現クラスタリング結果の表示を容易にするために、サンプルグループを指定する追加のファイル(「メタファイル」と名付けられた)が必要である。

  1. メタファイルを準備してアップロードします。
    1. 手順7.1.2-7.1.3に従って、各サンプルのグループ情報(コントロールグループや疾患グループなど)を指定するメタファイルを準備します。
    2. メタファイルに少なくとも2つの列が含まれていることを確認してください:列1には、タンパク質定量マトリックスファイル(ステップ3.3で準備したように)の列名と順序と同一のサンプル名が含まれている必要があります。列 2 以降は、ユーザーが定義した任意の数のフィーチャのグループ割り当てに使用されます。列の数は柔軟です。
    3. メタ・ファイルの最初の行に、各列の列名が含まれていることを確認してください。2行目以降は、グループやその他の特徴(性別、年齢、治療など)の個々のサンプル情報をリストする必要があります。
    4. メタファイルをアップロードするには、[分析の開始]ページの下部にある[高度なパラメータ]ボタンをクリックします。新しいパラメータウィンドウがポップアップ表示されます。ステップ 7.1.5 に進みます。
    5. [メタファイルのアップロード]項目を見つけ、[ブラウザ]をクリックしてバックグラウンドファイルをアップロードします。予期しない形式または一致しないサンプル名がJUMPnによって検出されると、メタファイルのさらなるフォーマットに関するエラーメッセージがポップアップ表示されます(手順7.1.1-7.1.3)。
  2. 共発現クラスタリング分析のパラメータを調整する: 最小ピアソン相関を 0.2 に設定します。このパラメータは、サンプルサイズが大きいため緩和する必要があります。
  3. 右下隅にある [JUMPn 分析を送信]ボタンをクリックして、分析を送信します。
  4. 分析結果の表示: 共発現クラスター パターンを表示することを除いて、すべてのデータ出力は同じです。
    1. [結果ページ 1: WGCNA 出力] ページで、共発現クラスターを箱ひげ図として視覚化し、サンプルをユーザー定義のサンプル グループまたは特徴によって層別化します。プロット内の各ドットは、WGCNAアルゴリズムによって計算された固有遺伝子(すなわち、クラスターのコンセンサスパターン)を表す。
    2. ユーザーがサンプルをグループ化するために複数の特徴(年齢、性別、治療など)を提供した場合は、[ 表現形式の選択] ドロップダウンボックスをクリックして、サンプルをグループ化するための別の特徴を選択します。

結果

我々は、JUMPnの性能を最適化および評価するために、公開されたディーププロテオミクスデータセット25262730(図5および図6)およびデータシミュレーション57(表1)を使用した。WGCNAを介した共発現タンパク質クラスタ?...

ディスカッション

ここでは、深い定量的プロテオミクスデータ25,26,27,30,64を用いて分子機構を解剖するための複数のプロジェクトに適用されているJUMPnソフトウェアとそのプロトコルを紹介しました。JUMPnソフトウェアとプロトコルは、共発現ネットワーク解析のためのDEタンパク質の検討...

開示事項

著者らは開示するものは何もありません。

謝辞

資金援助は、国立衛生研究所(NIH)(R01AG047928、R01AG053987、RF1AG064909、RF1AG068581、およびU54NS110435)およびALSAC(米国レバノンシリア関連慈善団体)によって提供されました。MS解析は、NIHがんセンター支援助成金(P30CA021765)によって部分的に支援されたセントジュード小児研究病院のプロテオミクスおよびメタボロミクスセンターで実施された。コンテンツは著者の責任であり、必ずしも国立衛生研究所の公式見解を表すものではありません。

資料

NameCompanyCatalog NumberComments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7.Apple Inc.MacBook Pro 13''Hardware used for software development and testing
AnocondaAnaconda, Inc.version 4.9.2https://docs.anaconda.com/anaconda/install/
minicondaAnaconda, Inc.version 4.9.2https://docs.conda.io/en/latest/miniconda.html
RStudioRStudio Public-benefit corporationversion 4.0.3https://www.rstudio.com/products/rstudio/download/
Shiny ServerRStudio Public-benefit corporationhttps://shiny.rstudio.com/articles/shinyapps.html

参考文献

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, 2301-2319 (2021).
  41. . JUMPn Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021)
  42. . Anaconda Available from: https://docs.anaconda.com/anaconda/install/ (2021)
  43. . miniconda Available from: https://docs.conda.io/en/latest/miniconda.html (2021)
  44. . RStudio Available from: https://www.rstudio.com/products/rstudio/download/ (2021)
  45. . Shiny Server Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021)
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. . R code Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021)
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. . FlyEn rich r Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021)
  56. . JUMPn GitHub Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly (2021)
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

転載および許可

このJoVE論文のテキスト又は図を再利用するための許可を申請します

許可を申請

さらに記事を探す

176

This article has been published

Video Coming Soon

JoVE Logo

個人情報保護方針

利用規約

一般データ保護規則

研究

教育

JoVEについて

Copyright © 2023 MyJoVE Corporation. All rights reserved