Method Article
機械学習アルゴリズムCorEx(相関説明)によって見つかった腫瘍RNAシーケンシング因子を探索するためのリソースであるCorExplorerウェブポータルを紹介し、生存に対する因子の分析方法、データベースアニテーション、タンパク質とタンパク質の相互作用、および腫瘍生物学と治療介入に関する洞察を得るために互いに。
微分遺伝子発現解析は、疾患状態を理解するための重要な手法です。機械学習アルゴリズムCorExは、腫瘍RNA-seqの遺伝子群の差動発現を、精密腫瘍学の進歩に役立つ可能性のある方法で解析する上で有用性を示した。しかし、CorEx は、既存の理解を分析して接続するのが難しい多くの要因を生み出します。このような接続を容易にするために、ユーザーがインタラクティブにデータを探索し、その分析に関連する一般的な質問に答えることを可能にするウェブサイトCorExplorerを構築しました。卵巣、肺、黒色腫、大腸の4種類の腫瘍タイプについて、RNA-seq遺伝子発現データについてCorExをトレーニングしました。その後、対応する生存、タンパク質とタンパク質の相互作用、遺伝子オントロジー(GO)、京都百科事典(KEGG)経路濃縮を組み込み、因子グラフの可視化と関連するヒートマップをウェブサイトに組み込みました。ここでは、この外部データのコンテキストで学習された腫瘍因子の重要性を理解するためのデータベースの使用を説明する例のプロトコルを使用します。
ちょうど10年前に導入されて以来、RNA-seqは遺伝子発現を測定するためのユビキタスツールとなっています1.これは、サンプルのトランスクリプトーム全体の迅速かつ安価なデノボプロファイリングを可能にするためです。しかし、RNA-seq腫瘍データは、本質的に複雑で、しばしばサンプリング不足の基礎生物学を反映していますが、データ自体は高次元でノイズが多い。これは、信頼性の高い信号を抽出するための重要な課題を提示します。CorEx アルゴリズムは、多変量相互情報を利用して、このような状況で微妙なパターンを見つけます2,3 .この技術は、以前に癌ゲノムアトラス(TCGA)から卵巣腫瘍RNA-seqサンプルを分析するために適応され、この文脈では、より一般的に使用される分析方法4よりも有意な利点を有するように見えた。
RNA-seqの使用は、腫瘍学を含む研究アプリケーションで非常に広く普及しているが、これらの努力は、臨床介入の目的のために広範な利用につながっていない5.この理由の一部は、これらの特定の問題を対象としたユーザーフレンドリーなアルゴリズムとソフトウェアの欠如です。このギャップを埋めるために、CorExplorerウェブポータルを設計し、CorEx機械学習アルゴリズムで見つかった腫瘍RNA-seqサンプルの遺伝子発現因子を様々なバックグラウンドの研究者が研究できるようにしました。CorExplorer ポータルは、肺、結腸、黒色腫、卵巣6 、7、8、9など、いくつかの異なる腫瘍タイプからの要因のインタラクティブな視覚化とクエリをサポートします。10は、研究者がデータ相関をふるい、治療目的で患者を階層化するための候補経路を特定するのを助けることを目的としています。
CorExplorer ポータルは、複数の種類のユーザーにとって役立つ可能性があります。ポータルは、公共データベースにおける腫瘍遺伝子発現の違いを駆動する広範な要因を理解し、おそらく同様の腫瘍のコンテキストで個々の遺伝子発現プロファイルを配置したいユーザーを念頭に置いて設計されました特性。ここで説明する代表的なプロトコルに加えて、CorExplorer の調査は、さらなるテストのための仮説を示唆し、CorExplorer 外のデータセットに関する CorEx の調査結果を比較対照し、接続するための出発点となる可能性があります。個々の腫瘍内の1つまたは少数の遺伝子の病理学的発現シグネチャを、協調的に影響を受ける可能性のあるより大きなグループに対する。最後に、この分野で始める人のためのRNA-seqへの機械学習の応用に関するユーザーフレンドリーな紹介として役立つかもしれません。
1. 目的遺伝子を含む因子の探索
2. 遺伝子重量、生存、ア釈データを用いてCorEx因子をフィルタリング・解釈
3. 生存とデータベースのアニテーションを使用して、有望な治療の組み合わせを探す
4. 検索ページを使用して、腫瘍タイプ間の遺伝子発現変動の共通点と相違点を見つける
肺癌データセット内の遺伝子「BRCA1」を検索すると、CorEx因子26と最も強く関連していることが明らかになりました(図2)。この因子のGO用語濃縮は非常に高く、DNA修復はわずか1 x10-19のFDRを示す。この選択は、子として 6 つの密接に関連する要因を持つ第 2 レベルクラスター L2_8 にも注目されます。GO用語アニテーションまたは因子グラフのGO濃縮ドロップダウンのいずれかで「DNA修復」を選択すると、各因子に関連する遺伝子が強調表示され、因子26は予想通り11を上回る。タンパク質とタンパク質相互作用ネットワークは強く結びつい、因子26における遺伝子の密接に連結された機能性をさらに支持する。関連する生存グラフは、患者の生存との関連性を示唆していますが、これはより大きなデータセットで確認する必要があります。
生存から始めることは、特定の遺伝子発現群に関連する生存率の改善の理由の解剖を可能にすることができる。一例として、卵巣癌の生存に影響を与える最上位因子は39番目と見られ、免疫系に関連する遺伝子に対して強く濃縮されている(図3)。同じレベル2ノードに関連する他の5つの因子も免疫関連であることが示されていますが、生存の影響は強く変動しているように見え、39が最も高く、52が最も低い。因子にタンパク質とタンパク質の相互作用ウィンドウを追加すると、即時相互作用ネットワークが示され、StringDB12ウェブサイトへのリンクを使用してPPIネットワーク遺伝子の様々なエンリッチメントを照会することができます。L2_14 因子のそれぞれについてこれを行うことで、PPIネットワーク遺伝子のStringDBエンリッチメントが生存との関連について以下の考えられる説明を示唆していることがわかります。因子32は、細胞傷害性Tリンパ球によって認識される主要組織適合性複合体(MHC)クラスIタンパク質複合体を構成する遺伝子を含有する。因子39は、CD8+Tリンパ球に関連するサイトカインシグナル伝達およびCXCR3受容体結合に対応する。これらの因子の両方は、対応する遺伝子の比較的高い発現を示す患者に有意な生存優位性を与えるように見える。細胞傷害性CD8+Tリンパ球は、主に抗腫瘍免疫を担当する。一方、因子52は、細胞傷害性Tリンパ球によって直接ではなく、主にCD4+Tヘルパー細胞によって認識されるMHCクラスII複合体におけるタンパク質をコードする遺伝子から構成される。残りのL2_14因子は、2種類のリンパ球集団を区別しない一般化された免疫系活性化を反映する。MCHクラスI細胞抗原の細胞傷害性Tリンパ球認識に特異的な生存関連は、一般的に、および黒色腫などの他の癌からの抗腫瘍免疫の我々の理解と一致している13,14。
ウェブポータルは、効果的な腫瘍特異的併用療法を示唆する相補的な機能を有する因子のペアの発見をサポートする。データセットの概要は、生存との相関関係を示すが、明確なGOエンリッチメントを持つ因子をスキャンすることができます。黒色腫(TCGA_SKCM;図4)は、トップ生存因子171が免疫関連であることが分かり、一方、リストの下の因子88は、ミトコンドリオン組織に関連する遺伝子の濃縮を示す。実際、これは黒色腫15の標的として示唆されている。CorExplorer ページにサバイバル ウィンドウを追加すると、因子ペアを使用した層化を各因子の階層化を個別に比較することができ、両グループの良好な遺伝子発現パターンがどちらよりも生存率の傾向を示すことを示します。単独で係数。最上部の層は改善されていないように見えるが、免疫療法だけが一部の患者にとって最良の選択肢かもしれないことを示唆している。
腫瘍間の共通点と相違点は、遺伝子やGO用語のデータセット間で検索することで見ることができます(図5)。一例として、FLT1(別名VEGFR1)は、よく研究されたプロ血管新生マーカー16、17である。検索バーに入れると、すべての腫瘍にFLT1が主要な役割を果たす要因があります。逆に、GO用語「血管新生」が検索ページに入力されると、FLT1グループの6つのうち5がそのエンリッチメントとともに現れる。SKCM-195を除くすべてのFLT1因子は、「血管新生」遺伝子に対して統計的に濃縮されたものとしてリストされている。6 番目の係数は、実際にはア釈を持ちますが、既定の 10- 8 しきい値を下回っています。因子リスト内の重み付けが代替濃縮電卓(例えば、遺伝子セット濃縮分析(GSEA)18で利用されると、第6因子は「血管新生」遺伝子についても有意に濃縮されることがわかった。
遺伝子発現パターンが生物学的解釈をサポートするのに十分な品質であることを確認するために、ヒートマップをチェックすることが重要です。強い明確な変化を示すヒートマップは、低から高い、またはより複雑なパターンに及ぶ因子遺伝子の協調発現のいずれかを示し、低発現を有する遺伝子と高い相関関係を有する遺伝子を示す可能性がある(図6)。高品質のグループ化の重要なマーカーは、因子スコアの関数としての発現の滑らかな変化を持ついくつかの遺伝子の存在です。因子ヒートマップは、因子スコアに従って順序付けされたサンプルを示すので、滑らかな勾配が左から右に移動する必要があります。ただし、これは少なくとも 2 つの異なる方法で発生する可能性があります。最も一般的には、相関関係は非常に騒々しい(図5C)、生存および/または生物学的機能に関する推論の堅牢性と有用性に疑問を投げかける。また、少数のサンプルでのみ発生するパターンは、CorEx アルゴリズムによって想定される 3 つの式状態のモデルに適合しない可能性があり、結果としてサンプルの誤解を招く分類が生じます (図 5Dの右側)。
図 1: CorExplorer のフロント ページ。クイックリンクの下の卵巣癌の横に+をクリックすると、因子グラフの詳細が表示されます。CorEx 階層モデルは、最下層の入力変数(この場合は遺伝子発現)で構成され、上位層の潜在因子が推測されます。この図のより大きなバージョンを表示するには、ここをクリックしてください。
図2:遺伝子名を使用して探査を導く。図は、BRCA1に強く関連するCorEx肺癌因子の探索を示す一連のスクリーンショットを示しています。まず、因子グラフの遺伝子ドロップダウンボックスで「BRCA1」を選択すると、グラフビューでBRCA1の重量が最も大きい因子にズームインします。ビットフレームを縮小すると、その係数を他の関連ノードに接続するレイヤ 2 ノード L2_8 がフレーム化されます。生存とアテーションを比較することができます:GO用語DNA修復をクリックすると、NOTNOT遺伝子が強調表示されます。PPI ウィンドウが追加され、因子内の遺伝子のネットワーク相互作用が表示されます。[ウィンドウの追加]ボタンを使用してヒートマップを追加すると、発現パターンと生存との関連が示され、DNA修復遺伝子の発現の増加が生存率の低下に関連している可能性が示唆される。この図のより大きなバージョンを表示するには、ここをクリックしてください。
図3:臨床データ(生存)を用いて探査を導く。卵巣癌のトップ生存関連因子(39)を探索すると、近隣の要因間の興味深い関係が明らかになります。因子グラフで因子39を選択し、少しズームアウトした後、因子39にリンクされたレイヤー2因子には、他の5つの関連因子があるが表示されます。追加の生存ウィンドウは、関連する生存差異を直接比較することができます。因子39と32はいずれも正の生存相関を示し、因子52とは対照的に、そうでない。タンパク質とタンパク質の相互作用ネットワークはすべて明確に定義されています。StringDBへのリンクはGOアノテーションの比較を可能にする(図示せず):因子39は細胞傷害性CD8+Tリンパ球活性化に関連するサイトカインシグナル伝達ネットワークに関連し、因子32はMHCクラスI抗原提示タンパク質によって支配される。このようなリンパ球によるトリガー認識;しかし、隣接する因子は、CD4+ヘルパーT細胞などの他の免疫系成分によって支配され、生存相関を示さない。この図のより大きなバージョンを表示するには、ここをクリックしてください。
図4:トップ生存因子の探索は、潜在的な治療的組み合わせを示唆する。ホーム ページ メニュー バーの 「データセット」リンクは、p 値で順序付けた生存因子の簡潔な表と、上位 GO アノテーション (図示せず) につながります。この情報を黒色腫に対して使用すると、ミトコンドリオン組織に対する因子88と免疫機能に対する因子171の組み合わせが相補的に現れる。次の図は、各因子のアヌテーション ウィンドウを対比に示しています。2つの因子によって個別にまたは一緒に階層化された患者の生存曲線は、組み合わせがいずれかの因子単独と比較して生存差を増加させることを示す。この図のより大きなバージョンを表示するには、ここをクリックしてください。
図 5: 検索ページを使用すると、汎癌の分析が容易になります。遺伝子またはGO生物学的プロセス用語は、ホームページからの検索リンクを使用して、すべてのデータセットにわたって検索することができます。図は、遺伝子FLT1およびGO用語「血管新生」の検索結果を示しています。結果は、癌全体で「血管新生」という用語に付加された因子におけるFLT1の存在を示す。この図のより大きなバージョンを表示するには、ここをクリックしてください。
図6:ヒートマップを使用して、因子スコアに従って遺伝子とサンプル間の相関関係を定性的に評価することができます。患者がヒートマップの因子スコアで注文されるとき、高品質の遺伝子発現関係は滑らかなグラデーションによって示される。因子18の左端のヒートマップは、その一例です。パターンには、係数 11 の中央の大きなヒートマップのように、上下の表現の複雑なシグネチャが含まれる場合もあります。低品質パターンは、右下の因子161ヒートマップのように、右側の因子9ヒートマップまたは単純な非常にノイズの多い相関のように、患者のサブグループの発現の急激な変化を示すことがあります。この図のより大きなバージョンを表示するには、ここをクリックしてください。
CorExplorerサイトは、CorExアルゴリズムによって腫瘍RNA-seqから学習された最大相関性遺伝子発現因子のインタラクティブな探索のための公的にアクセス可能なウェブサーバであるCorExplorerサイトを発表しました。腫瘍遺伝子発現に応じて患者を階層化するためにウェブサイトをどのように使用し、そのような層化が生物学的機能と生存にどのように対応するかを示した。
RNA-seq分析用の他のウェブサーバが構築されています。腫瘍の差動および共発現分析は、cbioPortal19,20の他のデータ型と調べ、統合することができる。サーバー GenePattern21、Mev22、および Morpheus 23 には、主成分解析 (PCA)、kmeans、または自己組織化マップ (SOM) などの確立されたクラスタリング手法が組み込まれています。より革新的な取り組みには、自動化されたルール生成分類器に基づく CamurWeb24と、ランダムフォレスト分類器と投げ縄を実装する TACCO25が含まれます。ここで使用される CorEx アルゴリズムは、データのパターンを説明する因子の階層を見つけるために、多変量情報を最適化します。非線形および階層因子の学習は、PCA4を介して見つかった線形グローバル因子に対する改善された解釈性をもたらすようです。さらに、この技術のサンプル信号の細かい解析により、より一般的に使用される広範なサブタイプに対する正確な腫瘍比較が可能になります。重複因子解析と階層因子解析の組み合わせは、CorExplorer を他のほとんどのアプローチと区別し、視覚化と要約のための新しいツールを必要とします。
CorExplorer 因子解析の重要な部分は、複数の因子だけでなく、重複する階層内に配置された有益な遺伝子パターンを持つ 100 以上の因子を探索する機能です。CorExplorerは生物学的および臨床関連のためのこれらの無数の要因の採掘を促進し、個々の腫瘍の非常に詳細な特徴付けを可能にする。このような多数の要因の教師なし学習は、すべてが病気の生物学に関連するわけではないことを意味します。このような場合、関心のある因子を引き出すか、生存などの臨床データに関連する因子を検索するために、アヌテーションまたは既知の遺伝子を使用することが不可欠です。したがって、CorExplorer を使用すると、この非常に重要なフィルタリング手順を実装できます。腫瘍における因子遺伝子パターンの存在は、パーソナライズされた腫瘍学治療へのアプローチを示唆するかもしれない。さらに、潜在的に有用な治療的組み合わせの発見を可能にする各腫瘍に対する因子スコアの多重性。
生存と相関性の高い因子に対して有意なGOアノテーションが表示されない場合があります。これは、ノイズが多いか、サンプリングされたデータの下で発生する可能性がありますが、クラスターサイズが小さすぎて有意な濃縮スコアを登録できないか、グループが一貫性のない多様な経路からの単一遺伝子の「バスケット」であるなど、他の考えられる原因があります。協会。さらに、KEGGおよびGO生物学的プロセスとは異なるアノテーションのカテゴリは、例えば細胞コンパートメントが適切であり、適切でありうる。これらは、プロトコルで示されているように StringDB にリンクすることでアクセスできます。CorExplorerサイトの遺伝子オントロジー濃縮分析は、現在、因子における遺伝子の重み付けを考慮していませんが、近い将来に改善される可能性が高いです。遺伝子リストオプションは、外部ツールでさらなる分析のために完全な因子遺伝子リストをダウンロードすることを可能にする「ウィンドウを追加」の下で利用可能です。
ウェブサイトの目的のために、CorExは各データセットで5回実行され、全体的な相関全体が最も大きい結果を生み出した実行は保持されました。複数の実行の結果を統計的に表現することは、より有益であり、将来の作業の目標です。さらに、サーバー上で利用可能な腫瘍タイプのセットはかなり小さいですが、ユーザーの関心に応じて時間の経過とともに拡大すると予想されます。
前述したように、CorExplorer は CorEx RNA-seq 因子関係と臨床およびデータベース情報を可視化するため、さまざまな異なる尋問モードを可能にします。このツールが、RNA-seq分析の力を腫瘍学における発見と臨床応用に活用するさらなる研究につながることを期待しています。
著者らは、彼らが競合する金銭的利益を持っていないと宣言します。
GVはDARPA賞W911NF-16-0575によってサポートされました。
Name | Company | Catalog Number | Comments |
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |
このJoVE論文のテキスト又は図を再利用するための許可を申請します
許可を申請This article has been published
Video Coming Soon
Copyright © 2023 MyJoVE Corporation. All rights reserved