このコンテンツを視聴するには、JoVE 購読が必要です。 サインイン又は無料トライアルを申し込む。
Method Article
複雑なマルチオミクスデータセットの教師なし分析のための柔軟で拡張可能なJupyterラボベースのワークフローを紹介します。これは、さまざまな前処理ステップ、マルチオミクス因子分析モデルの推定、およびいくつかのダウンストリーム分析を組み合わせたものです。
病気のメカニズムは通常複雑で、いくつかの異なる分子プロセスの相互作用によって支配されています。複雑な多次元データセットは、これらのプロセスに関するより多くの洞察を生成するための貴重なリソースですが、このようなデータセットの分析は、たとえば、さまざまな病状、時点、さまざまな解像度でプロセスをキャプチャするオミクスなど、高次元性のために困難な場合があります。
ここでは、急性および慢性冠症候群の免疫応答を捕捉する血液サンプルから生成されたデータセットにマルチオミクス因子分析(MOFA)を適用することにより、このような複雑なマルチオミクスデータセットを教師なしの方法で分析および探索するアプローチを紹介します。このデータセットは、サンプルレベルのサイトカインデータ、血漿プロテオミクスおよび好中球prime-seq、シングルセルRNA-seq(scRNA-seq)データなど、異なる分解能の複数のアッセイで構成されています。患者ごとにいくつかの異なる時点といくつかの患者サブグループを測定することで、さらに複雑さが増します。
分析ワークフローでは、(1)データの前処理と調和、(2)MOFAモデルの推定、(3)ダウンストリーム分析など、いくつかのステップでデータを統合および分析する方法を概説しています。ステップ 1 では、さまざまなデータ型の特徴を処理し、低品質の特徴を除外し、それらを正規化して分布を調和させ、さらに分析する方法について概説します。ステップ2では、MOFAモデルを適用し、すべてのオミクスと特徴にわたってデータセット内の分散の主な原因を調査する方法を示します。ステップ3では、捕捉されたパターンの下流分析のためのいくつかの戦略を示し、それらを疾患の状態とそれらの状態を支配する潜在的な分子プロセスに関連付けます。
全体として、複雑なマルチオミクスデータセットの教師なしデータ探索のワークフローを提示し、他のコンテキストやマルチオミクスデータセット(例示的なユースケースで提示された他のアッセイを含む)にも適用できる、異なる分子特性で構成される変動の主軸の同定を可能にします。
病気のメカニズムは通常複雑で、いくつかの異なる分子プロセスの相互作用によって支配されています。特定の疾患につながる、または疾患の進化を支配する複雑な分子メカニズムを解読することは、疾患の理解と治療のための新たな洞察を明らかにする可能性があるため、医学的関連性が高い課題です。
近年の技術の進歩により、これらのプロセスをより高い分解能(シングルセルレベルなど)で、またさまざまな生物学的層(DNA、mRNA、クロマチンアクセシビリティ、DNAメチル化、プロテオミクスなど)で同時に測定することが可能になりました。これにより、大規模な多次元生物学的データセットの生成が増加し、それらを共同で分析して、基礎となるプロセスについてより多くの洞察を得ることができます。同時に、生物学的に意味のある方法で異なるデータソースを組み合わせて分析することは、依然として困難な課題です1。
異なる技術的限界、ノイズ、および異なるオミクス間のばらつきの範囲が異なることが、1つの課題を提起します。例えば、シングルセルRNAシーケンシング(scRNA-seq)のデータは非常にまばらで、大きなテクニカルエフェクトやバッチエフェクトの影響を受けやすいです。さらに、フィーチャスペースは多くの場合非常に大きく、数千の測定された遺伝子またはタンパク質にまたがっていますが、サンプルサイズは限られています。これは、いくつかの病状、交絡因子、時点、および解決策を含む可能性のある複雑な設計によってさらに複雑になります。たとえば、提示されたユースケースでは、シングルセルレベルまたはサンプル(バルク)レベルのいずれかで異なるデータ型が使用可能でした。それに加えて、データが不完全である可能性があり、分析されたすべての被験者がすべての測定値を利用できるとは限りません。
これらの課題により、統合解析を行うことでプロセスの全体像が得られるだけでなく、1つのオミクスからの生物学的および技術的なノイズが他のオミクス3,4によっても補償される可能性があるにもかかわらず、異なるオミクスと含まれる特徴は依然として別々にのみ解析されることがよくあります2。マルチオミクスデータの統合解析を行うためには、ベイズ法、ネットワークベース法5,6、マルチモーダル深層学習7、行列因数分解8,9による次元削減法など、いくつかの異なる方法が提案されている。後者については、大規模なベンチマーク研究10の結果により、MOFA9(マルチオミクス因子分析)法は、データを臨床アノテーションにリンクする必要がある場合により適したツールの1つであることが示されています。
特に複雑な設定では、教師なし行列因数分解法は、複雑さを軽減し、さまざまなデータソースや特徴から共有シグナルと相補的なシグナルを抽出するための有用なアプローチです。複素空間を低ランクの潜在表現に分解することにより、データ内の分散の主要な原因を迅速に探索し、既知の共変量に関連付けることができます。同じパターンの変動が複数の特徴(遺伝子やタンパク質など)で共有されている場合、ノイズが減少する一方で、これはいくつかの要因に集約される可能性があります。正則化を使用してモデル係数のスパース性を増加させることができるため、このアプローチは、特徴空間が大きく、サンプル数が限られている設定に適しています9。
このプロトコルは、MOFAモデルを使用して、複雑なマルチオミクスデータセットを迅速に探索し、このデータセットを特徴付ける主要な変動パターンを抽出する方法を示す柔軟な解析ワークフローを提供します。ワークフローは、主に 3 つのステップで構成されています。最初のステップである「データの前処理と調和」では、さまざまな入力データタイプ(scRNA-seq、プロテオミクス、サイトカイン、臨床データ)に基づくデータ前処理のさまざまな戦略が提示されます。このプロトコルでは、さまざまな入力データセットの特徴を処理し、低品質の特徴を除外し、それらを正規化して分布を調和させる方法について詳しく説明します。また、これらの前処理の決定が下流の結果にどのように影響するかについても説明します。2番目のステップでは、MOFAモデルをデータに適用し、結果として生じる分散分解を使用して、異なるデータセットの統合を評価できます。3番目のステップでは、捕捉した因子を共変量にリンクし、それらの因子を定義する分子プログラムを明らかにする方法を示します。提示されたワークフローにより、冠症候群に罹患している患者のデータセットで臨床共変量に関連するいくつかの潜在因子を抽出し、以前のプロジェクト11から潜在的な基礎となる多細胞免疫プログラムを特定することができました。ここではこのデータセットを使用しますが、このプロトコルは他のオミクスを含む他のコンテキストにも簡単に適用できます。
このデータセットは、安定した慢性冠症候群(CCS)、急性冠症候群(ACS)、および健康な冠動脈症候群(非CCS)の対照群からのサンプルで構成されています(図1)。ACSは、既存のCCSのプラーク破裂によって引き起こされ、心筋への血流の急性の混乱とそれに続く心臓の虚血性損傷につながります。この損傷は、免疫系による炎症反応を引き起こし、その後修復段階を引き起こし、それは急性イベントの数日後まで続きます12。ACS患者のこの免疫応答を特徴付けることができるように、血液サンプルは4つの異なる時点で採取されました:急性(TP1);再開通後(14 [± 8] h)(TP2);60 [± 12] h後(TP3);退院前(6.5 [±1.5]日)(TP4)(図1A)。CCSおよび健康な冠状動脈の患者の場合、利用可能なタイムポイントは1つだけでした-(TP0)。すべての患者と時点について、血液サンプルに基づくさまざまなアッセイが測定されました:炎症の臨床マーカー(クレアチンキナーゼ(CK)、CK-MB、トロポニン、C反応性タンパク質(CRP))、末梢血単核細胞(PBMC)のscRNA-seq、サイトカイン分析、血漿プロテオミクス、好中球のprime-seq13 データ。
図1:心筋梗塞マルチオミクス入力データセット。 入力データセット: 分析されたデータには、急性冠症候群 (ACS)、慢性冠症候群 (CCS)、および健康な冠動脈 (非 CCS) の患者 (n = 62) の血液サンプルが含まれます。ACS 患者の場合、血液サンプルは 4 つの異なる時点 (TP1-4) に含まれ、CCS 患者と非 CCS 患者の場合は 1 つの時点 (TP0) に含まれていました。各患者と時点の組み合わせは、分析で個別のサンプルとして扱われます。サンプルでは、臨床血液検査(n = 125)、scRNA-seq(n = 121)、血漿プロテオミクス(n = 119)、サイトカインアッセイ(n = 127)、好中球prime-seq(n = 121)など、さまざまなオミクスアッセイがサンプルで測定されました。その後、記載されたプロトコルを適用して、すべてのオミクスにわたるデータを統合し、MOFAモデルを用いて探索し、さらに下流の分析(因子分析、パスウェイエンリッチメント)を行いました。 この図の拡大版を表示するには、ここをクリックしてください。
ここで紹介するワークフローの入力として、例えばscanpy14 の前処理チュートリアルで概説されているように、cellrangerおよび品質管理(QC)で処理した後のscRNA-seqデータから生のカウントを取ります。細胞タイプのアノテーションには、自動化されたAzimuth15 パイプラインを使用しました。次に、カウントは、各サンプルとセルタイプのすべてのセルの平均を取ることにより、各セルタイプのサンプルレベルで集計されます(疑似バルク集計)。プラズマプロテオミクスは正規化された強度と中央中心の強度として含まれ、好中球については、prime-seqからumi unique molecular identifier(UMI)エクソンカウントを取得します。サイトカインおよび臨床値については、以前の前処理は適用されていません。(実験的)データ生成に関するさらなる詳細は、対応する原稿11に概説されている。ここで紹介した結果は、scRNA-seqデータ中の細胞型に対して自動Azimuthアノテーションを使用した結果に基づいており、参照された論文で使用されたマーカーベースの戦略と比較した結果であるため、ここで提示された結果は、論文で提示されたものと類似していますが、まったく同じではありません。この原稿では、細胞型アノテーション戦略は分析の主要なパターンと生物学的解釈を変更しないが、モデルから生じる正確な値のわずかな変化は異なる可能性があることを示すことができます。全体として、入力データは、10,000を超える異なる特徴(遺伝子、タンパク質、臨床値)のさまざまな時点と測定レベル(単一細胞とバルク)を含む複雑な多次元データセットでした。MOFA分析に続く厳密な前処理とデータ調和戦略は、データを探索し、関連する免疫プログラムを抽出するための有用で迅速なツールであることが示されています。各時点と患者の組み合わせは、MOFA 分析では独立したサンプルとして扱われます。各データ型とセルの種類は、MOFA 分析では個別のビューと見なされます。
このプロトコルでは、ワークフローの入力データの準備、さまざまなワークフローステップの実行、構成のカスタマイズ、結果の数値の解釈、および解釈に基づく構成の反復調整を行う手順を提供します。プロトコルのさまざまなステップの概要、各ステップで必要な入力データセット、および結果として得られる図とデータセットは、テクニカルワークフローの概要に記載されています(図2)。
図2:テクニカルワークフローの概要。 マルチオミクスデータセットの解析ワークフローの概要。さまざまな要素が、さまざまな色と記号で強調表示されます。データの前処理と調和 (1) のステップに属する Jupyter Notebook は青色で色分けされています。「MOFA Model」(2)ステップに属するJupyter Notebookはオレンジ色で色づいています。「Downstream Analysis」(3)ステップに属するJupyter Notebookは緑色で色付けされています。結果の比較に使用する 1 つの Jupyter Notebook は、黄色で色付けされています。ワークフローの実行パラメータを変更できる設定ファイルは、紫色で強調表示されます。ワークフローの実行に必要な入力データセットは、データセット記号で示され、グレーでハイライト表示されます。ワークフローの実行中に生成されるすべての Figure 出力は、虫眼鏡記号で示されます。ワークフローの実行中に生成されたデータセットは、テーブルとして示されます。一般に、ワークフローは順番に実行されます:(1)データの前処理と調和は、scRNA-seq入力データに基づく疑似バルクテーブルの第一生成(01_Prepare_Pseudobulk)と、その後のこのデータと他のすべてのサンプルレベル(バルク)入力(02_Integrate_and_Normalize_Data)の統合と正規化の2つのステップで構成されます。このステップでは、設定ファイルを使用して、指定された前処理ステップと正規化ステップ(サンプルフィルターなど)をデータセットごとに個別に構成することができます。(2) 「MOFAモデル」:設定ファイル(03_MOFA_configs.csv)で指定された構成を使用して、最初のステップで生成された入力に対してMOFAモデルを実行します (3) 「ダウンストリーム分析」:生成されたMOFA結果に対する洞察を生成し、それらを「Sample Meta Data.csv」ファイルを介して入力として提供されるサンプルメタデータ(共変量)に関連付けるために、互いに独立して実行できる3つの異なるノートブックで構成されています。(4) 「モデル比較」:ステップ2で生成された異なるモデルを比較するために使用できる小さな別個のステップです。 この図の拡大版を表示するには、ここをクリックしてください。
ワークフローは、R と Python で記述された複数の Jupyter Notebook で構成されています (ワークフローの実行に R と Python 言語の知識は必要ありませんが、エラーが発生した場合に役立つ場合があります)。プロトコルのさまざまなステップで、パラメータは設定ファイル(名前に接尾辞「_Configs」を含む「.csv」ファイル)を介して変更されます。プロトコル内では、デフォルト設定から変更する必要があるパラメータのみを概説します。
他のいくつかのパラメータも、たとえば前処理をカスタマイズするために変更できます。これらのパラメータと説明のドキュメントは、ダウンロードしたリポジトリに含まれているファイル 'Documentation_Config_Parameter' に記載されています。
1.準備:技術的なセットアップとインストール
注: このプログラムを実行するには、wget、git、および Apptainer がデバイスにプリインストールされています。さまざまなシステム(Linux、Windows、Mac)にApptainerをインストールするためのガイドは、ここにあります:https://apptainer.org/docs/admin/main/installation.html。git のインストール情報は、https://git-scm.com/book/en/v2/Getting-Started-Installing-Git にあります。さまざまな入力データセットのサイズに応じて、適切なマシン(16 CPU、64 GB メモリ)でワークフローを実行することをお勧めします。提供されたサンプルデータを使用したスモークテストは、ローカルマシンで実行できます。サンプル データでプロトコルを実行した場合の手順と予想される出力は、補足ファイル 1 に記載されています。上記のデータセットで実行されるプロトコルの重要な手順については、 補足ビデオファイル1 を参照してください。
2. 初期化とデータ準備
図3:データ入力とセットアップ。 ワークフローを実行するには、すべてのデータを指定したinput_dataフォルダーに保存する必要があります。入力データセットごとに、個別のファイルを用意する必要があります。シングルセルデータは、cluster_id上の細胞アノテーション(例えば、以前の細胞タイプのアノテーションステップから得られる)とsample_id列(分析すべき各サンプルを一意に識別する)を含む.h5adとして指定する必要があります。他のすべての入力データセットは、sample_idを指定する1つの列(単一セルデータの対応する列と一致する)と、他のすべての列のMOFA分析で使用される特徴を含む「.csv」形式で指定する必要があります。 この図の拡大版を表示するには、ここをクリックしてください。
図4:Jupyter-lab設定ファイル。 ワークフローの実行中、パラメータの変更(フィルタリングオプションの調整など)は、「.csv」設定ファイルを介して指定されます。クローニングされたリポジトリ内には、各ステップのデフォルトの設定ファイルが含まれています。これらは、スプレッドシートと同様に、jupyter-lab コンソールで直接編集できます。 この図の拡大版を表示するには、ここをクリックしてください。
図5:Jupyter-notebooksスクリプト。 完全なワークフローは、対応する設定ファイルが変更された後に順番に実行される一連の Jupyter Notebook で構成されています。左側のJupyterノートブックをダブルクリックすると、対応するファイルが右側で開きます。ファイルの完全な実行は、上部で強調表示されているボタンから開始できます。 この図の拡大版を表示するには、ここをクリックしてください。
3. データの前処理と調和
図6:データの前処理と調和 '01_Prepare_Pseudobulk' ステップの出力の 1 つは、プロット 'Fig01_Amount_of_Cells_Overview' です。ここでは、各cluster_id(y軸は前の細胞型アノテーションステップの細胞タイプを示す)について、サンプルあたりの細胞数('sample_id')が与えられます。提示された結果の中で、サンプルあたりの細胞量が少ない細胞タイプは、その後の分析から除外されます(取り消し線で示されています)。 この図の拡大版を表示するには、ここをクリックしてください。
4. MOFAの実行
5. ダウンストリーム解析
6. 異なる構成とバージョンの比較(補足図1、補足図2、補足図3、補足図4)
7. ワークフローの拡張:他のパラメーターと設定の追加
注: 設定ファイルで現在設定可能なパラメータの他に、コードや他のパラメータに他の調整が含まれている場合があります。例えば、MOFAモデル自体は、コード内で直接変更することも、設定ファイルを通じて調整することもできる他のいくつかの訓練パラメータ17 を提供する。プロトコルの次のセクションでは、追加のMOFAモデルのトレーニングパラメータに対してこれを行う方法の例を概説します。この部分では、Rプログラミングの知識が必要です。
ワークフローが正常に実行されると、 図 2 に示すように、いくつかのテーブルと図が生成されます。図は /figures フォルダ (図 6、 図 7、 図 8、 補足図 1、 補足図 2、 補足図 3、 補足図 4) に配置され、テーブルは指...
概説されたプロトコルでは、複雑なマルチオミクスデータセットを迅速に探索するために使用できる、モジュール式で拡張可能なJupyter-notebookベースのワークフローが提示されます。ワークフローの主要な部分は、前処理とデータ調和の部分(データのフィルタリングと正規化のためのさまざまな標準ステップを提供)、MOFA9 モデルの推定、およびいく...
著者は、利益相反を宣言しません。
C.L.は、共同研究学校「Munich School for Data Science - MUDS」の下でヘルムホルツ協会の支援を受けています。
Name | Company | Catalog Number | Comments |
Apptainer | NA | NA | https://apptainer.org/docs/admin/main/installation.html |
Compute server or workstation or cloud (Linux, Mac or Windows environment). Depending on the size of the different input datasets we recommend running the workflow on a suitable machine (in our setting we use: 16 CPU, 64GB Memory) | Any manufacturer | 16 CPU, 64GB Memory | Large Memory is only required for the processing of the raw single cell data. After preprocessing the later analysis steps can also be performed on regular desktop or laptop computers |
git | NA | NA | https://git-scm.com/book/en/v2/Getting-Started-Installing-Git |
GitHub | GitHub | NA | https://github.com/heiniglab/mofa_workflow |
このJoVE論文のテキスト又は図を再利用するための許可を申請します
許可を申請This article has been published
Video Coming Soon
Copyright © 2023 MyJoVE Corporation. All rights reserved