このコンテンツを視聴するには、JoVE 購読が必要です。 サインイン又は無料トライアルを申し込む。

この記事について

  • 要約
  • 要約
  • 概要
  • プロトコル
  • 代表的な結果
  • ディスカッション
  • 開示事項
  • 謝辞
  • 資料
  • 参考文献
  • 転載および許可

要約

複雑なマルチオミクスデータセットの教師なし分析のための柔軟で拡張可能なJupyterラボベースのワークフローを紹介します。これは、さまざまな前処理ステップ、マルチオミクス因子分析モデルの推定、およびいくつかのダウンストリーム分析を組み合わせたものです。

要約

病気のメカニズムは通常複雑で、いくつかの異なる分子プロセスの相互作用によって支配されています。複雑な多次元データセットは、これらのプロセスに関するより多くの洞察を生成するための貴重なリソースですが、このようなデータセットの分析は、たとえば、さまざまな病状、時点、さまざまな解像度でプロセスをキャプチャするオミクスなど、高次元性のために困難な場合があります。

ここでは、急性および慢性冠症候群の免疫応答を捕捉する血液サンプルから生成されたデータセットにマルチオミクス因子分析(MOFA)を適用することにより、このような複雑なマルチオミクスデータセットを教師なしの方法で分析および探索するアプローチを紹介します。このデータセットは、サンプルレベルのサイトカインデータ、血漿プロテオミクスおよび好中球prime-seq、シングルセルRNA-seq(scRNA-seq)データなど、異なる分解能の複数のアッセイで構成されています。患者ごとにいくつかの異なる時点といくつかの患者サブグループを測定することで、さらに複雑さが増します。

分析ワークフローでは、(1)データの前処理と調和、(2)MOFAモデルの推定、(3)ダウンストリーム分析など、いくつかのステップでデータを統合および分析する方法を概説しています。ステップ 1 では、さまざまなデータ型の特徴を処理し、低品質の特徴を除外し、それらを正規化して分布を調和させ、さらに分析する方法について概説します。ステップ2では、MOFAモデルを適用し、すべてのオミクスと特徴にわたってデータセット内の分散の主な原因を調査する方法を示します。ステップ3では、捕捉されたパターンの下流分析のためのいくつかの戦略を示し、それらを疾患の状態とそれらの状態を支配する潜在的な分子プロセスに関連付けます。

全体として、複雑なマルチオミクスデータセットの教師なしデータ探索のワークフローを提示し、他のコンテキストやマルチオミクスデータセット(例示的なユースケースで提示された他のアッセイを含む)にも適用できる、異なる分子特性で構成される変動の主軸の同定を可能にします。

概要

病気のメカニズムは通常複雑で、いくつかの異なる分子プロセスの相互作用によって支配されています。特定の疾患につながる、または疾患の進化を支配する複雑な分子メカニズムを解読することは、疾患の理解と治療のための新たな洞察を明らかにする可能性があるため、医学的関連性が高い課題です。

近年の技術の進歩により、これらのプロセスをより高い分解能(シングルセルレベルなど)で、またさまざまな生物学的層(DNA、mRNA、クロマチンアクセシビリティ、DNAメチル化、プロテオミクスなど)で同時に測定することが可能になりました。これにより、大規模な多次元生物学的データセットの生成が増加し、それらを共同で分析して、基礎となるプロセスについてより多くの洞察を得ることができます。同時に、生物学的に意味のある方法で異なるデータソースを組み合わせて分析することは、依然として困難な課題です1

異なる技術的限界、ノイズ、および異なるオミクス間のばらつきの範囲が異なることが、1つの課題を提起します。例えば、シングルセルRNAシーケンシング(scRNA-seq)のデータは非常にまばらで、大きなテクニカルエフェクトやバッチエフェクトの影響を受けやすいです。さらに、フィーチャスペースは多くの場合非常に大きく、数千の測定された遺伝子またはタンパク質にま....

プロトコル

1.準備:技術的なセットアップとインストール

注: このプログラムを実行するには、wget、git、および Apptainer がデバイスにプリインストールされています。さまざまなシステム(Linux、Windows、Mac)にApptainerをインストールするためのガイドは、ここにあります:https://apptainer.org/docs/admin/main/installation.html。git のインストール情報は、https://git-scm.com/book/en/v2/Getting-Started-Installing-Git にあります。さまざまな入力データセットのサイズに応じて、適切なマシン(16 CPU、64 GB メモリ)でワークフローを実行することをお勧めします。提供されたサンプルデータを使用したスモークテストは、ローカルマシンで実行できます。サンプル データでプロトコルを実行した場合の手順と予想される出力は、補足ファイル 1 に記載されています。上記のデータセットで実行されるプロトコルの重要な手順については、 補足ビデオファイル1 を参照してください。

  1. コンソールを開き、すべての解析コードと出力を保存するフォルダを選択または作成します。ターミナルで<....

代表的な結果

ワークフローが正常に実行されると、 図 2 に示すように、いくつかのテーブルと図が生成されます。図は /figures フォルダ (図 6図 7図 8補足図 1補足図 2補足図 3補足図 4) に配置され、テーブルは指.......

ディスカッション

概説されたプロトコルでは、複雑なマルチオミクスデータセットを迅速に探索するために使用できる、モジュール式で拡張可能なJupyter-notebookベースのワークフローが提示されます。ワークフローの主要な部分は、前処理とデータ調和の部分(データのフィルタリングと正規化のためのさまざまな標準ステップを提供)、MOFA9 モデルの推定、およびいく.......

開示事項

著者は、利益相反を宣言しません。

謝辞

C.L.は、共同研究学校「Munich School for Data Science - MUDS」の下でヘルムホルツ協会の支援を受けています。

....

資料

NameCompanyCatalog NumberComments
ApptainerNANAhttps://apptainer.org/docs/admin/main/installation.html
Compute server or workstation or cloud  (Linux, Mac or Windows environment).
Depending on the size of the different input datasets we recommend running the workflow on a suitable machine (in our setting we use: 16 CPU, 64GB Memory)
Any manufacturer16 CPU, 64GB MemoryLarge Memory is only required for the processing of the raw single cell data. After preprocessing the later analysis steps can also be performed on regular desktop or laptop computers
gitNANAhttps://git-scm.com/book/en/v2/Getting-Started-Installing-Git
GitHubGitHubNAhttps://github.com/heiniglab/mofa_workflow

参考文献

  1. Lähnemann, D., et al. Eleven grand challenges in single-cell data science. Genome Biol. 21 (1), 31 (2020).
  2. Colomé-Tatché, M., Theis, F. J. Statistical single cell multi-omics integration. Curr Opin Syst ....

転載および許可

このJoVE論文のテキスト又は図を再利用するための許可を申請します

許可を申請

さらに記事を探す

RNA seq

This article has been published

Video Coming Soon

JoVE Logo

個人情報保護方針

利用規約

一般データ保護規則

研究

教育

JoVEについて

Copyright © 2023 MyJoVE Corporation. All rights reserved