このコンテンツを視聴するには、JoVE 購読が必要です。 サインイン又は無料トライアルを申し込む。
Method Article
臨床メタプロテオミクスは、ヒトのマイクロバイオームとその疾患への寄与についての洞察を提供します。Galaxyプラットフォームの計算能力を活用して、複雑な質量分析ベースのメタプロテオミクス解析と疾患研究に関連する多様な臨床サンプルタイプの特性評価を容易にするモジュール式バイオインフォマティクスワークフローを開発しました。
臨床メタプロテオミクスは、疾患の基礎にある宿主とマイクロバイオームの相互作用を明らかにします。ただし、このアプローチには課題があります。特に、宿主タンパク質に比べて存在量が少ない微生物タンパク質の特性評価は困難です。その他の大きな課題は、非常に大規模なタンパク質配列データベースを使用することに起因しており、これは、分類学や機能アノテーションの検索、統計解析の実行に加えて、質量分析データからのペプチドおよびタンパク質同定の感度と精度を妨げます。これらの問題に対処するために、カスタムタンパク質配列データベースの生成、ペプチドスペクトルマッチの生成と検証、定量、分類学的および機能的アノテーション、統計解析を組み合わせた、質量分析ベースのメタプロテオミクスのための統合バイオインフォマティクスワークフローを紹介します。このワークフローでは、(微生物タンパク質を優先しながら)ヒトタンパク質の特性評価も可能になるため、疾患における宿主微生物のダイナミクスに関する洞察が得られます。ツールとワークフローはGalaxyエコシステムにデプロイされ、これらの計算リソースの開発、最適化、および普及を可能にします。このワークフローは、鼻咽頭スワブや気管支肺胞洗浄液など、多数の臨床サンプルタイプのメタプロテオミクス解析に適用しています。ここでは、子宮頸部スワブからの残留液の分析を通じて、その有用性を実証します。Galaxy Training Networkでは、完全なワークフローとそれに付随するトレーニングリソースにアクセスでき、専門家でない研究者や経験豊富な研究者がデータを分析するために必要な知識とツールを身に付けることができます。
質量分析(MS)ベースのメタプロテオミクスは、臨床サンプルから微生物およびヒトタンパク質を同定し、定量します。このアプローチは、疾患に対するマイクロバイオームの応答に関する新たな理解をもたらし、宿主とマイクロバイオームの相互作用の潜在的なメディエーターを明らかにします1,2。臨床サンプルのメタプロテオミクス解析により、マイクロバイオームとその宿主環境との相互作用を明らかにすることができますが、この分野は依然として多くの課題に直面しています。主な課題の1つは、宿主(ヒト)タンパク質が比較的豊富に存在するため、存在量が少ない微生物タンパク質の同定が妨げられていることです。さらに、MSベースのメタプロテオミクスは、非常に大規模なタンパク質配列データベースの使用に依存しています。これらのデータベースは、サンプル中に存在する微生物プロテオームで構成されており、その結果、数百万の配列を含む大規模なデータベースが生まれます。トリプティックに消化されたタンパク質からタンデム質量分析(MS/MS)スペクトルを作製した後、大規模なタンパク質配列データベースに対してMS/MSスペクトルを検索し、ペプチド配列を各スペクトルに一致させます(ペプチド-スペクトルマッチ、またはPSM)。しかし、感度は低下し、メタプロテオミクス3に使用される大規模なデータベースでは偽陽性の可能性が増大します。さらに、分類群全体で保存されたタンパク質配列と、コードされたタンパク質の不十分なアノテーションは、検出されたペプチドおよびタンパク質の分類学的および機能的アノテーションを制限します4,5。私たちは、これらの課題の多くに対処し、研究者がヒト疾患の根底にある宿主マイクロバイオームダイナミクスを調査するためのアクセス可能なソフトウェアリソースを提供する、臨床サンプルの効果的なメタプロテオミクス解析のためのバイオインフォマティクスワークフローを紹介します。
臨床メタプロテオミクスは、糞便や膣スワブなど、さまざまなサンプルタイプを調査し、疾患や状態の病原性メカニズムを解読するために使用されてきました6,7,8,9,10,11,12,13,14,15,16,17,18 、19、20。ここでは、メタプロテオミクスバイオインフォマティクスワークフローを使用して、卵巣がん(OVCA)および非OVCA患者21のPap試験液(PTF)サンプルからのMS/MSデータのサブセットを分析します。ソフトウェアツールとワークフローは、Galaxyプラットフォームを介してアクセスでき、複雑な臨床メタプロテオミクスワークフロー22,23,24,25の開発と実行を効率化します。Galaxyは、バイオインフォマティクスと計算生物学のために設計されたオープンソースプラットフォームです。オープンソースのツールとワークフローを使用するためのWebベースの環境を提供し、学術研究者が複雑なデータ分析を実行および共有できます。ソフトウェア開発者、データサイエンティスト、エンドユーザーからなる活発なグローバルコミュニティが、オンラインおよびオンデマンドのトレーニングリソースを提供するGalaxy Training Network(GTN;https://training.galaxyproject.org/)を含むGalaxyエコシステムを維持しています22,23,24,25,26,27.私たちのワークフローは、臨床サンプル中の宿主微生物のダイナミクスの新たな理解を明らかにするとともに、臨床サンプルのさらなる研究のための標的MSベースの臨床アッセイを開発するための関心のある新規で十分に特徴付けられたペプチドターゲットを生成することを目的としています6,20,28。さらに、この論文は、臨床メタプロテオミクスワークフローの方法論に焦点を当てることを目的としています。GTN(https://training.galaxyproject.org/)には、カバーされていない追加の説明を求めるユーザーにとって、この原稿と並行して使用できる貴重なリソースであるため、より詳細で初心者に優しいガイドが提供されています。Galaxyコミュニティは、Galaxyプラットフォーム20、21、22、23、24、25、26、27の初心者ユーザーを支援するために多数の原稿を作成しています。
この原稿のすべての補足表(ツールパラメータなど)と図(プロット例など)は別々のファイルとして提供されており、それに応じて参照されています。この原稿では、Galaxyバージョン2.3.0内の現在のツールバージョンを使用しました。そのため、Galaxyやツールのバージョンアップデートによって結果が若干異なる場合があります。Galaxyプラットフォームとそのツールはオープンソースであり、学術研究目的で使用できます。
Access restricted. Please log in or start a trial to view this content.
MS/MS スペクトルデータは、前述の 21,29,30 のように、機関の理事会が承認したガイドラインおよび規制に従った手順を使用して収集された、匿名化された残留 PTF サンプルから取得されました。
注: 図 1 は、5 つのモジュールで構成される完全なワークフローの概要を示しています。すべての入力、出力、およびソフトウェア・ツールは、 補足表1にまとめられています。
図1:Galaxy内の臨床メタプロテオミクスワークフローモジュールの概要。完全な臨床メタプロテオミクスワークフローは、データベース生成、発見、検証、定量、データ解釈の5つのモジュールで構成されています。(A)大規模な包括的なデータベースには、サンプル中に存在すると考えられる微生物種、ヒト、および一般的な汚染物質のタンパク質配列が含まれています。MetaNovoソフトウェアツールは、MS/MSスペクトルデータをペプチドに直接一致させ、生MSデータと大量のインプットタンパク質配列データベースからタンパク質とそのソース生物を推測し、データベースを削減しました33。MetaNovoから削減されたデータベースは、ヒトおよび汚染物質のタンパク質と統合され、ペプチド発見のためのデータベースが作成されます。(イ)2つのペプチド同定アルゴリズム、SearchGUI/PeptideShakerおよびMaxQuantは、ペプチド配列をMS/MSスペクトルおよびターゲット−デコイタンパク質データベース49に一致させる。(ハ)次に、SearchGUI/PeptideShaker および MaxQuant で同定したペプチドを PepQuery2 を使用して検証します。PepQuery2は、推定的に同定された微生物ペプチド配列およびそれらに一致するMS/MSスペクトルを、ヒト宿主プロテオームおよび/または汚染物質に対する他の潜在的な一致に対して厳密に再検討し、それにより信頼性の高い微生物の一致を検証します40,41。検証済みペプチドは、ペプチドおよびタンパク質の定量に使用される検証済みタンパク質配列データベースを生成するために使用されます。(D)MaxQuant42は、検証済みのタンパク質配列に対してMS/MSデータを検索し、微生物ペプチドおよび推定タンパク質をヒトタンパク質とともに定量します。(E)最終ステップでは、Unipept45およびMSstatsTMT46を使用して、タンパク質に分類学および機能情報(酵素コミッションアクセッション)を付加し、火山プロットおよび比較プロットを生成します。この図の拡大版を表示するには、ここをクリックしてください。
1. TMT標識とMS/MSスペクトルの生成
2. モジュールのセットアップ
メモ: ボタン/メニューの選択は太字で表示されています。サンプルファイル、ワークフロー、およびツールパラメータには、補足テーブルからアクセスできます。Galaxyの使用方法の詳細については、GTNのFAQページ(https://training.galaxyproject.org/training-material/faqs/galaxy/)をご覧ください。
3. モジュール1:タンパク質配列データベースの生成
注: 補足表 2 のサンプル入力とワークフローを使用する場合は、セクション 2 の指示に従ってください。モジュール 1 では、DATABASE GENERATION の入力とワークフローをインポートします。 補足表 2 の出力列には、参照用に完了した出力履歴の例が含まれています。すべてのモジュールについて、対応するGTNチュートリアルは 補足表3にあります。
4. モジュール2:データベース検索によるペプチド探索
注: 補足表 2 のサンプル入力とワークフローを使用する場合は、セクション 2 の指示に従ってください。モジュール 2 では、DISCOVERY の入力とワークフローをインポートします。すべてのモジュールについて、対応するGTNチュートリアルは補足表3にあります。SearchGUI 34,35,36およびPeptideShaker37は別個のソフトウェアであるが、それらが並行して使用されるため、1つのペプチド同定および処理プログラムと見なされる。ソフトウェアの互換性を保つため、MS/MSデータセットは、msconvertツール(提供されているワークフロー内)を使用して、SearchGUI/PeptideShakerのRAWからMGFに変換されます。MaxQuant38はRAWファイルを処理できます。
5. モジュール3:微生物ペプチドの検証
注: 補足表 2 のサンプル入力とワークフローを使用する場合は、セクション 2 の指示に従ってください。モジュール 2 では、VERIFICATION の入力とワークフローをインポートします。すべてのモジュールについて、対応するGTNチュートリアルは 補足表3にあります。
6. モジュール 4:MaxQuant の定量
注: 補足表 2 のサンプル入力とワークフローを使用する場合は、セクション 2 の指示に従ってください。モジュール 2 では、QUANTIFICATION の入力とワークフローをインポートします。すべてのモジュールについて、対応するGTNチュートリアルは 補足表3にあります。
7. モジュール5:データの解釈
注: 補足表 2 のサンプル入力とワークフローを使用する場合は、セクション 2 の指示に従ってください。モジュール 2 では、DATA INTERPRETATION の入力とワークフローをインポートします。すべてのモジュールについて、対応するGTNチュートリアルは 補足表3にあります。ここでは、前のモジュールで MaxQuant 定量化からの出力を、Unipept を使用した分類学的および機能的アノテーションと MSstatsTMT を使用した統計解析に使用します。Unipeptは、研究者が多様な環境内の微生物を同定および定量し、公開データベース(UniProtなど)と統合して更新されたアノテーションを取得できるようにします。MSstatsTMTは、TMTラベリングを使用して、質量分析ベースの定量プロテオミクスデータの堅牢な統計分析のために設計されました。
Access restricted. Please log in or start a trial to view this content.
ここで説明する一般的なプロトコルは、PTFサンプル21のサブセットから得られたMS/MSファイルで実証された。Do et al.21 は、Boylan et al.29および Afiuni-Zadel et al.30 によって記述された手順に従って収集された PTF サンプルから 4 つの MS/MS ファイルを分析しました。このワークフローは、微生物タンパク...
Access restricted. Please log in or start a trial to view this content.
臨床メタプロテオミクス研究は、臨床研究にブレークスルーをもたらす可能性がありますが、その実施には依然として課題があります。ほとんどのサンプルでは、微生物タンパク質の存在量が宿主タンパク質に比べて少ないため、非宿主タンパク質の検出と特性評価が妨げられています6,10。正確なペプチドおよびタンパク...
Access restricted. Please log in or start a trial to view this content.
著者は、利益相反を宣言しません。
パイロットデータセットを提供してくださった Amy Skubitz 博士と Kristin Boylan 博士 (ミネソタ大学)、サンプル収集、PTF サンプルの処理、およびこの研究で使用された TMT 標識 MS データの生成に関する専門知識を提供してくださった Paul Piehowski 博士、Tao Liu 博士、Karin Rodland 博士 (Pacific Northwest National Laboratories (PNNL)) に感謝します。このプロジェクトは、Minnesota Ovarian Cancer Alliance(MOCA)、National Institutes of Health/National Cancer Institute Grant Number: 5R01CA262153 (A.P.N.S.)、1R21CA267707 (P.D.J and T.J.G.)、National Institutes of Health/National Cancer Institute Grant Number: P30CA077598 (P.D.J. and T.J.G.)から一部資金提供を受けました。
Access restricted. Please log in or start a trial to view this content.
Name | Company | Catalog Number | Comments |
Collapse Collection | GalaxyP | Galaxy Version 5.1.1 | Combines a dataset list collection into a single file (in the order of the list) |
Concatenate datasets | GalaxyP | Galaxy Version 0.1.1 | Concatenate files tail-to-head |
Cut | GalaxyP | Galaxy Version 1.0.2 | Cut (select) specified columns from a file |
FASTA Merge Files and Filter Unique Sequences | GalaxyP | Galaxy Version 1.2.0 | Concatenate FASTA database files together |
FastaCLI | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Appends decoy sequences to FASTA files |
FASTA-to-Tablular | GalaxyP | Galaxy Version 1.1.0 | Convert FASTA-formatted sequences to TAB-delimited format |
Filter | GalaxyP | Galaxy Version 1.1.1 | Filter columns using simple expressions |
Filter Tabular | GalaxyP | Galaxy Version 3.3.0 | Filter a tabular file via line filters |
Galaxy Europe (EU) server | GalaxyP | https://usegalaxy.eu/ | |
Group | GalaxyP | Galaxy Version 2.1.4 | Group a file by a particular column and perform aggregate functions |
Identification Parameters | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Set identification parameters for SearchGUI/PeptideShaker |
Learning Pathway: Clinical metaproteomics workflows within Galaxy | GalaxyP | https://training.galaxyproject.org/training-material/learning-pathways/clinical-metaproteomics.html | |
MaxQuant | GalaxyP | Galaxy Version 2.0.3.0+galaxy0 (Discovery module); Galaxy Version 1.6.17.0+galaxy4 (Quantification module) | Quantitative proteomics software package for analysis of large mass spectrometric data files |
MetaNovo | GalaxyP | Galaxy Version 1.9.4+galaxy4 | Search MS/MS data against a FASTA database (of known proteins) to produce a targeted database (of matched proteins) for mass spectrometry analysis |
msconvert | GalaxyP | Galaxy Version 3.0.20287.2 | Convert and/or filter mass spectrometry files |
MSstatsTMT | GalaxyP | Galaxy Version 2.0.0+galaxy1 | R-based package for detection of differentially abundant proteins in shotgun mass spectrometry-based proteomic experiments using tandem mass tag (TMT) labeling |
PepQuery2 | GalaxyP | Galaxy Version 2.0.2+galaxy0 | Peptide-centric search engine for identification and/or validating known and novel peptides of interest |
PeptideShaker | GalaxyP | Galaxy Version 2.0.33+galaxy1 | Interpret results from SearchGUI for protein identification |
Protein Database Downloader | GalaxyP | Galaxy Version 0.3.4 | Download specified protein sequences as a FASTA file |
Query Tabular | GalaxyP | Galaxy Version 3.3.0 | Load tabular files intoa SQLite database |
Remove beginning | GalaxyP | Galaxy Version 1.0.0 | Remove the specified number of (header) lines from a file |
SearchGUI | GalaxyP | Galaxy Version 4.0.41+galaxy1 | Run search engines on MGF peak lists and prepare results for input to Peptide Shaker |
Select | GalaxyP | Galaxy Version 1.0.4 | Select lines that match an expression |
Unipept | GalaxyP | Galaxy Version 4.5.1 | Retrieve UniProt entries and taxonomic information for tryptic peptides |
UniProt | GalaxyP | Galaxy Version 2.3.0 | Download proteome as a XML (UniProtXML) or FASTA file from UniProtKB |
Access restricted. Please log in or start a trial to view this content.
このJoVE論文のテキスト又は図を再利用するための許可を申請します
許可を申請This article has been published
Video Coming Soon
Copyright © 2023 MyJoVE Corporation. All rights reserved