私たちの研究は、微生物タンパク質の検出と定量化、および臨床疾患におけるそれらの役割を理解することに重点を置いています。この研究分野は、臨床メタプロテオミクスと呼ばれています。この研究では、細菌の活動が疾患の進行にどのように影響するかを研究者が理解できるようにするバイオインフォマティクスワークフローを開発しました。
臨床サンプルのメタプロテオミクス解析には、質量分析データから高感度で正確な微生物ペプチドおよびタンパク質を同定するための非常に大規模なタンパク質配列データベースの取り扱いや、定量されたペプチドおよびタンパク質の分類学的および機能的アノテーションを実行して結果の生物学的解釈を可能にすることなど、多くの課題があります。このワークフローには、データベース削減ワークフローを使用したデータベース削減、複数の検索アルゴリズムを使用した微生物ペプチドの検索機能、質量分析データで検出された微生物ペプチドの検証機能、宿主タンパク質とともに微生物タンパク質を定量する機能、統計的および視覚的分析を使用したデータの生物学的解釈など、複数の利点があります。私たちは、臨床メタプロテオミクスワークフローを利用して、嚢胞性線維症疾患の進行研究のための微生物ペプチドパネルを同定し、COVID-19パンデミックの波における重複感染状況を研究しています。
これらの研究は、査読付き学術雑誌に掲載されています。現在、このワークフローを使用して、卵巣がんの予測標的ペプチドパネルを開発するための進行中の研究を行っています。Galaxy Pチームはマルチオミクス研究に携わっており、プロテオゲノミクスおよびメタプロテオミクス解析のためのいくつかの高度なワークフローを開発しています。
また、現在、免疫ペプチドミクスのワークフローの開発にも取り組んでおり、これにより、研究者は免疫系に提示されるペプチド(がんの進行中にネオアンチゲンと呼ばれるものもあれば、微生物ペプチドである可能性のある他の疾患も検出し、特徴づけることができる)を検出・特徴づけることができます。まず、関心のある病気または状態に関連する種のリストを入手します。Species というタイトルの種リスト ファイルを使用します。
tabular"をUniProtの入力として使用します。プロテオームをFASTA形式でダウンロードし、タンパク質配列データベースを作成します。タンパク質データベースダウンローダーを実行すると、レビュー済みのエントリのみを含むヒトSwiss-Protデータベースと、不定タンパク質の共通リポジトリ(cRAP)を含む汚染タンパク質データベースという2つのタンパク質配列データベースを追加で生成できます。
3つのタンパク質データベースをFASTAマージファイルの入力として使用し、一意の配列をフィルタリングして重複を除外します。大規模なデータベース生成および質量分析データセットをインプットとして使用して、MetaNovo を実行して還元タンパク質配列データベースを生成し、次に FASTA マージファイルを実行し、MetaNovo 生成データベース、ヒト Swiss-Prot および cRAP データベースで一意の配列をフィルタリングして、ペプチド検出用の微生物、ヒト、および汚染物質タンパク質配列を含む還元ターゲットデータベースを作成します。「Search GUI」を実行して、ペプチドスペクトルマッチ(PSM)を含むアーカイブファイルを生成します。
Search GUIの「アーカイブファイルをPeptide-Shakerの入力として」使用して、PSM、ペプチド、およびタンパク質のレポートを生成します。MaxQuant を実行して、タンパク質グループとペプチドファイルを作成します。テキスト操作ツールを使用して、Search GUI、Peptide-Shaker、およびMaxQuantから取得した出力を整理します。
2 つのペプチドリストを SGPS-MQ-Peptides.tabular というラベルの付いた 1 つのデータセットに連結します。連結されたペプチドリストをグループ化して、重複するペプチド配列を排除し、固有の微生物ペプチドの最終リストを取得します。PepQuery2 の検証には、異なる微生物ペプチドのリスト、MS スペクトルデータセット、アイソフォームを含むヒト UniProt リファレンスデータベース、およびコンタミナントタンパク質配列データベースを入力します。
Search GUI、Peptide-Shaker、およびMaxQuantからのペプチドレポートに対してCutを実行し、ペプチド配列と関連するタンパク質エントリーを抽出します。両方のプログラムからのペプチド配列とタンパク質エントリを連結して、新しい結合ペプチドタンパク質データセットを作成し、結合ペプチドタンパク質データセットと検証済みペプチドに対してQuery Tabularを実行して、検証された各ペプチドを関連するタンパク質エントリに割り当てます。一意の検証済みペプチドとそれらに関連するUniProt IDを保持するようにグループ化します。
次に、Query Tabularを実行してUniProtのIDを抽出し、検証済みのPeptides.tabularからUniprot-IDとラベル付けされたリストを生成します。UniProt IDをUniProtにアップロードして、関連するタンパク質配列を取得し、新しいUniProt FASTAファイルとして保存します。新しく生成されたUniProt FASTA、アイソフォームを含むヒトUniProtデータベース、およびcRAP汚染物質データベースでFASTAマージファイルを実行し、一意の配列をフィルタリングして、ペプチド定量のための検証済みデータベースを作成します。
検証済みのタンパク質配列データベースとMSデータセットをMaxQuantの入力として使用します。MaxQuant"peptidesファイルから微生物ペプチドのみを選択し、Cut"を実行して選択ファイルから微生物ペプチド配列のみを抽出します。Cutファイルをグループ化して、定量化された微生物ペプチドのリストをまとめます。
定量化された微生物ペプチドのリストファイルをUnipeptの入力として使用し、分類学的および機能的なアノテーションを行います。Unipeptの出力、特に微生物分類学ツリーと微生物酵素委員会タンパク質ツリーを抽出します。微生物分類学とECタンパク質ツリーを表示するには、データセットを選択し、オプションを開きます。
[Visualize] をクリックし、続いて [Unipept Taxonomy Viewer] をクリックします。表形式の分類学的注釈と機能注釈を表示するには、Unipept_peptinfo という名前の表形式データセットの目のアイコンをクリックします。スクロールして、各ペプチドのそれぞれの行とそれに対応する情報列を確認します。
MSstatsTMTを使用して統計解析を行う前に、MaxQuantタンパク質グループファイルでSelectを実行し、微生物タンパク質とヒトタンパク質のデータセットを別々に作成してください。これらのタンパク質には、その起源を示す分類タグが含まれています。タグcon_で標識された汚染物質タンパク質は除外します。
_9laco"などのタグが付いた微生物タンパク質と、Microbial_Proteins"表形式とHuman_Proteins"表形式にそれぞれタグ_human"が付いたヒトタンパク質のみを保持します。最後に、MSstatsTMTを使用して、MaxQuant証拠ファイルと選択した微生物またはヒトタンパク質を使用して統計解析を行います。目のアイコンをクリックすると、結果のプロットが表示されます。
合計2,595,745のタンパク質配列が包括的なデータベースにまとめられ、その後、効果的なペプチド同定のために21,289のタンパク質配列を含むより標的を絞ったデータベースに縮小されました。Search GUI、Peptide-Shaker、MaxQuantを用いて、196種類の微生物ペプチドを同定しました。PepQuery2は、73のタンパク質配列に結合した134の微生物ペプチドを確認し、定量のための検証済みデータベースを形成しました。
MaxQuant」分析により、3, 203のペプチドを含むペプチドファイルが提供され、155の定量化された微生物ペプチドが含まれていました。Unipeptの分析により、155の定量化された微生物ペプチドの中で、ラクトバチルスが最も豊富な属であり、クラス2トランスフェラーゼが最も一般的な酵素カテゴリーであることが明らかになりました。MSstatsTMT"解析の結果、発現差のあるタンパク質を示す火山プロットと比較プロットが作成され、卵巣がんの症例と良性の症例では3つの乳酸菌タンパク質がダウンレギュレーションされていることが示されました。