Method Article
OpenProt は、真核生物ゲノムのコードするモデルを適用自由にアクセス可能なデータベースです。ここで、質量データセットを問い合わせるときの OpenProt データベースを使用するためのプロトコルを紹介します。プロテオーム解析のためのデータベース OpenProt を使用して小説や以前検出できないタンパク質の探索できます。
ゲノムの注釈はプロテオーム風景の輪郭を描画として今日のプロテオーム研究の中心です。オープンの伝統的なモデル フレーム (ORF) 注釈を読んで任意の 2 つの条件を課す: 100 コドンとトラン スクリプトごと単一 ORF の最小の長さ。ただし、成長の多くの研究報告の容疑者以外のコーディングから蛋白質の表現領域、現在のゲノムの注釈の精度に挑戦します。蛋白質が発見されたこれらの小説エンコードか以内非コード Rna、5' 3' 非翻訳領域 (UTRs) の Mrna、重なり合ったり ORF の代わりに知られているコーディング シーケンス (CD)。OpenProt は、トラン スクリプトあたり複数の ORFs の注釈を許可する真核生物のゲノムにコードするモデルを適用する最初のデータベースです。OpenProt が自由にアクセスできる 10 種のタンパク質配列のカスタム ・ ダウンロードを提供しています。OpenProt プロテオーム実験用データベース新規タンパク質の探索を有効にして真核生物遺伝子のコードする性質を強調します。(全ての予測蛋白質) OpenProt データベースのサイズは、実質的な分析のアカウントに取られる必要があります。ただし、適切な偽の発見率 (FDR) 設定または制限された OpenProt データベースを使用して、ユーザーは、プロテオーム風景のより現実的なビューを得ることが。全体的にみて、OpenProt、プロテオームの発見を促進する自由に利用できるツールです。
過去十年にわたって質量分析法 (MS-) 基づくプロテオミクス真核細胞1,2,3,4、5のプロテオームを解読する黄金の技術となっています。このメソッドは、可能性6,7,8の範囲を示す参照タンパク質シーケンス データベースを生成する現在のゲノムの注釈に依存します。しかし、ゲノムの注釈は、ORF 注釈、100 コドンとトラン スクリプト9,10につき単一 ORF の最小の長さなど任意の条件を保持します。研究数の増加は、現在のアノテーション モデルに挑戦し、真核生物ゲノム8,11,12,13、unannotated 機能 ORFs の発見を報告 14。これらの新規タンパク質でエンコードされた容疑者は非コード Rna がある、非翻訳領域 (UTR) の Mrna、や代替フレームの標準的なコーディング シーケンス (Ccd) の重複を 5' または 3' で。これらの発見のほとんどは、偶然されているが、彼らは現在のゲノムの注釈の注意点、および真核生物遺伝子8のコードする性質を示しています。
ここでは、MS ベース プロテオミクス OpenProt データベースの使用を強調表示します。OpenProt は、真核生物のトランスクリプトームのコードするアノテーション モデルを保持するために最初のデータベースです。Www.openprot.org15で自由に利用可能です。これらの割合だろうと予言した Orf ランダムで非機能的な理由 OpenProt 累積信頼を高めるための実験的で機能的な証拠であります。実験的な証拠には、(MS) による蛋白質の表現および翻訳の証拠 (リボソームプロファイリング) の15が含まれます。(アプローチのように妄想) とタンパク質 orthology と機能ドメイン予測15機能的な証拠が含まれます。
OpenProt では、カスタムメイドのデータベースにのみよくサポートされている蛋白質を含んでいるから、複数のデータベースをダウンロードする可能性を提供しています。ここでは、OpenProt データベースを使用するためのパイプラインを紹介します、実験の目的を考慮した選択するデータベースへの洞察を提供します。ここで紹介するプロテオミクス解析パイプラインは、オープン アクセスと利用簡単だが、データベースは任意のワークフロー16,17,18を扱うことができます銀河フレームワークによってサポートされます。プロテオーム風景の包括的なビューを提供するさんによる OpenProt データベースで検出された新規タンパク質に関するさらなる情報の収集、プロテオミクスとバイオ マーカーの発見を促進 OpenProt ウェブサイトを使用する方法を紹介します現在の方法よりもより体系的な方法です。
このプロトコルは MS データセットを尋問するとき OpenProt データベース15の使用を強調表示します。それは設計を見直さない実験自体は、徹底的にされている見直し他20,21,22。完全にオープン ソースを維持するために、プロトコルは自由に利用できる (補足材料 S1-S4) です。読みやすくするため OpenProt とこここのプロトコルで使用されるすべての用語は、表 1に定義されます。
1. OpenProt データベースのダウンロード
注: RNA シーケンス データに基づくカスタム データベースなども取得でき、このプロトコルの 2 番目のセクションでの手順を詳しく説明。カスタム データベースが必要な場合は、次のセクションにスキップしてください。
2. カスタム OpenProt データベースのダウンロード
注: このセクションは、カスタム データベースを取得する方法を説明します。カスタム データベースが必要ない場合は、次のセクションに進んでください。
3. データベース処理
注: さあ今から銀河のプラットフォームを使用するが、プロテオームの他のソフトウェアに同じ原則を適用できます。
4. 質量分析ファイルの準備
注: 銀河インスタンスで使用可能のプロテオミクス ツールのほとんどは、mzML 形式を使用、ペプチド検索エンジン重心モードでデータを好みます。
5. ペプチドおよびタンパク質の同定/数量
注: パイプラインのこの部分は、汎用性と使いやすいフレームワーク18OpenMS 組曲ツールを使用します。
6. 品質管理
注: MS ベース プロテオミクス各ステップが再現可能な結果を生成するように最適化する必要がある複雑なプロセスの結果なので、品質管理は33のワークフローに必要な手続きです。
7. OpenProt データベースのマイニング
注: OpenProt (新規アイソ フォームの AltProts と II_ の IP_ から始まる加盟番号) によって予想される新規蛋白質の自信を持って同定が行われた後生物学的詳細は OpenProt ウェブサイト15から収集できます。
上記のワークフローは、プライド リポジトリ38,39で利用できる MS のデータセットに適用されました。元の研究法を開発 (iMixPro) の細胞培養 (SILAC) のアミノ酸の安定同位体標識、アフィニ ティー精製 MS からの偽陽性を排除するために (AP ・ MS) 実験38。簡単に言えば、AP MS 実験関心 (餌) とその対話者 (餌) の蛋白質をフェッチするためビーズ結合抗体を使用で構成されます。収集されたタンパク質は、消化され、MS のために準備します。サンプル調製法、機器の設定は、プライド リポジトリ (PXD004246)、元の研究では、説明します。そのような実験の課題は、特にビーズがなく、餌に結合する蛋白質からの偽陽性の豊富です。本当の捕食と偽陽性の間異なる同位体比を生成する SILAC を使用私たちここでは、: 3 コントロール サンプル (いいえベイト) 光媒体、1 試料光培地中で培養餌を表現して重い培地中で培養餌を表現する 1 つのサンプルの培養は、ビーズとさらに質量分析が処理されます。このようなデザインで、ビーズに結合する無指定蛋白質が重・軽の割合は 1:4;とき真餌が 1:138の比率があります。
OpenProt データベースを使用して AP MS データ再分析餌に (PTPN14、JIP3、IQGAP1) 3 つの内因性のタンパク質が含まれている、2 つは過剰蛋白質 (RAF1 および RNF41) を表現しました。プロテインの定量のためのギャラクシー ワークフローが使用された実験 SILAC を使用するので (補足資料 S3図 2)。ワークフローは、OpenProt データベース全体 (OpenProt_all) または制限された OpenProt データベース (OpenProt_2pep、以前は 2 つのユニークなペプチドの最小検出蛋白質のみを含む) を使用して実行されました。
タンパク質同定と定量異なる使用データベース間で良いと再現をしました。図 3に示すとおり、元のペーパーで識別されるほとんどの蛋白質は、OpenProt_2pep または OpenProt_all のいずれかのデータベース (詳細なリストは補足材料 S5で利用可能) を使用してかをまた識別されました。この結果は、ここで説明したパイプラインとデータベース、タンパク質同定と定量に匹敵する UniProtKB データベース40に基づく現在の手続を生成することが OpenProt を示します。ただし、OpenProt データベースの使用研究ここで示されているように小説や以前検出できないタンパク質の検出を許可するユニークな利点があります。
11、よくサポートされている蛋白質 (1 アイソ フォームおよび 10 AltProts)、まだ現在は注釈付きのデータベースは、自信を持ってペプチド、OpenProt_2pep データベース (すべて蛋白質系統、およびサポートの数を使用して、すべてのデータセットにまたがる識別されました。ペプチドは補足材料 S5で利用可能) です。このデータベースは使用できます伝統的な 1% の検索スペースの増加として FDR の適度なまま。これらの 11 のタンパク質は、不在だった、元の研究では認められなかったデータベースから。
自信を持ってペプチド、OpenProt_all データベースを使用してすべてのデータセットにまたがる 29 蛋白質 (16 アイソ フォームと 13 AltProts) が発見された (番号と共に、すべての蛋白質系統ペプチドをサポートするので利用できる補足材料 S6).図 3のように、識別された蛋白質の総数を減少したが、最も自信を持ってタンパク質同定は推奨される厳しい FDR に影響しなかった.比較的 OpenProt_2pep データベースに新規タンパク質の高い番号は自信を持って識別できます。これらの新規タンパク質のすべてが存在しない OpenProt_2pep データベースから。これは MS に基づくプロテオミクスの選択したデータベースの重要な役割を強調表示します。
1 つの新規タンパク質は、RAF1 蛋白質 (IP_637643) の相互作用として発見されました。OpenProt のウェブサイトを使用して、1 つは MS も今までリボソームプロファイリングでこのタンパク質が検出されていない見ることができる (OpenProt v1.3)。蛋白質は長い 46 アミノ酸をトリプシン消化時に 2 つのユニークなペプチドを与えることができるだけ。検出されたペプチド RAF1 AP ・ MS のデータセット (分数 18)図 4に示すように、質の良いスペクトルを持っていたし、1, 09 の重・軽の比率を表示します。タンパク質は、 NANOGNBの偽遺伝子であるNANOGNBP1遺伝子にエンコードされます。成績証明書 (ENST00000448444)、現在非コーディングとアノテーションが GTEx ポータル40によるといくつかの組織で検出されました。タンパク質には、DNA 結合 (遺伝子オントロジー行く: 0003677)41に関連付けられている予測機能ドメインが含まれています。
図 1: データベースのプロテオミクス解析グラフ選択します。特に、データベースの選択、MS データの解析は、研究目的に依存します。3 つの共通の目標は、青 (古典的なプロテオーム パイプライン)、緑 (網羅的プロテオーム検索)、オレンジ (プロテオミクス探索) で概説されます。それぞれの目的は、適切なデータベースとパイプラインに依存します。単一識別ツールを網羅的かつ古典的なプロテオミクス使うパイプライン。プロテオミクス探索パイプラインは、複数の識別エンジンを使用を強くお勧めします。推奨 Fdr は赤で示され、タンパク質データベースのサイズは、灰色の箱に示されています。この図の拡大版を表示するのにはここをクリックしてください。
図 2: 使用される銀河ワークフローのグラフィカルな表現です。38Eyckerman らデータの再分析で使用するプロテオーム解析ワークフローのステップ バイ ステップの表現。プロテインの定量、ペプチドの検索、入力ファイルは、オレンジ色のボックスで示されます。使用するツールに対応する青色のボックスと、灰色の箱は、生成された出力ファイルに対応します。別の検索エンジン (MS-GF + と X!タンデム)、必要な入力と出力を示す矢印と同様に異なる色 (それぞれ赤と紫) で示されます。緑のボックスは、タンパク質同定のリストを生成するツールを強調表示します。後工程に使用するものは最も近いとして示される複数の出力が生成されるときの矢印を。このワークフローは、自由に利用できる補助材料 S2です。X!タンデム既定パラメーター構成ファイルは補足材料 S4で利用可能です。この図の拡大版を表示するのにはここをクリックしてください。
図 3: 別のデータベースを使用して餌あたり入力/終端] 識別の比較。最も自信を持って OpenProt を用いたタンパク質同定のベン図データベース 1% (オレンジ、最小 2 ユニークなペプチド、OpenProt_2pep の証拠) の FDR、または全体の OpenProt 0.001% (ブルー、OpenProt_all) でデータベース FDR、または報告元の紙 (グレー) で38。各ダイアグラムは、述べられた餌に識別されたインターアクターに対応: RAF1、RNF41、PTPN14、JIP3、IQGAP1。この図の拡大版を表示するのにはここをクリックしてください。
図 4: の MS/MS スペクトル識別 MDNLWAK(13 6) IP_637643 蛋白質由来ペプチド。(0 ~ 100%) の強度は相対パスです。選択したピークは、y イオン注釈は、暗い赤 b イオンで、注釈と緑赤で示されます。TOPPview ソフトウェア34から抽出されます。前駆体エラー = 2.70 ppm、PEP スコア = 0.12。この図の拡大版を表示するのにはここをクリックしてください。
用語 | 定義 | 参照 |
代替 ORF (AltORF) | 現在はゲノムの注釈は、注釈が付けられたが、OpenProt の注釈の非正規の ORF。 | 15 |
参照 ORF (RefORF) | 正規の ORF がゲノムの注釈および OpenProt の注釈付き。 | 15 |
代わりとなる蛋白質 (AltProt) | RefProt と有意な類似性がないと、AltORF で符号化された蛋白質。加盟プレフィックス: IP_。 | 15 |
参照タンパク質 (RefProt) | 現在 UniProtKB、Ensembl NCBI RefSeq など蛋白質シーケンス データベースで、OpenProt を注釈する蛋白質。 | 15 |
新規アイソ フォーム | RefProt と有意な類似性と、AltORF で符号化された蛋白質。加盟プレフィックス: II_。 | 15 |
OpenProt_2pep データベース | すべての RefProts と OpenProt、既に 2 ユニークなペプチドの最小検出によって予測された蛋白質シーケンスが含まれています。 | 15 |
OpenProt_1pep データベース | すべての RefProts と OpenProt、既に 1 のユニークなペプチドの最小検出によって予測された蛋白質シーケンスが含まれています。 | 15 |
OpenProt_all データベース | すべての RefProts と OpenProt によって予測された蛋白質シーケンスが含まれています。 | 15 |
表 1: OpenProt とプロトコルの中で使用される用語の定義
補足材料 S1: データベースを処理するため銀河ワークフロー 。これは、CRAPome とおとりのシーケンスを入力データベースに (逆方向) を追加します。出力は Fasta ファイルです。をダウンロードするここをクリックしてください。
補足材料 S2: タンパク質の同定のためのギャラクシー ワークフロー 。これは 2 つの検索エンジンを使用して質量分析データ ファイルからの蛋白質を識別する (MS-GF + と X!タンデム)。各パラメーターを調整することができますに応じてワークフローを実行する前に。をダウンロードするここをクリックしてください。
補足材料 S3: 安定同位体標識 (SIL) を用いたタンパク質定量銀河ワークフロー 。これは識別し、2 つの検索エンジンを使用して質量分析データ ファイルから蛋白質を定量化 (MS-GF + と X!タンデム)。各パラメーターを調整することができますに応じてワークフローを実行する前に。をダウンロードするここをクリックしてください。
補足材料 S4: X!タンデム既定パラメーターの構成ファイル。この XML ファイル X を実行するために必要です!銀河プラットフォーム上の TandemAdapter ツールです。をダウンロードするここをクリックしてください。
補足材料 S5: iMixPro データセットからの蛋白質を定量化します。Eyckerman ら 201638からのデータ ファイルは、OpenProt データベースを使用して処理された、定量化された蛋白質は条件ごとに表示されます。餌は、PTPN14、JIP3、IQGAP1、RAF1、RNF41.緑色の遺伝子名は蛋白質のまた元の紙38で識別に対応します。オレンジ色で示す遺伝子名は、オリジナルの論文で報告された:npo によると既知のインターアクターに対応します。水色で示されている遺伝子名は、インターアクター (対応するタンパク質の加盟数はかっこで示される) として識別された蛋白質に対応します。薄いグレーで示される遺伝子名、斜体は可能性が高い汚染物質 (ケラチン蛋白質) に対応します。をダウンロードするここをクリックしてください。
補足材料 S6: iMixPro データセットから蛋白質を識別します。OpenProt データベースを使用した Eyckerman ら 201638からデータ ファイルが処理され、識別された蛋白質は、条件ごとに一覧表示されます。餌は、PTPN14、JIP3、IQGAP1、RAF1、RNF41.タンパク質受入番号のとおり、知られていた蛋白質の新規アイソ フォームの II_ と IP_ 蛋白質代替 ORF (AltProt) からの開始です。数ペプチドをサポート ブラケットに示されています。をダウンロードするここをクリックしてください。
質量分析計からのデータを分析する場合、タンパク質同定の品質は部分的使用データベース6,20の精度に依存します。現在のアプローチは、伝統的 UniProtKB データベースを使用して、まだこれら議事録につき単一 ORF のゲノムのアノテーション モデルと 100 (以前に実証例) を除いてコドン40の最小の長さをサポートします。複数の研究は、容疑者以外のコーディングから機能 ORFs の発見とそのようなデータベースの欠点を関連付ける領域8,11,12,13。今、OpenProt より網羅的なタンパク質の同定と複数のトランスクリプトーム注釈からタンパク質配列を描画します。OpenProt 取得 NCBI RefSeq (GRCh38.p7) と Ensembl (GRCh38.83) トランスクリプトームと UniProtKB の注釈 (UniProtKB SwissProt、2017-09-27)40,42,43。現在のコメントは現在ほとんど重複、OpenProt は従ってときに 1 つの注釈15に制限よりも潜在的なプロテオーム風景の包括的なビューを表示します。
さらに、OpenProt は、コードするモデルを適用とトラン スクリプトあたり複数の蛋白質のアノテーションをできます。統計と計算上の理由から、OpenProt はまだ 30 コドン15の最小の長さのしきい値を保持します。しかし、それによりタンパク質の同定の可能性の範囲を拡大、新規蛋白質シーケンスの何千もを予測します。このアプローチでは、OpenProt より体系的な方法でプロテオームの発見をサポートします。
タンパク質同定の品質は、使用されるパラメーターによっても影響を。MS ベースのプロテオミクス解析は通常 1% 蛋白質 FDR を保持します。ただし、全体の OpenProt データベースには、約 6 倍以上のエントリ (図 1) が含まれています。検索スペースの相当な増加を考慮、0.001% のより厳格な FDR を使用をお勧めします。このパラメーターは、ベンチマーク研究とランダムに選択されたスペクトル15のマニュアル評価を使用して最適化されていました。しかし、偽陽性がまだ可能性、徹底的な検査とサポートする新規蛋白質のための証拠の検証をお勧め。バック グラウンド データや誤データセット15間で異なる推奨される標準的な 2 つの異なる MS 実行から蛋白質の同定可能性があります。
同様に、実験的なデザインとパラメーターに合わせて嬉しいパイプラインここ提供、事例研究で使用に変更できます。感性とペプチド同定32の感度を増加すると、複数の検索エンジンを使用して私たちをお勧めします。さらに、(図 1) の実験の目的に最適に対応するデータベースを使用してお勧めします。厳しい FDR が付属してデータベース全体の OpenProt を使用して、真の身分が失われます。したがって、データベース全体は、小さい OpenProt データベース (上記事例で使用される OpenProt_2pep) などに使用する必要が古典的なプロテオミクス プロファイリングしながら新規タンパク質の探索が意図されるべき。
いくつかの研究は、他コドン44,45翻訳開始を強調したに対し、OpenProt は、現在 ATG コドンから始まるシーケンスを予測しています。新規タンパク質は、1 つまたはいくつかのユニークなペプチドによって識別される、本当の開始コドンは推定 ATG ではない可能性です。ユーザーは、OpenProt ウェブサイト上の翻訳の証拠を見ることができます。現在、OpenProt は、全体の予測された蛋白質シーケンス (100% 重複)15にかかわる場合にのみ翻訳イベントを報告します。したがって、翻訳の証拠の不在というタンパク質が翻訳されていないが、その疑惑の ATG 開始コドンありません可能性があります。
その現在の制限にもかかわらず OpenProt は、真核生物のゲノムのコーディング可能性の包括的なビューを提供しています。OpenProt データベースは、プロテオーム発見とプロテオームの機能と相互作用の理解を促進します。他の種の注釈が含まれます OpenProt データベースの今後の展開、非 ATG から証拠を翻訳開始コドンと新規タンパク質は、ゲノム、エキソーム配列研究するためのパイプラインの開発。
著者は利害の衝突を宣言しません。
ビビアン Delcourt は、彼の助けやディスカッション、この作品についてのアドバイスを感謝いたします。フォン ・ ド ・ ルシェルシュ ・ デュ ・ ケベック州健康 FRQS サポート センター ・ デ ・凝ったデュのメンバーである X.R. センター病院ユニヴェルシテール ・ デ ・ シャーブ ルック。この研究は、X.R. と機構の付与モップ 137056 機能・発現プロテオミクスと小説タンパク質発見カナダ研究の椅子によって支えられました。天秤 Québec そして計算カナダ シャーブ ルック大学からスーパー コンピューター mp2 の使用と彼らのサポートのためにチームに感謝いたします。Mp2 のスーパー コンピューターの操作によって、カナダの基盤の革新 (CFI)、ル ミニステール資金を供給される de l' 仏、デ ラ科学 et ・ デ ・ l'innovation ・ デュ ・ ケベック (MESI) とレ ・ フォン ・ デ ・凝ったケベック - 自然 et 技術 (周波数 NT)。いくつかのプロテオミクスの計算に使用された銀河サーバー共同研究センター 992 医療エピジェネティクス (DFG グラント SFB 992/1 2012) とドイツ連邦教育省と研究によって資金を供給される一部 (BMBF 付与 031 RBC A538A/A538C、031L0101B/031L0101C ド。NBI エピ、031 L 0106 デ。階段 (de。NBI))。
Name | Company | Catalog Number | Comments |
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |
このJoVE論文のテキスト又は図を再利用するための許可を申請します
許可を申請This article has been published
Video Coming Soon
Copyright © 2023 MyJoVE Corporation. All rights reserved