このコンテンツを視聴するには、JoVE 購読が必要です。 サインイン又は無料トライアルを申し込む。
Method Article
ここで説明するプロトコルは、ユーザーフレンドリーなUCSCゲノムブラウザ上のPhyloCSFを使用して、マイクロタンパク質コードの可能性について関心のあるゲノム領域を分析する方法に関する詳細な手順を提供します。さらに、同定されたマイクロタンパク質の配列特性をさらに調査し、推定機能に関する洞察を得るために、いくつかのツールとリソースが推奨されます。
次世代シーケンシング(NGS)は、ゲノミクスの分野を前進させ、多数の動物種およびモデル生物の全ゲノム配列を生み出しました。しかし、この豊富な配列情報にもかかわらず、包括的な遺伝子アノテーションの取り組みは、特に小さなタンパク質では困難であることが証明されています。特に、従来のタンパク質アノテーション法は、ゲノム全体にわたって指数関数的に多い数の偽の非コードsORFを除外するために、長さが300ヌクレオチド未満の短いオープンリーディングフレーム(sORF)によってコードされる推定タンパク質を意図的に除外するように設計されていた。その結果、マイクロタンパク質(<100アミノ酸長)と呼ばれる何百もの機能的な小さなタンパク質が、誤ってノンコーディングRNAとして分類されたり、完全に見過ごされてきました。
ここでは、無料で公開されているバイオインフォマティクスツールを活用して、進化的保存に基づいてゲノム領域にマイクロタンパク質コードの可能性を照会するための詳細なプロトコルを提供します。具体的には、ユーザーフレンドリーなカリフォルニア大学サンタクルーズ校(UCSC)ゲノムブラウザの系統コドン置換頻度(PhyloCSF)を使用して配列保存とコーディングの可能性を調べる方法について、段階的な手順を提供します。さらに、同定されたマイクロタンパク質配列の複数種のアラインメントを効率的に生成してアミノ酸配列の保存を視覚化する手順を詳述し、予測されたドメイン構造を含むマイクロタンパク質特性を分析するためのリソースを推奨します。これらの強力なツールは、非正規ゲノム領域における推定マイクロタンパク質コード配列の同定に役立てたり、目的の非コード転写産物中に翻訳可能性を有する保存されたコード配列の存在を排除するために使用できます。
ゲノム中のコード要素の完全なセットの同定は、ヒトゲノムプロジェクトの開始以来、主要な目標であり、生物学的システムおよび遺伝ベースの疾患の病因の理解に向けた中心的な目的であり続けている1,2,3,4。NGS技術の進歩により、脊椎動物、無脊椎動物、酵母、植物など、広範な数の生物の全ゲノム配列が生産されました5。さらに、ハイスループット転写シーケンシング法は、細胞トランスクリプトームの複雑さをさらに明らかにし、タンパク質コード機能と非コード機能の両方を有する何千もの新規RNA分子を同定した6,7。この膨大な量の配列情報を解読することは進行中のプロセスであり、包括的な遺伝子アノテーションの取り組みには課題が残っています8。
リボソームプロファイリング9,10およびポリリボソームシーケンシング11を含む翻訳プロファイリング方法の最近の開発は、何百もの非正規翻訳事象がゲノム全体の現在注釈のないsORFにマッピングされ、マイクロタンパク質またはマイクロペプチド12,13,14,15,16と呼ばれる小さなタンパク質を生成する可能性を示す証拠を提供し、マイクロタンパク質は、そのサイズが小さく(<100アミノ酸)、古典的タンパク質コード遺伝子特性の欠如のために、以前は標準的な遺伝子注釈法によって見過ごされていた汎用性の高いタンパク質の新規クラスとして浮上している8,12,18,19,20。マイクロタンパク質は、酵母21、22、ハエ17、23、24、および哺乳類25、26、27、28を含む事実上すべての生物において記載されており、発生、代謝、およびストレスシグナル伝達を含む多様なプロセスにおいて重要な役割を果たすことが示されている19、20、29、 30,31,32,33,34。したがって、この長い間見過ごされてきた機能的な小さなタンパク質のクラスの追加のメンバーのゲノムを採掘し続けることが不可欠です。
マイクロタンパク質の生物学的重要性が広く認識されているにもかかわらず、このクラスの遺伝子はゲノム注釈において非常に過小評価されており、それらの正確な同定は、この分野の進歩を妨げている継続的な課題であり続けている。マイクロタンパク質コード配列の同定に関連する困難を克服するために、様々な計算ツールおよび実験方法が最近開発されている(いくつかの包括的なレビュー8,35,36,37で広く議論されている)。最近の多くのマイクロタンパク質同定研究38,39,40,41,42,43,44,45,46,47は、PhyloCSF 48,49と呼ばれるそのようなアルゴリズムの使用に大きく依存しているゲノムの保存されたタンパク質コード領域と非コード領域を区別するために利用できる強力な比較ゲノミクスアプローチです。
PhyloCSFは、多種ヌクレオチドアラインメントと系統発生モデルを使用してコドン置換頻度(CSF)を比較し、タンパク質コード遺伝子の進化的シグネチャを検出します。この経験的モデルベースのアプローチは、タンパク質が主にヌクレオチド配列ではなくアミノ酸レベルで保存されるという前提に依存している。したがって、同じアミノ酸をコードする同義のコドン置換、または保存された特性(すなわち、電荷、疎水性、極性)を有するアミノ酸へのコドン置換は正にスコア付けされ、ミスセンスおよびナンセンス置換を含む非同義置換は負にスコア付けされる。PhyloCSFは全ゲノムデータに基づいて訓練されており、マイクロタンパク質または標準タンパク質コード遺伝子の個々のエクソンを分析する際に必要な、コード配列(CDS)の短い部分を全配列から分離してスコアリングするのに有効であることが証明されています48,49。
特に、カリフォルニア大学サンタクルーズ校(UCSC)ゲノムブラウザ49,50,51にPhyloCSFトラックハブが最近統合され、あらゆるバックグラウンドの研究者がユーザーフレンドリーなインターフェースに簡単にアクセスして、関心のあるゲノム領域にタンパク質コーディングの可能性を問い合わせることができます。以下に概説するプロトコルは、UCSCゲノムブラウザにPhyloCSFトラックハブをロードし、その後、関心のあるゲノム領域を問い合わせて、信頼性の高いタンパク質コード領域(またはその欠如)をプローブする方法に関する詳細な指示を提供します。さらに、正のPhyloCSFスコアが観察される場合には、マイクロタンパク質コード電位をさらに分析し、同定されたアミノ酸配列の複数の種アラインメントを効率的に生成して、種間配列保存を例示するためのステップが描かれる。最後に、予測されたドメイン構造や推定マイクロタンパク質機能への洞察など、同定されたマイクロタンパク質特性を調査するために、いくつかの追加の公的に利用可能なリソースとツールが議論で紹介されています。
以下に概説するプロトコルは、UCSCゲノムブラウザ(Mudgeらによって生成された)上のPhyloCSFブラウザトラックをロードしてナビゲートする手順を詳述している。UCSCゲノムブラウザに関する一般的な質問については、広範なゲノムブラウザユーザーズガイドがここにあります: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.
1. PhyloCSF トラックハブの UCSC ゲノムブラウザへのロード
2. 遺伝子識別子を使用した目的の遺伝子へのナビゲート
3. 配列情報を用いたゲノム関心領域への移動
4. PhyloCSFトラックデータを用いた保存されたsORFの同定
5. 他のゲノム中の相同領域を見る
6. 目的のマイクロタンパク質の複数種配列アラインメントの生成
ここでは、検証済みのマイクロタンパク質ミトレグリン(Mtln)を例として使用して、保存されたsORFがUCSCゲノムブラウザで簡単に視覚化および分析できる正のPhyloCSFスコアを生成する方法を実証します。ミトレグリンは、以前は非コードRNAとして注釈が付けられていた(旧ヒト遺伝子ID LINC00116およびマウス遺伝子ID 1500011K16Rik)。 比較ゲノミクスおよび配列保存解析法は、その最初の?...
ここで紹介するプロトコルは、ユーザーフレンドリーなUCSCゲノムブラウザ48,49,50,51上のPhyloCSFを使用して、マイクロタンパク質コードの可能性について関心のあるゲノム領域を問い合わせる方法に関する詳細な指示を提供します。上記で詳述したように、PhyloCSFは、系統発生モデルとコドン置換頻...
著者らは、競合する金銭的利益はないと宣言している。
この研究は、国立衛生研究所(HL-141630およびHL-160569)とシンシナティ小児研究財団(受託者賞)からの助成金によって支援されました。
Name | Company | Catalog Number | Comments |
Website | Website Address | Requirements | |
Clustal Omega Multiple Sequence Alignment Tool | https://www.ebi.ac.uk/Tools/msa/clustalo/ | Web browser | Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins) |
COXPRESSdb | https://coxpresdb.jp | Web browser | Provides co-regulated gene relationships to estimate gene functions |
EMBL-EBI Bioinformatics Tools FAQs | https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ | Web browser | Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments |
European Bioinformatics Institute (EMBL-EBI), Tools and Data Resources | https://www.ebi.ac.uk/services/all | Web browser | Comprehensive list of freely available websites, tools and data resources |
Expasy - Swiss Bioinformatics Resource Portal | https://www.expasy.org | Web browser | Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB) |
National Center for Biotechnology Information (NCBI) Conserved Domain Search | https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi | Web browser | Search tool to identify conserved domains within protein or coding nucleotide sequences |
Pfam 35 | http://pfam.xfam.org | Web browser | Protein family (Pfam) database, provides alignments and classification of protein families and domains |
PhyloCSF Track Hub Description | https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q edaCd4ir8aZ65ryaD&db=mm10 &c=chr2&g=hub_109801_ PhyloCSF_smooth | Web browser | Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub |
SignalP 6.0 | https://services.healthtech.dtu.dk/service.php?SignalP-6.0 | Web browser | Predicts the presence of signal peptides and the location of their cleavage sites |
TMHMM - 2.0 | https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 | Web browser | Prediction of transmembrane helices in proteins |
UCSC Genome Browser BLAT Search | https://genome.ucsc.edu/cgi-bin/hgBlat | Web browser | Tool used to find genomic regions using DNA or protein sequence information |
UCSC Genome Browser Gateway | https://genome.ucsc.edu/cgi-bin/hgGateway | Web browser | Direct link to the UCSC Genome Browser Gateway |
UCSC Genome Browser Home | https://genome.ucsc.edu/ | Web browser | Home website for the UCSC Genome Browser |
UCSC Genome Browser Track Data Hubs | https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs | Web browser | Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks |
UCSC Genome Browser User Guide | https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html | Web browser | Comprehensive user guide detailing how to navigate the UCSC Genome Browser |
WoLF PSORT | https://wolfpsort.hgc.jp | Web browser | Protein subcellular localization prediction tool |
このJoVE論文のテキスト又は図を再利用するための許可を申請します
許可を申請This article has been published
Video Coming Soon
Copyright © 2023 MyJoVE Corporation. All rights reserved