JoVE Logo

サインイン

このコンテンツを視聴するには、JoVE 購読が必要です。 サインイン又は無料トライアルを申し込む。

この記事について

  • 要約
  • 要約
  • 概要
  • プロトコル
  • 結果
  • ディスカッション
  • 開示事項
  • 謝辞
  • 資料
  • 参考文献
  • 転載および許可

要約

ここで説明するプロトコルは、ユーザーフレンドリーなUCSCゲノムブラウザ上のPhyloCSFを使用して、マイクロタンパク質コードの可能性について関心のあるゲノム領域を分析する方法に関する詳細な手順を提供します。さらに、同定されたマイクロタンパク質の配列特性をさらに調査し、推定機能に関する洞察を得るために、いくつかのツールとリソースが推奨されます。

要約

次世代シーケンシング(NGS)は、ゲノミクスの分野を前進させ、多数の動物種およびモデル生物の全ゲノム配列を生み出しました。しかし、この豊富な配列情報にもかかわらず、包括的な遺伝子アノテーションの取り組みは、特に小さなタンパク質では困難であることが証明されています。特に、従来のタンパク質アノテーション法は、ゲノム全体にわたって指数関数的に多い数の偽の非コードsORFを除外するために、長さが300ヌクレオチド未満の短いオープンリーディングフレーム(sORF)によってコードされる推定タンパク質を意図的に除外するように設計されていた。その結果、マイクロタンパク質(<100アミノ酸長)と呼ばれる何百もの機能的な小さなタンパク質が、誤ってノンコーディングRNAとして分類されたり、完全に見過ごされてきました。

ここでは、無料で公開されているバイオインフォマティクスツールを活用して、進化的保存に基づいてゲノム領域にマイクロタンパク質コードの可能性を照会するための詳細なプロトコルを提供します。具体的には、ユーザーフレンドリーなカリフォルニア大学サンタクルーズ校(UCSC)ゲノムブラウザの系統コドン置換頻度(PhyloCSF)を使用して配列保存とコーディングの可能性を調べる方法について、段階的な手順を提供します。さらに、同定されたマイクロタンパク質配列の複数種のアラインメントを効率的に生成してアミノ酸配列の保存を視覚化する手順を詳述し、予測されたドメイン構造を含むマイクロタンパク質特性を分析するためのリソースを推奨します。これらの強力なツールは、非正規ゲノム領域における推定マイクロタンパク質コード配列の同定に役立てたり、目的の非コード転写産物中に翻訳可能性を有する保存されたコード配列の存在を排除するために使用できます。

概要

ゲノム中のコード要素の完全なセットの同定は、ヒトゲノムプロジェクトの開始以来、主要な目標であり、生物学的システムおよび遺伝ベースの疾患の病因の理解に向けた中心的な目的であり続けている1,2,3,4。NGS技術の進歩により、脊椎動物、無脊椎動物、酵母、植物など、広範な数の生物の全ゲノム配列が生産されました5。さらに、ハイスループット転写シーケンシング法は、細胞トランスクリプトームの複雑さをさらに明らかにし、タンパク質コード機能と非コード機能の両方を有する何千もの新規RNA分子を同定した6,7。この膨大な量の配列情報を解読することは進行中のプロセスであり、包括的な遺伝子アノテーションの取り組みには課題が残っています8

リボソームプロファイリング9,10およびポリリボソームシーケンシング11を含む翻訳プロファイリング方法の最近の開発は、何百もの非正規翻訳事象がゲノム全体の現在注釈のないsORFにマッピングされ、マイクロタンパク質またはマイクロペプチド12,13,14,15,16と呼ばれる小さなタンパク質を生成する可能性を示す証拠を提供しマイクロタンパク質は、そのサイズが小さく(<100アミノ酸)、古典的タンパク質コード遺伝子特性の欠如のために、以前は標準的な遺伝子注釈法によって見過ごされていた汎用性の高いタンパク質の新規クラスとして浮上している8,12,18,19,20。マイクロタンパク質は、酵母21、22、ハエ17、23、24、および哺乳類25、262728を含む事実上すべての生物において記載されており、発生、代謝、およびストレスシグナル伝達を含む多様なプロセスにおいて重要な役割を果たすことが示されている19、2029 30,31,32,33,34。したがって、この長い間見過ごされてきた機能的な小さなタンパク質のクラスの追加のメンバーのゲノムを採掘し続けることが不可欠です。

マイクロタンパク質の生物学的重要性が広く認識されているにもかかわらず、このクラスの遺伝子はゲノム注釈において非常に過小評価されており、それらの正確な同定は、この分野の進歩を妨げている継続的な課題であり続けている。マイクロタンパク質コード配列の同定に関連する困難を克服するために、様々な計算ツールおよび実験方法が最近開発されている(いくつかの包括的なレビュー8,35,36,37で広く議論されている)。最近の多くのマイクロタンパク質同定研究38,39,40,41,42,43,44,45,46,47は、PhyloCSF 48,49と呼ばれるそのようなアルゴリズムの使用に大きく依存しているゲノムの保存されたタンパク質コード領域と非コード領域を区別するために利用できる強力な比較ゲノミクスアプローチです。

PhyloCSFは、多種ヌクレオチドアラインメントと系統発生モデルを使用してコドン置換頻度(CSF)を比較し、タンパク質コード遺伝子の進化的シグネチャを検出します。この経験的モデルベースのアプローチは、タンパク質が主にヌクレオチド配列ではなくアミノ酸レベルで保存されるという前提に依存している。したがって、同じアミノ酸をコードする同義のコドン置換、または保存された特性(すなわち、電荷、疎水性、極性)を有するアミノ酸へのコドン置換は正にスコア付けされ、ミスセンスおよびナンセンス置換を含む非同義置換は負にスコア付けされる。PhyloCSFは全ゲノムデータに基づいて訓練されており、マイクロタンパク質または標準タンパク質コード遺伝子の個々のエクソンを分析する際に必要な、コード配列(CDS)の短い部分を全配列から分離してスコアリングするのに有効であることが証明されています48,49

特に、カリフォルニア大学サンタクルーズ校(UCSC)ゲノムブラウザ49,50,51にPhyloCSFトラックハブが最近統合され、あらゆるバックグラウンドの研究者がユーザーフレンドリーなインターフェースに簡単にアクセスして、関心のあるゲノム領域にタンパク質コーディングの可能性を問い合わせることができます。以下に概説するプロトコルは、UCSCゲノムブラウザにPhyloCSFトラックハブをロードし、その後、関心のあるゲノム領域を問い合わせて、信頼性の高いタンパク質コード領域(またはその欠如)をプローブする方法に関する詳細な指示を提供します。さらに、正のPhyloCSFスコアが観察される場合には、マイクロタンパク質コード電位をさらに分析し、同定されたアミノ酸配列の複数の種アラインメントを効率的に生成して、種間配列保存を例示するためのステップが描かれる。最後に、予測されたドメイン構造や推定マイクロタンパク質機能への洞察など、同定されたマイクロタンパク質特性を調査するために、いくつかの追加の公的に利用可能なリソースとツールが議論で紹介されています。

プロトコル

以下に概説するプロトコルは、UCSCゲノムブラウザ(Mudgeらによって生成された)上のPhyloCSFブラウザトラックをロードしてナビゲートする手順を詳述している。UCSCゲノムブラウザに関する一般的な質問については、広範なゲノムブラウザユーザーズガイドがここにあります: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.

1. PhyloCSF トラックハブの UCSC ゲノムブラウザへのロード

  1. インターネットブラウザウィンドウを開き、UCSCゲノムブラウザ(https://genome.ucsc.edu/)に移動します。
  2. [ ツール ] 見出しで、[ ハブの追跡] オプションを選択します。
    メモ: [ハブの追跡 ] オプションは、[ マイ データ ] タブの下にもあります。
  3. [パブリック ハブ] タブで、[検索用語] ボックスに「PhyloCSF」と入力します。[パブリックハブの検索]ボタンをクリックします。
  4. ハブ名PhyloCSF(説明:PhyloCSFによって測定される進化的タンパク質コード電位)の 接続 ボタンをクリックして、 PhyloCSF に接続します。
    メモ: このトラックハブは、人間 (hg19 および hg38) およびマウス (mm10 および mm39) を含む多数のアセンブリにロードされます。
  5. 接続をクリックした後、UCSCゲノムブラウザゲートウェイページ(https://genome.ucsc.edu/cgi-bin/hgGateway)にリダイレクトされるの待ちます。

2. 遺伝子識別子を使用した目的の遺伝子へのナビゲート

  1. 照会する種とゲノムアセンブリを選択します。別の種(マウスなど)を照会するには、適切なアイコンをクリックして [種の参照/選択] 見出しの下にある目的の種を選択するか、種、 共通名、またはアセンブリIDを入力してください
    メモ: アセンブリは、「 位置を検索」(Find Position ) 見出しのすぐ下にリストされています。通常、デフォルトはヒューマンアセンブリです(例:2009年12月[GRCh37/hg19])。
  2. ドロップダウンメニューを使用して 「位置を検索」(Find Position) 見出しで検索するアセンブリを選択します。
  3. 位置/検索用語ボックスに位置、遺伝子記号、または 検索用語 を入力し、「 移動 」をクリックしてゲノムブラウザ上の目的の遺伝子に移動します。
  4. 検索の結果、複数の一致が発生した場合は、関心のある位置の選択が必要なページにリダイレクトされるのを待ちます。 目的の適切な遺伝子をクリックします。

3. 配列情報を用いたゲノム関心領域への移動

  1. UCSCゲノムブラウザ(https://genome.ucsc.edu/)に移動し、当社のツール見出しの下にあるBLASTライクアライメントツール(BLAT)を選択して、特定のDNAまたはタンパク質配列を照会します。または、[ツール] タブの上にカーソルを置き、[Blat] オプションを選択するか、次のリンクをたどります: https://genome.ucsc.edu/cgi-bin/hgBlat
  2. ドロップダウンメニューを使用して、目的の種(ゲノム)と アセンブリ を選択します。
  3. ドロップダウンメニューを使用して クエリタイプ を定義します。
  4. 目的のシーケンスを BLAT 検索ゲノム テキスト ボックスに貼り付け、[ 送信] をクリックします。
  5. 「アクション」見出しの下にあるブラウザー・リンクをクリックして、関心のあるゲノム領域に移動します。

4. PhyloCSFトラックデータを用いた保存されたsORFの同定

  1. 関心のあるゲノム領域を視覚的にスキャンして、PhyloCSF領域を肯定的にスコアリングします(図1)。
    注:UCSCゲノムブラウザでPhyloCSFスコアを視覚的に解釈する方法の詳細については、以下の代表的な結果のセクションを参照してください。
  2. ズーム機能を使用して、関心領域を拡大し、配列特性を調べ、開始/停止コドンを検索します。手動でズームインするには、Shift キーを押しながらマウスボタンをクリックしたまま、関心領域に沿ってドラッグします。または、ページ上部のズームインボタンとズームアウトボタンを使用してナビゲートします(1.5倍、3倍、10倍、または基本ズームオプションを使用できます)。
    注:ズーム イン/ズームアウト ボタンを使用する前に、関心領域が画面の中央になるように遺伝子の位置を変更する必要があります。この操作を実行するには、画像をクリックして左または右にドラッグし、必要に応じてゲノム領域を水平に移動するか、ページ上部の 移動 矢印を使用します。
  3. ヌクレオチド(塩基)配列が見えるまでズームインします。
    注:ヌクレオチド配列は、+1平滑化フィロCSFスコアのすぐ上に表示されます。
  4. 正にスコアリングされたPhyloCSF領域の最初と最後付近の塩基配列を目視でスキャンし、推定開始(ATG)および停止(TGA/TAA/TAG)コドンを同定する。
    注:目的の遺伝子がDNAのマイナス鎖上にある場合、開始コドンと停止コドンは逆補体になります(すなわち、開始コドンのCATと終止コドンのTCA/TTA/CTA)。

5. 他のゲノム中の相同領域を見る

  1. ページ上部の [表示 ]見出しの上にマウスを置き、[ 他のゲノム(変換)] オプションをクリックします。
  2. [新しいゲノム] 見出しの下にあるドロップダウン メニューを使用して、目的の ゲノム を定義します。
  3. 「新規アセンブリ」(New Assembly) 見出しの下のドロップダウンメニューを使用して目的のゲノム アセンブリ を選択し、「 送信」(Submit) ボタンをクリックします。
  4. ブラウザが類似性を持つ新しいアセンブリ内の領域のリストを返したら、 染色体位置 リンクをクリックして、関心のある相同領域に移動します。
    注:全塩基(ヌクレオチド)の割合と領域によってカバーされるスパンは、リストされている領域ごとに定義されます。一致する塩基の割合が高いほど、関心領域の保存期間は高くなります。
  5. セクション 4 で説明したのと同じナビゲーション戦略に従って、シーケンスを分析します。

6. 目的のマイクロタンパク質の複数種配列アラインメントの生成

  1. UCSCゲノムブラウザのGENCODEトラック(図1Aに青いボックスで示されている)で目的の遺伝子をクリックして、遺伝子説明ページに移動します。
  2. 「シーケンス」および「ツールおよびデータベースへのリンク」見出しの下で、「他の種 FASTA」と表示される表のリンクをクリックします。
  3. 関心のある種に関連付けられているボックスをクリックして選択します。「 送信」をクリックします。ページの下部に表示されるシーケンスをコピーして、FASTA 形式でワープロ ドキュメントに貼り付けます。
  4. 2番目のブラウザウィンドウを開き、欧州バイオインフォマティクス研究所(EMBL-EBI)のウェブサイト53,54:https://www.ebi.ac.uk/Tools/msa/clustalo/ にあるClustal Omega Multiple Sequence Alignment tool52に移動します。
  5. クリップボードに残っているシーケンスファイルを、サポートされている任意のフォーマットでシーケンスを読み取る STEP 1 のボックスに貼り付けます。ページの一番下までスクロールし、[送信]をクリックします。各アミノ酸の保存の程度を示す記号(記号は表1に定義されている)について、整列された結果(黒いフォント)の下を見てください。
    メモ: アライメントの生成には数分かかる場合があります。
  6. アミノ酸の特性を色で表示するには、シーケンスのすぐ上にある [色の表示] リンクをクリックして、その特性( 表2で定義)に従ってアミノ酸に色を付けます。
  7. シーケンスの配置をコピーしてワープロまたはスライドショープログラムに貼り付けて、図またはイラストファイル(図 2など)を生成します。
    メモ: 整列には等幅フォントを使用します (Courier)。
  8. Clustal Omega の結果ページから他の出力を表示するには、適切なタブ (ガイドツリーまたは系統樹) をクリックします。
  9. 「結果ビューアラー」タブをクリックすると、複数の配列アライメント編集、視覚化、および分析55を専門とする無料プログラムであるJalviewを使用して配列情報を表示したり、MViewおよびSimple Phylogeny56への直接リンクにアクセスしたりできます。

結果

ここでは、検証済みのマイクロタンパク質ミトレグリン(Mtln)を例として使用して、保存されたsORFがUCSCゲノムブラウザで簡単に視覚化および分析できる正のPhyloCSFスコアを生成する方法を実証します。ミトレグリンは、以前は非コードRNAとして注釈が付けられていた(旧ヒト遺伝子ID LINC00116およびマウス遺伝子ID 1500011K16Rik)。 比較ゲノミクスおよび配列保存解析法は、その最初の?...

ディスカッション

ここで紹介するプロトコルは、ユーザーフレンドリーなUCSCゲノムブラウザ48,49,50,51上のPhyloCSFを使用して、マイクロタンパク質コードの可能性について関心のあるゲノム領域を問い合わせる方法に関する詳細な指示を提供します。上記で詳述したように、PhyloCSFは、系統発生モデルとコドン置換頻...

開示事項

著者らは、競合する金銭的利益はないと宣言している。

謝辞

この研究は、国立衛生研究所(HL-141630およびHL-160569)とシンシナティ小児研究財団(受託者賞)からの助成金によって支援されました。

資料

NameCompanyCatalog NumberComments
WebsiteWebsite AddressRequirements
Clustal Omega Multiple Sequence Alignment Toolhttps://www.ebi.ac.uk/Tools/msa/clustalo/Web browserMultiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins)
COXPRESSdbhttps://coxpresdb.jpWeb browserProvides co-regulated gene relationships to estimate gene functions
EMBL-EBI Bioinformatics Tools FAQshttps://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQWeb browserFrequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments
European Bioinformatics Institute (EMBL-EBI),
Tools and Data Resources
https://www.ebi.ac.uk/services/allWeb browserComprehensive list of freely available websites, tools and data resources
Expasy - Swiss Bioinformatics Resource Portalhttps://www.expasy.orgWeb browserSuite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB)
National Center for Biotechnology Information (NCBI)
Conserved Domain Search
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgiWeb browserSearch tool to identify conserved domains within protein or coding nucleotide sequences
Pfam 35http://pfam.xfam.orgWeb browserProtein family (Pfam) database, provides alignments and classification of protein families and domains
PhyloCSF Track Hub Description https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q
edaCd4ir8aZ65ryaD&db=mm10
&c=chr2&g=hub_109801_
PhyloCSF_smooth
Web browserDetailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub
   
   
   
   
   
SignalP 6.0https://services.healthtech.dtu.dk/service.php?SignalP-6.0Web browserPredicts the presence of signal peptides and the location of their cleavage sites
TMHMM - 2.0https://services.healthtech.dtu.dk/service.php?TMHMM-2.0Web browserPrediction of transmembrane helices in proteins
UCSC Genome Browser BLAT Searchhttps://genome.ucsc.edu/cgi-bin/hgBlatWeb browserTool used to find genomic regions using DNA or protein sequence information
UCSC Genome Browser Gatewayhttps://genome.ucsc.edu/cgi-bin/hgGatewayWeb browserDirect link to the UCSC Genome Browser Gateway
UCSC Genome Browser Homehttps://genome.ucsc.edu/Web browserHome website for the UCSC Genome Browser
UCSC Genome Browser Track Data Hubshttps://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubsWeb browserDirect link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks
UCSC Genome Browser User Guidehttps://genome.ucsc.edu/goldenPath/help/hgTracksHelp.htmlWeb browserComprehensive user guide detailing how to navigate the UCSC Genome Browser
WoLF PSORThttps://wolfpsort.hgc.jpWeb browserProtein subcellular localization prediction tool

参考文献

  1. Collins, F. S., Morgan, M., Patrinos, A. The human genome project: lessons from large-scale biology. Science. 300 (5617), 286-290 (2003).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Sachidanandam, R., et al. A map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms. Nature. 409 (6822), 928-933 (2001).
  4. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  5. Fuentes-Pardo, A. P., Ruzzante, D. E. Whole-genome sequencing approaches for conservation biology: Advantages, limitations and practical recommendations. Molecular Ecology. 26 (20), 5369-5406 (2017).
  6. Carninci, P., et al. The transcriptional landscape of the mammalian genome. Science. 309 (5740), 1559-1563 (2005).
  7. Maeda, N., et al. Transcript annotation in FANTOM3: mouse gene catalog based on physical cDNAs. PLoS Genetics. 2 (4), 62 (2006).
  8. Schlesinger, D., Elsasser, S. J. Revisiting sORFs: overcoming challenges to identify and characterize functional microproteins. The FEBS Journal. 289 (1), 53-74 (2022).
  9. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  10. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  11. Aspden, J. L., et al. Extensive translation of small Open Reading Frames revealed by Poly-Ribo-Seq. Elife. 3, 03528 (2014).
  12. Andrews, S. J., Rothnagel, J. A. Emerging evidence for functional peptides encoded by short open reading frames. Nature Reviews Genetics. 15 (3), 193-204 (2014).
  13. Mackowiak, S. D., et al. Extensive identification and analysis of conserved small ORFs in animals. Genome Biology. 16 (1), 1-21 (2015).
  14. Ruiz-Orera, J., Messeguer, X., Subirana, J. A., Alba, M. M. Long non-coding RNAs as a source of new peptides. Elife. 3, 03523 (2014).
  15. Basrai, M. A., Hieter, P., Boeke, J. D. Small open reading frames: beautiful needles in the haystack. Genome Research. 7 (8), 768-771 (1997).
  16. Frith, M. C., et al. The abundance of short proteins in the mammalian proteome. PLoS Genetics. 2 (4), 52 (2006).
  17. Ladoukakis, E., Pereira, V., Magny, E. G., Eyre-Walker, A., Couso, J. P. Hundreds of putatively functional small open reading frames in Drosophila. Genome Biology. 12 (11), 118 (2011).
  18. Makarewich, C. A., Olson, E. N. Mining for Micropeptides. Trends in Cell Biology. 27 (9), 685-696 (2017).
  19. Wright, B. W., Yi, Z., Weissman, J. S., Chen, J. The dark proteome: translation from noncanonical open reading frames. Trends in Cell Biology. , (2021).
  20. Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11 (12), 909-916 (2015).
  21. Kastenmayer, J. P., et al. Functional genomics of genes with small open reading frames (sORFs) in S. cerevisiae. Genome Research. 16 (3), 365-373 (2006).
  22. Smith, J. E., et al. Translation of small open reading frames within unannotated RNA transcripts in Saccharomyces cerevisiae. Cell Reports. 7 (6), 1858-1866 (2014).
  23. Lin, M. F., et al. Revisiting the protein-coding gene catalog of Drosophila melanogaster using 12 fly genomes. Genome Research. 17 (12), 1823-1836 (2007).
  24. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  25. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. EMBO J. 33 (9), 981-993 (2014).
  26. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  27. Ma, J., et al. Discovery of human sORF-encoded polypeptides (SEPs) in cell lines and tissue. J Proteome Res. 13 (3), 1757-1765 (2014).
  28. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  29. Khitun, A., Ness, T. J., Slavoff, S. A. Small open reading frames and cellular stress responses. Molecular Omics. 15 (2), 108-116 (2019).
  30. Makarewich, C. A. The hidden world of membrane microproteins. Experimental Cell Research. 388 (2), 111853 (2020).
  31. Pueyo, J. I., Magny, E. G., Couso, J. P. New peptides under the s(ORF)ace of the genome. Trends in Biochemical Sciences. 41 (8), 665-678 (2016).
  32. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  33. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  34. Lee, C., et al. The mitochondrial-derived peptide MOTS-c promotes metabolic homeostasis and reduces obesity and insulin resistance. Cell Metabolism. 21 (3), 443-454 (2015).
  35. Pauli, A., Valen, E., Schier, A. F. Identifying (non-)coding RNAs and small peptides: challenges and opportunities. Bioessays. 37 (1), 103-112 (2015).
  36. Plaza, S., Menschaert, G., Payre, F. In search of lost small peptides. Annual Review of Cell and Developmental Biology. 33, 391-416 (2017).
  37. Kiniry, S. J., Michel, A. M., Baranov, P. V. Computational methods for ribosome profiling data analysis. Wiley Interdisciplinary Reviews: RNA. 11 (3), 1577 (2020).
  38. Anderson, D. M., et al. A micropeptide encoded by a putative long noncoding RNA regulates muscle performance. Cell. 160 (4), 595-606 (2015).
  39. Anderson, D. M., et al. Widespread control of calcium signaling by a family of SERCA-inhibiting micropeptides. Science Signaling. 9 (457), (2016).
  40. Makarewich, C. A., et al. MOXI Is a mitochondrial micropeptide that enhances fatty acid beta-oxidation. Cell Reports. 23 (13), 3701-3709 (2018).
  41. Nelson, B. R., et al. A peptide encoded by a transcript annotated as long noncoding RNA enhances SERCA activity in muscle. Science. 351 (6270), 271-275 (2016).
  42. Chu, Q., et al. Regulation of the ER stress response by a mitochondrial microprotein. Nat Commun. 10 (1), 4883 (2019).
  43. Senis, E., et al. TUNAR lncRNA encodes a microprotein that regulates neural differentiation and neurite formation by modulating calcium dynamics. Frontiers in Cell and Developmental Biology. 9, 747667 (2021).
  44. Li, M., et al. A putative long noncoding RNA-encoded micropeptide maintains cellular homeostasis in pancreatic beta cells. Molecular Therapy-Nucleic Acids. 26, 307-320 (2021).
  45. Martinez, T. F., et al. Accurate annotation of human protein-coding small open reading frames. Nature Chemical Biology. 16 (4), 458-468 (2020).
  46. van Heesch, S., et al. The translational landscape of the human heart. Cell. 178 (1), 242-260 (2019).
  47. Makarewich, C. A., et al. The cardiac-enriched microprotein mitolamban regulates mitochondrial respiratory complex assembly and function in mice. Proceedings of the National Academy of Sciences of the United States of America. 119 (6), 2120476119 (2022).
  48. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  49. Mudge, J. M., et al. Discovery of high-confidence human protein-coding genes and exons by whole-genome PhyloCSF helps elucidate 118 GWAS loci. Genome Research. 29 (12), 2073-2087 (2019).
  50. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  51. Raney, B. J., et al. Track data hubs enable visualization of user-defined genome-wide annotations on the UCSC Genome Browser. Bioinformatics. 30 (7), 1003-1005 (2014).
  52. Sievers, F., et al. scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Molecular Systems Biology. 7 (1), 539 (2011).
  53. Goujon, M., et al. A new bioinformatics analysis tools framework at EMBL-EBI. Nucleic Acids Research. 38 (2), 695-699 (2010).
  54. Harte, N., et al. Public web-based services from the European Bioinformatics Institute. Nucleic Acids Research. 32 (2), 3-9 (2004).
  55. Waterhouse, A. M., Procter, J. B., Martin, D. M., Clamp, M., Barton, G. J. Jalview Version 2-a multiple sequence alignment editor and analysis workbench. Bioinformatics. 25 (9), 1189-1191 (2009).
  56. Madeira, F., et al. The EMBL-EBI search and sequence analysis tools APIs in 2019. Nucleic Acids Research. 47 (1), 636-641 (2019).
  57. Friesen, M., et al. Mitoregulin controls beta-oxidation in human and mouse adipocytes. Stem Cell Reports. 14 (4), 590-602 (2020).
  58. Stein, C. S., et al. Mitoregulin: A lncRNA-Encoded microprotein that supports mitochondrial supercomplexes and respiratory efficiency. Cell Reports. 23 (13), 3710-3720 (2018).
  59. Chugunova, A., et al. LINC00116 codes for a mitochondrial peptide linking respiration and lipid metabolism. Proceedings of the Nationall Academy of Sciences of the United States of America. 116 (11), 4940-4945 (2019).
  60. Lin, Y. F., et al. A novel mitochondrial micropeptide MPM enhances mitochondrial respiratory activity and promotes myogenic differentiation. Cell Death and Disease. 10 (7), 528 (2019).
  61. Wang, L., et al. The micropeptide LEMP plays an evolutionarily conserved role in myogenesis. Cell Death and Disease. 11 (5), 357 (2020).
  62. He, S., Liu, S., Zhu, H. The sequence, structure and evolutionary features of HOTAIR in mammals. BMC Evolutionary Biology. 11 (1), 1-14 (2011).
  63. Rinn, J. L., et al. Functional demarcation of active and silent chromatin domains in human HOX loci by noncoding RNAs. Cell. 129 (7), 1311-1323 (2007).
  64. Bhatta, A., et al. A Mitochondrial micropeptide is required for activation of the Nlrp3 inflammasome. Journal of Immunology. 204 (2), 428-437 (2020).
  65. Zhang, D., et al. Functional prediction and physiological characterization of a novel short trans-membrane protein 1 as a subunit of mitochondrial respiratory complexes. Physiological Genomics. 44 (23), 1133-1140 (2012).
  66. Rathore, A., et al. MIEF1 microprotein regulates mitochondrial translation. Biochemistry. 57 (38), 5564-5575 (2018).
  67. Jungreis, I., Sealfon, R., Kellis, M. SARS-CoV-2 gene content and COVID-19 mutation impact by comparing 44 Sarbecovirus genomes. Nature Communications. 12 (1), 2642 (2021).
  68. Chen, J., et al. Pervasive functional translation of noncanonical human open reading frames. Science. 367 (6482), 1140-1146 (2020).
  69. Ruiz-Orera, J., Verdaguer-Grau, P., Villanueva-Canas, J. L., Messeguer, X., Alba, M. M. Translation of neutrally evolving peptides provides a basis for de novo gene evolution. Nature Ecology and Evolution. 2 (5), 890-896 (2018).
  70. Blevins, W. R., et al. Uncovering de novo gene birth in yeast using deep transcriptomics. Nature Communications. 12 (1), 604 (2021).
  71. Papadopoulos, C., et al. Intergenic ORFs as elementary structural modules of de novo gene birth and protein evolution. Genome Research. , (2021).
  72. Vakirlis, N., Duggan, K. M., McLysaght, A. De novo birth of functional, human-specific microproteins. bioRxiv. , 462744 (2021).
  73. Van Oss, S. B., Carvunis, A. R. De novo gene birth. PLoS Genetics. 15 (5), 1008160 (2019).
  74. Andersson, D. I., Jerlstrom-Hultqvist, J., Nasvall, J. Evolution of new functions de novo and from preexisting genes. Cold Spring Harbor Perspectives in Biology. 7 (6), 017996 (2015).
  75. Ge, Q., et al. Micropeptide ASAP encoded by LINC00467 promotes colorectal cancer progression by directly modulating ATP synthase activity. Journal of Clinical Investigations. 131 (22), (2021).
  76. Sonnhammer, E. L., von Heijne, G., Krogh, A. A hidden Markov model for predicting transmembrane helices in protein sequences. Proceedings. International Conference on Intelligent Syststems for Molecular Biology. 6, 175-182 (1998).
  77. Lu, S., et al. CDD/SPARCLE: the conserved domain database in 2020. Nucleic Acids Research. 48, 265-268 (2020).
  78. Mistry, J., et al. Pfam: The protein families database in 2021. Nucleic Acids Research. 49, 412-419 (2021).
  79. Horton, P., et al. PSORT: protein localization predictor. Nucleic Acids Research. 35 (2), 585-587 (2007).
  80. Obayashi, T., Kagaya, Y., Aoki, Y., Tadaka, S., Kinoshita, K. COXPRESdb v7: a gene coexpression database for 11 animal species supported by 23 coexpression platforms for technical evaluation and evolutionary inference. Nucleic Acids Research. 47, 55-62 (2019).
  81. Teufel, F., et al. SignalP 6.0 predicts all five types of signal peptides using protein language models. Nature Biotechnology. , 01156 (2022).

転載および許可

このJoVE論文のテキスト又は図を再利用するための許可を申請します

許可を申請

さらに記事を探す

185

This article has been published

Video Coming Soon

JoVE Logo

個人情報保護方針

利用規約

一般データ保護規則

研究

教育

JoVEについて

Copyright © 2023 MyJoVE Corporation. All rights reserved