ゲノムワイドな探索とグレープバインで ATL E3 ユビキチンリ ガーゼ遺伝子家族の表現メタ分析のための包括的なワークフロー

Pietro Ariani; Elodie Vandelle; Darren Wong; Alejandro Giorgetti; Andrea Porceddu; Salvatore Camiolo; Annalisa Polverari

doi:10.3791/56626

このコンテンツを視聴するには、JoVE 購読が必要です。サインイン又は無料トライアルを申し込む。

Method Article

ゲノムワイドな探索とグレープバインで ATL E3 ユビキチンリガーゼ遺伝子家族の表現メタ分析のための包括的なワークフロー

DOI:

10.3791/56626

⸱

December 22nd, 2017

Pietro Ariani*¹, Elodie Vandelle*¹, Darren Wong², Alejandro Giorgetti¹, Andrea Porceddu³, Salvatore Camiolo³, Annalisa Polverari¹

¹Dipartimento di Biotecnologie, Università degli Studi di Verona, ²Ecology and Evolution, Research School of Biology, The Australian National University, ³Dipartimento di Agraria, SACEG, Università degli Studi di Sassari

* これらの著者は同等に貢献しました

Please note that all translations are automatically generated. Click here for the English version.

要約

この記事は、同定とLevadura でシロイヌナズナ Tóxicos (ATL) E3 ユビキチンリガーゼの家族に適用されるグレイプバインの遺伝子ファミリーの解析手順を説明します。

要約

家族の遺伝子の分類と命名はできる符号化された蛋白質の多様性の説明と家族の家族機能シーケンスモチーフのまたは特定の存在など、いくつかの機能に基づく予測に大きく貢献します。翻訳後修飾と異なる条件での家族のメンバーの表現のプロフィールのためのサイト。この作品では、遺伝子家族特性評価のための詳しいプロトコルについて説明します。ここでは、プロシージャは、グレイプバインのLevadura でシロイヌナズナ Tóxicos (ATL) E3 ユビキチンリガーゼ家族の評価に適用されます。メソッドは、家族、遺伝子の局在化、構造、および重複の特性、保存されている蛋白質のモチーフの解析、タンパク質の局在化とリン酸化部位の予測の網羅的同定と同様遺伝子発現プロファイリング異なる dataset の家族間で。実験目的によってそれ以上の分析に拡張すること、そのようなプロシージャはゲノムのデータが利用可能なすべての植物種の遺伝子家族に適用できる、興味深い候補者を識別するために貴重な情報を提供します機能の研究、植物の環境適応の分子メカニズムに洞察力を与えます。

概要

最後の十年の間に、ブドウのゲノムの多くの研究きました。ブドウは、果実の発育と生物的・非生物的ストレスに対する樹木の反応研究のためのモデルとなっている認識された経済的に関連する作物です。このコンテキストでは、2007年¹のヴィティス・ヴィニヘラ品種 PN40024 ゲノムと 2011年²内の更新されたバージョンのリリースは、"Omics"-スケールデータの急速な蓄積と高スループット研究のバーストをもたらした。公開されたシーケンスデータに基づいて、(一般に節約されたモチーフ、構造や機能の類似性と進化の関係を共有するタンパク質から成る) のある特定の遺伝子家族の包括的な分析を実行できるを明らかにする、分子機能と進化、遺伝子発現プロファイル。これらの分析は、遺伝子ファミリーがゲノム全体のレベルでの生理学的プロセスを制御する方法を理解することに貢献できます。

プラントのライフサイクルの多くの側面は、規則的な細胞プロセスを確保するため売り上げ高は微調整を必要とする主要タンパク質のユビキチンを介した分解によって規制されています。重要なユビキチンを介した分解プロセスのコンポーネント、E3 ユビキチンリガーゼ、特定のターゲット³の採用により、システムの柔軟性のために責任があります。したがって、これらの酵素は、シロイヌナズナのゲノム⁴、特定の標的タンパク質のユビキチン化の演技各 E3 ユビキチンリガーゼで予測した約 1,400 E3 リガーゼエンコーディング遺伝子を持つ巨大な遺伝子家族を表しています。植物の細胞の調節において基質特異的ユビキチン化の重要性にもかかわらずユビキチン経路の規制方法について知られている少しといくつかのケースでのみ標的タンパク質が同定されています。このような特異性と調節のメカニズムを解読するのに依存している最初同定と解析、特に、システムのさまざまなコンポーネントの E3 リガーゼ。ユビキチンリガーゼの間で ATL 亜科はシロイヌナズナリング H2 指ドメイン⁵^,⁶、防衛およびホルモンの応答⁷で役割を果たしてそれらのいくつかの表示で識別された 91 のメンバーによって特徴付けられます。

新しい遺伝子家族のメンバーを定義する最初の重要なステップは、コンセンサスモチーフ、キードメイン蛋白質シーケンスの特性など、家族の機能の正確な定義です。確かに、高炉解析に基づくすべての遺伝子家族のメンバーの信頼性の高い検索には、いくつかの必須の順序特性は、特定のタンパク質ドメインのタンパク質機能/活性タンパク質の署名としての責任が必要です。これは、他の植物種の同じ遺伝子ファミリーの前の評価によって促進されるまたは推定一般的なシーケンスを分離する別の植物種で同じファミリーに属する別の遺伝子を分析することによって達成できます。家族付けることも、個別に指定された植物種の国際コンソーシアムによって解決一般的なルールに従います。グレープバインには、例えば、このような手順にさらされてV. vinifera 、 a を含む系統樹の構築を確立するブドウ遺伝子アノテーション (sNCGGa) の超命名委員会の勧告遺伝子の注釈を許可する遺伝子家族のメンバーはヌクレオチドシーケンス⁸に基づきます。

家族と遺伝子重複調査の染色体の局在は、全ゲノムまたはタンデム重複遺伝子の存在を強調表示できます。このような情報はそれ機能的冗長性を表示したり、さまざまな状況、すなわち、非機能化、新機能、またはサブ機能化⁹を明らかにするので推定の遺伝子の機能を解明するために有用であります。両方ネオ- とサブ-functionalization は、遺伝的の目新しさは、新しい細胞成分を植物環境¹⁰の変化に適応を作成する重要なイベント。特に、遺伝子の重複と新しい遺伝子の生産されたブドウのゲノムの進化の過程で非常に頻繁に、グレイプバインの近位とタンデム重複から新しく形成された遺伝子が新しいを生成する可能性が高い関数¹¹。

遺伝子家族機能の解読においてもう一つ重要な要因は、トランスクリプトームのプロファイルです。トランスクリプトームデータの膨大な量にアクセス権を与えるパブリックデータベースの可用性は、大規模なインシリコ発現解析を用いた遺伝子家族のメンバーに推定する機能を割り当てる従って悪用できます。確かに、いくつかの遺伝子が特定の植物器官または一定応力に対する応答の特異な表現を定義済みの条件に対応するタンパク質の推定の役割に関するいくつかのヒントを与えるでき、可能性についての仮説を応援しますさまざまな課題に対応するため重複遺伝子のサブ機能化。その目的のための複数のデータセットを考慮することが重要です: これらはすでに利用可能な遺伝子式マトリックス、グレープバイン器官の発達段階¹²ゲノム・トランスクリプトームのアトラスなどをすることができますまたはアドホックで構築することができます定義応力を受ける特定の植物種のためのトランスクリプトームのデータセットを取得しています。また、単純なアプローチは、2 つの行列を使用して、1 つはペアの類似性データ、他の 1 つのペアの共発現係数適用できます遺伝子ファミリー内のシーケンス類似性と遺伝子発現パターン間の関係を評価します。

この作業の目的も達成するために、タンパク質局在化とリン酸化部位の予測として遺伝子構造、節約された蛋白質のモチーフ、染色体、遺伝子重複と発現パターンを定義するグローバルなアプローチを提供することです、植物の遺伝子ファミリーの網羅的な評価。このような包括的なアプローチは、グレイプバインの ATL E3 ユビキチンリガーゼ家族の特性にここで適用されます。⁷主要な細胞プロセスの調節に ATL 亜科のメンバーの出現の役割によるとこの作品がよく機能研究のための強い候補者の識別を支援でき最終的に支配する分子メカニズムを解明、この重要な作物の環境への適応。

プロトコル

1 と推定される ATL の遺伝子家族のメンバーの同定

PSI-BLAST web 版
1. ブラスト web ページ¹³を開き、タンパク質ブラスト] セクションをクリックします。
2. 「入力クエリシーケンス」フィールドに、他の家族のメンバーを識別するプローブとして使用されます (ここで VIT_05s0077g01970) タンパク質のアミノ酸配列を入力します。
  注: 良い代表的な蛋白質である必要があります (家族を特徴付けるすべての重要なフィーチャを表示する蛋白質) を使用します。
3. フィールドに「選択検索セット」、「タンパク質のリファレンス」データベース (refseq_protein) と (V. vinifera - taxid:29760) 興味の生物を選択します。
4. フィールド「プログラムの選択」、PSI BLAST アルゴリズムを選択し、分析を実行するブラストのボタンをクリックします。
  注:「アルゴリズムパラメーター」をクリックしてしてだ (Max ターゲットシーケンス、スコアリングマトリックス、PSI-BLAST しきい値など) いくつかの高度なパラメーターを調整することが可能。
5. ラウンドの最初の爆発がクエリと一致するを表示するすべてのシーケンスを取得します (既定では-選択したしきい値を超える e 値 0.005; この実験で 0.001)。明らかにいない「PSI-BLAST の選択」列でチェックマークをクリックして検討中の家族に属しているし、ステップ 1.1.4 のようにブラストのボタンをクリックして 2 番目の PSI-BLAST イテレーションを実行すべてのエントリを選択解除します。
6. 新たに同定されたシーケンスは、黄色で強調表示されます。明らかに間違っている取得したヒット曲の選択を解除し、さらにイテレーション 1.1.5 の手順で説明するようを発見します。
7. アルゴリズムに関連するエントリが見つからないか、収束 (新しいエントリは見つかりませんでした) に達するまで反復処理を続行します。さらなる分析の推定の遺伝子家族のメンバーのリストをダウンロードします。偽陽性の存在を避けるために各イテレーションで取得したヒットを目視で確認します。
PSI-BLAST スタンドアロン版
1. ブラストホームページ¹³の「ブラストをダウンロード」ボタンをクリックしてしてブラストのスタンドアロンバージョンをダウンロードする.
  注: スタンドアロンブラストソフトウェアは、前に説明されている web インターフェイスのコマンドラインバージョンです。カスタムのローカルまたはリモートデータベースに対して PSI BLAST 検索を実行することができます。さらに、それと、事前に定義された位置特定のスコア行列 (PSSM) を検索できます。

2. PSI ブラスト識別される家族の検査

複数の配置
1. 以前に FASTA 形式のファイルで特定したアミノ酸酸性配列を収集し、複数配置を続行するメガソフトウェア¹⁴にアップロードします。
2. オープンメガソフトウェア、「整列」ボタンをクリックして、"編集/ビルド配置"をクリックして、「新しい線形を作成」をクリック、「タンパク質」をクリック。
3. 配置メニューおよび「ファイルから挿入のシーケンス」から「編集」をクリックします。前に作成した FASTA ファイルを参照し、調査対象のすべてのシーケンスのアップロードを確認します。
4. 配置メニューと「筋肉によって整列」から「配置」をクリックします。既定のパラメーターを使用して、「計算」ボタンをクリックして、複数配置の完了を待ちます。
5. 誤って予測された家族のメンバーを除外するマルチプルアライメントを目視で確認します。正規 CxxC (13 x) PxCxHxxHxxCxxxW (7 倍) CxxCW モチーフ、(特に前に 3 番目のシステインプロリン残基の存在) は ATL の家族のメンバーを定義するために必要な重要な機能です。
特定のロゴの解析
1. 家族に節約されたモチーフを定義するモチーフ抽出 (ミーム)¹⁵複数の Em に (96 グレープバインシーケンスは、ATL を考慮すべき要件を満たす) 家族の決定的なリストを提出します。
2. ミームのホームページから「ミーム」ボタンをクリックし、「データ提出フォームを完成"特定の情報と家族に関する関心の。
3. ミームの分析を使用して、グレープバイン ATL 家族、すなわち、リング H2、GLD のモチーフで 2 つの予想されるモチーフの存在を確認します。
また、手順 2.1 および 2.2 バイオインフォマティクスソフトウェアスイートを使用して同時に行う (材料の表を参照してください)。
1. FASTA ファイルをアップロード (手順 2.1.1 参照) スイートに。メニューの [し、「インポート」、"ファイルから"をクリックしてから「ファイル」を選択します。FASTA ファイルを参照し、「開く」をクリックします。
2. 一覧ですべてのインポートされたシーケンスを選択し、ツールバーで、「整列/組み立て」ボタンをクリックして「ペアワイズ複数配置」をクリックします。「筋肉の整列」を選択し、既定のパラメーターを使用して配置を起動する"OK"をクリックします。
3. 配置のロゴを視覚化するには、「グラフ」→「オプション」をクリックし、「シーケンスロゴ」を選択します。

3. 蛋白質の物理パラメーターとドメインの解析

家族の調査のメンバーのさまざまな物理パラメーターの定義は家族を包括的に説明することが重要と家族が特定の web ツールのリストを送信します。
1. 等電ポイント (pI) と分子量 (kDa) は、既定のパラメーターを持つ Expasy ウェブサイト上 ProtParam ツール¹⁶を使用します。
2. 蛋白質の細胞レベル下のローカリゼーションのタンパク質細胞内局在 v1.2 のプラウラー^{19 と既定の設定、既定の設定、targetP v1.1 の¹⁸ ngLOC v1.0¹⁷より信頼性の高い予測を取得するさまざまなツールを使用して、}0.5 の確率で。リン酸化サイトでは、既定のパラメーターを持つ MUsite v1.0 web ツール²⁰を使用します。
家族内の付加的な蛋白質のドメインを調査します。
1. Pfam データベース web ページ²¹を開く、「シーケンス検索」ツールを選択して、クエリボックスのタンパク質配列を送信、解析を実行するために"Go"をクリックします。
  注: 各蛋白質シーケンスが個別に分析されます。E 値は既定の設定で 1.0 は、重要でない重要なヒットを区別できます。
2. 推定の膜貫通領域の有無を調査して生物の配列解析のためセンターから TMHMM サーバー²²を開きます。

[クエリ] ボックスすべてのタンパク質を同時に貼り付ける (または FASTA 形式ですべてのタンパク質を含むテキストファイルをまたアップロード) 解析を実行する「送信」をクリック。

推定の疎水性領域を識別する ProtScale ツール (3.2.2 ステップ)、TMHMM によると予測の膜貫通ドメインを欠けている蛋白質を分析します。²³ProtScale web ページを開きます。各蛋白質シーケンスをクエリボックスにペーストし、"Hphob。/Kyte & ドゥリトル"アミノ酸スケールとして。解析を実行する「送信」をクリックします。

4. 染色体分布、重複、およびエクソン・イントロン組織

ブドウのゲノム CRIBI バイオテクノロジーセンターウェブサイト²⁴から取得した情報に基づく染色体に ATL の家族のメンバーにマップします。
1. PhenoGram ウェブサイトホームページ²⁵を参照してください。"Phenogram"「入力ファイル」タブ区切りのテキストファイルとして遺伝子の特定の機能を持つ包括的なガイドラインと次のパス指定されたファイルのコンパイルに関する例によると、染色体にマップするを書く →」ドキュメント"→「オプション」→「入力ファイル」。
2. 作品の「タイトル」を書きます。描画するゲノムを選択します。ゲノムグレープバインゲノムなど、ソフトウェアで実装されていないドロップダウンメニューで「その他」を選択します。"Phenogram"のガイドラインと例を提供、次のパスに従ってゲノムファイルに書き込む →「ドキュメント」→「オプション」→「ゲノム」、とそれをアップロードします。
3. 「表現型間隔」、「表現型色」、「画像フォーマット」、または選択の選択肢の既定のパラメーターを使用して、それぞれのメニューで、「プロット」染色体遺伝子の可視化を取得するをクリックします。
MCScanX ソフトウェア²⁶を使用しての家族のメンバーの重複状態を定義します。
1. ダウンロードし、コマンド・ライン 1 (補足ファイル 1) を実行しているローカルコンピューター上の MCscanX のコピーを解凍します。MCscanX フォルダーを入力し、コマンド行 2 (補足ファイル 1) を実行する必要な実行可能ファイルを作成します。
  注: MCscanX のインストールは、いくつかの Linux の 64 ビットマシン関数 chdir に関する問題のために失敗する知られています。エラーメッセージが、時に、この関数に関連返されますコマンド実行、コマンド行 3 (補助ファイル 1) を実行して、コマンドの"make"はその後試みられるべき。
2. V. vinifera蛋白質と 4 (補足ファイル 1) のコマンド・ラインを実行しているアノテーションファイルをダウンロードします。
  注: 解凍するブドウのアノテーションファイルのニーズと 5 (補足ファイル 1) のコマンド・ラインを実行して一意のファイルで単一の染色体情報猫。
3. 「すべてのすべての対」blastp 検索クエリと件名V. ヴィニヘラタンパク質ファイルを使用して実行します。
4. 6 (補足ファイル 1) のコマンド・ラインを実行しているVタンパク質のファイルを使用して検索可能なブラストデータベースを作成します。V. viniferaタンパク質ファイルをクエリとして使用して、blastp 検索実行コマンド・ライン 7 (補足ファイル 1) を実行して、以前作成されたデータベースに対して。
5. MCScanX の適切な形式のアノテーションファイルを変換します。8 (補足ファイル 1) カスタム perl スクリプト parseMSCanXgff.pl をダウンロードするコマンド・ラインを実行します。9 (補足ファイル 1) のコマンド・ラインを実行する解析を実行します。
  注: 次の形式で遺伝子座標を保持しているファイル vitis.gff が生成されます。
  sp # 遺伝子の開始位置が終了位置
  "sp"ここ「#」は足場の名前 (グレープバインの Vv) の種のための 2 文字のコードでは。指定されたカスタム perl スクリプトはほとんど変換に適した使用可能な注釈ファイルで提供される情報の多様性のためのいくつかの特定のケースでいくつかのコードの変更を必要がありますに注意してください。
6. 10 (補足ファイル 1) のコマンド・ラインを実行して MCScanX を起動します。
  注:「ブドウ」注釈、ブラスト出力ファイルのプレフィックスであります。これは、ソフトウェアが実行するための必須事項を表します。
7. MCScanX 結果を分析します。MCScanX は、1 つのテキストファイル"vitis.collinearity"は、同一直線上のブロックが含まれますを生成します。このようなファイルは任意のテキストエディターで閲覧できます (例 1補足ファイル 1の出力を参照してください)。
  注: 各参照の染色体に対して同一線上にあるブロックの多重配列アライメントを備えた html ファイルを含む"mcscaxOutput.html"ディレクトリが生成されます。これらのファイルは、web ブラウザーを通じて閲覧できます。
8. 染色体 11 (補足ファイル 1) のコマンド・ラインを実行している内の相対位置に基づいて paralogous 遺伝子を分類します。
  注: Paralogous 遺伝子分類、説明補足テーブル II。生成された出力ファイル"vitis.gene_type"には、シンプルなタブ区切り形式ですべての元の情報が含まれています。
9. 遺伝子ファミリーは海抜 12 (補足ファイル 1) のコマンド・ラインを実行している特定のメカニズムによって発行されているかどうかを評価する濃縮分析を実行します。
  注: ファイル"vitis.gene_type"は 4.2.8 のステップで生成されたファイル"gene_family_file"ファミリーに属するすべての遺伝子の遺伝子座名によって (例えばATL_genes) の家族の名前の後にテキストファイルの 1 行を表すに対しタブで区切られます。濃縮応用検定、フィッシャーの正確確率検定とp-異なる起源の値は"outputFile.txt"ファイルに格納されます。
表示、アノテーション、および系統発生の木の管理の生命の対話型の木 (iTOL)²⁷日オンラインツールを用いた遺伝子のエクソン・イントロン組織を視覚化します。
1. ITOL ウェブサイトの「アップロード」セクションで系統樹をアップロードします。以下のセクション 5 によると、ツリーを構築すると。それぞれの家族の一員の遺伝子のブドウのゲノム (上記の引用 CRIBI のウェブサイト) の V1 注釈から遺伝子構造予測を取得します。推定エクソン・イントロン、非翻訳領域 (UTRs) (bp) の長さを計算します。
2. エクソン・イントロンパターンのグラフィカルな可視化の「タンパク質ドメイン」データセットを使用します。

次のパス「ヘルプ」→「ヘルプ」→「データセットの種類」→「タンパク質ドメイン"iTOL ウェブサイト²⁷指定に従って計算された長さを含むプレーンテキストファイルに書き込みます。「タンパク質のドメイン」データセットを使用して、「四角形 (RE)」と"四角形ギャップ (GP)「図形、エキソンと UTRs、それぞれ表します。

5. 系統解析と命名

高品質の分子系統樹の構築と家族の命名法の定義を ATL 家族メンバー間の関係を分析します。
1. グレープバイン遺伝子ファミリー⁸グレープバインスーパー命名委員会によって確立された規則に従います。
2. UniProt データベース²⁸からグレープバイン遺伝子命名法⁸、参考資料として必要なシロイヌナズナATL のシーケンスを取得します。
3. グレイプバインと系統解析に含まれるシロイヌナズナ遺伝子家族のメンバーのすべての塩基配列を含む FASTA ファイルを記述します。塩基配列 (タンパク質と比較して) 家族のメンバーの間で変動の最大値を許可します。
系統発生の木
注: Phylogeny.fr ²⁹パイプラインの使用は高品質の系統樹を得るようお勧めしますが、必須ではありません。
1. Phylogeny.fr ホームページ²⁹を参照し、「系統分析」のパイプラインを選択します。
  注:「ワンクリック」はほとんどの場合に適していますが、それを必要な場合は、特定の高度な設定 (「詳細」) またはも完全にカスタマイズされた分析を選択すること可能です ("アラカルト"; 5.2.5 の手順を参照してください).
2. 書き込み」分析の名前「アップロード作成した FASTA ファイル (手順 5.2.1, し解析を実行する"送信"をクリックします。
3. また、手順 (手順 5.2.1、5.2.2) 上記する場合エラーメッセージの結果は、個別に、次のように系統スイートパイプラインの各ステップを完了します。
  1. 筋肉ソフトウェアホームページ³⁰からは、「ステップ 1」で FASTA ファイルアップロードは、「ピアソン/FASTA」「ステップ 2」で"出力フォーマット"と"送信"をクリックして「ステップ 3」クエリの順序を配置するのを選択します。
  2. 「配置のファイルをダウンロード」をクリックし、手順についてはさらに FASTA ファイルとして保存します。
  3. プロセス不十分を排除する配置 FASTA ファイルは、Gblocks サーバーツール³¹を使用して位置を揃えます。配置 FASTA ファイルをアップロード、「シーケンスの型」として「DNA」を選択し、(例えば、グレープバイン ATL 遺伝子家族選択"以下の厳格な選択"のすべての 3 つオプションを提案するため分析に最適な金詰りオプションを選んだ高いシーケンス発散)。クリックして"ブロック"に解析を実行します。
  4. [出力] ページの下部に「結果の整列」をクリックし、新しい FASTA ファイルとして結果を保存します。
  5. Phylogeny.fr のホームページは²⁹日から「系統分析」パイプラインとして「A la Carte」を選択します。その後、「複数配置」の選択を解除と「配置キュレーション」.「ワークフローを作成する」をクリックして、(ステップ 5.2.5.4) Gblocks キュレーション FASTA ファイルをアップロード、「設定」のデフォルトのパラメーターで「Bootstrapping プロシージャ」を選択解析を実行する"送信"をクリック。
4. 崩壊が不十分なサポート枝 (すなわち、ブートストラップ値 < 70%) をクリックして「選択とアクション」セクションで「崩壊枝」とさら解析される系図の形式で最終結果をダウンロードします。
系統に基づく遺伝子名を割り当てます。
1. ITOL スイート (セクション 4.3) 上記の引用にそれをアップロードすることによってツリー構造の信頼性を評価する系統樹を確認します。
2. 家族の各メンバーに遺伝子名を手動で割り当てます。一対一第オーソロガスシロイヌナズナを割り当てる-名前のような (例えばAtATL3 → VviATL3)。グレープバイン遺伝子 (2 つ以上) は、同じ系統の距離を使用して単一シロイヌナズナ相同物から派生する数字、または文字をシロイヌナズナ遺伝子数が終了した場合を区別する (例えばAtATL23 → VviATL23a、VviATL23b)。
3. 一対多または多対多の第オーソロガスシロイヌナズナから成る新しい遺伝子名を割り当てる-名前のような (ここで、"ATL") Vとシロイヌナズナの両方に既に使用最高の番号よりも大きい番号の組み合わせ(e.g。、VviATL83)。
4. 系統樹の下に、上から降順新しく定義された家族の命名を完了します。

6. ブドウオルガンとステージ発現プロファイリング

家族のメンバーの作業データマトリックス含む式データを生成します。
1. ResearchGate プラットフォーム³²分散リンクから、 V. vinifera品種コービーナ遺伝子発現アトラスデータマトリックスをダウンロードします。このファイルには、次の手順で使用する正規化 RMA の式の値が含まれています。
2. アトラスデータマトリックスから各ファミリー遺伝子の式の値を抽出し、アトラスデータマトリックスと同じヘッダー行を含む「作業データマトリックス」を書きます。「作業データマトリックス」をタブ区切りのテキストファイルとして保存します。
マルチ実験ビューアー (MeV) ソフトウェアを使用して階層的な bi クラスター分析を実行します。
1. ダウンロードして³³MeV ソフトウェアをインストールします。
2. 「作業データマトリックス」をアップロード (ステップ 6.1.2)「ファイル」→「データ読み込み」→「ブラウズ」次のパスおよびテキストファイルを選択します。「単一のカラー配列」を選択し、自動アノテーションが指定されていない場合、「負荷注釈」から目盛りを削除します。式テーブルプレビューの上部左の式の値を選択し、「読み込み」ボタンをクリックします。
3. Log2 変換 (「データの調整」→「ログ変換」→「Log2 変換」) と遺伝子/行の正規化 (「データの調整」→「遺伝子/行調整」"中央センター遺伝子/行") を適用するデータを調整します。適切な規模の限界 (「表示」→「設定カラースケールの制限」) を設定します。
4. 次のパス「分析」階層的クラスタリングを計算 →「クラスター」→「HCL」.

「リンケージ方式選択」フィールドで「遺伝子葉順序の最適化」と"フィールド順序の最適化","ピアソン相関」「距離行列選択」フィールドと「平均リンケージクラスタリング」の「サンプル葉順序の最適化」を選択します。解析を実行する"OK"をクリックします。

ウィンドウの左側のパネルの「分析結果」→「HCL」メニューで結果を表示します。ヒートマップをエクスポートするには、「ファイル」メニューの「画像を保存」をクリックします。

7. 生物的・非生物的ストレスに対する応答の発現

手順 6.1 各パブリケーションとブドウの生物的・非生物的ストレスを調査し、研究から得られた GSE 加盟 ID を繰り返します。たとえば、病原菌 NimbleGen ブドウ全ゲノムマイクロアレイを用いた灰色かび病菌感染ブドウ果実のトランスクリプトームのプロファイルを提供する実験は、GSE52586 の GSE ID で閲覧できます。6.1.1 と 6.1.2 手順を繰り返します。
NCBI シーケンスを読み取るアーカイブ³⁴ SRA/バイオプロジェクト ID (例えば、SRP055458 または「ブドウ花シェーディング」実験用 PRJNA275778) を検索し、関連付けられているすべての塩基配列読み取りをダウンロードします。多くの異なった調査からのデータセットの RNA シーケンスは、一貫性を保つのため単一のパイプラインを使用して処理されます。
1. 簡単に言えば、raw シーケンス FASTQ 読み取り (シングルおよびペアエンド) をトリムし、Trimmomatic³⁵品質をフィルターします。AVGQUAL と MINLEN それぞれ 20 と 40 のフィルター使用してパラメーターはすべて、既定。
2. × グレイプバイン参照ゲノム¹ Bowtie2³⁶を使用して 12 をインデックスします。Bowtie2コマンドを実行する前に (例えば、 bowtie2 ビルド) 12 X 口コミ参照ゲノムをダウンロードします。
3. グレープバイン V1 遺伝子モデルのアノテーション (GFF/GTF) ファイルを使用して htseq 数³⁷カウントマトリックステーブルを取得します。
R³⁸ RMA 正規化行列の limma³⁹ライブラリとそれぞれ手順 7.1.1 と 7.2.1 から得られたカウントマトリックステーブルの DESeq2⁴⁰ライブラリの差動遺伝子発現 (再-) 解析を実行します。
1. 標準的な「2 つのグループ」比較を実行 (つまり、「治療」/「コントロール」)。デザイン行列/グループ「コントロール」と「治療」の条件が正しく指定されていることを確認します。
  注: の典型的な設計マイクロアレイ発現解析 (GSE52586) コントロール (健康) 果実に対してlimmaコマンドを実行すると同じ開発段階で灰色かび病菌感染エル 33 果実を比較するには13 は、補助ファイル 1に表示されます。RNA シーケンス発現解析DESeq2コマンド行 14 を実行するとコントロールに対して陰処理下 (キャップ落下後 7 日間) で花を比較する (SRP055458 または PRJNA275778) の典型的な設計は補足のファイル 1 に示すように.
2. それぞれの対照的に、 limmaの特異的発現遺伝子 (DEG) の一覧を取得、使用、関数lmFit()、 eBayes()、続いて、 topTable() 関数でDESeq2のために、を使用DESeqDataSetFromMatrix()、 DESeq()、およびresults()関数。以下、続くことに典型的なワークフローです。
  1. マイクロアレイ発現解析コマンド・ライン 15 (補足ファイル 1) を参照してください。RNA シーケンス発現解析コマンド行 16 (補足ファイル 1) を参照してください。他のすべて異なる適切なデザインスキーマ (7.3.1 の手順の例を参照) とは対照的に上記の手順を繰り返します
DEGs 生成のリストから ATL V1 加盟に対応しない、log2 折る変更 (治療/コントロール) を含む列を保持するすべての行を抽出 > | 0.5 |pを調整 -値 (FDR) < 0.05、およびマージそれらに応じてマトリックス表にかどうか研究に該当」非生物的」または「生物/病原体相互作用」の解説。
ライブラリgplotsを使用して R の階層的クラスター化されたヒートマップなど (非生物と生物の解説) を構築します。
注: heatmap.2関数を呼び出すとともにそれぞれのマトリックス表から行樹状図ヒートマップを作成します。Cellnoteを使用して追加の引数の機能発現を区別するのに役立ちます (log2FC > 0.5、FDR < 0.05) による実験的条件の広い範囲にわたってそれぞれの比較で ATL 遺伝子、* 記号。17 (補足ファイル 1) のコマンド・ラインを実行している R の一般的なワークフローを適用またはまた、手順 6.2.2 に 6.2.5 MeV ソフトウェアを使用してヒートマップなどを構築します。

8. Paralogous 遺伝子と遺伝子の共発現との関係の解析

一対の類似度を含むマトリックスを構築します。類似度行列の要素は、配列類似性対蛋白質線形から計算の値です。
1. ペアワイズ配列アライメント、テキストファイルとして保存して、デフォルトの設定でエンボス針 web サーバー⁴¹を使用します。出力テキストファイルを開き、列と行の名前"similarityTable.txt"と呼ばれるファイルを生成すると、すべてのコメント行を削除します。
  注: そのようなテーブルは、ペアワイズ線形のそれぞれで計算された類似値をレポート各 ATL 遺伝子のラインを備えています。対称行列は対角値の点で生成されるように、行と列に座の順序は同じです。
ピアソンの相関係数を計算することによって共発現データの行列を作成します。次の手順には、R と PDL の perl モジュールが必要です。
1. 端末内のコマンド行 18 (補足ファイル 1) を実行している 96 の ATL 遺伝子の式の値をダウンロードします。19 (補足ファイル 1) のコマンド・ラインを実行することによってダウンロードすることができますカスタムの perl スクリプトを使用して共発現解析を実行します。このようなスクリプトは、以前に報告される ATL 遺伝子座のペアの間のピアソンの相関係数を計算します。
2. 20 (補足ファイル 1) のコマンド・ラインを実行しているスクリプトを起動し、出力指示に従ってください。

スクリプトは、ステップ 8.1 (この順序はマントルピーステストを実行、以下を参照してくださいに不可欠) で得られる行列の軌跡名順を備えた共発現行列を含む出力ファイル (すなわち"coexpressionTable.txt") になります。

8.1、8.2 の手順で取得したデータ行列間のマントルピースのテストを実行します。次のコマンドを使用して ade4 ライブラリの読み込み (端末内からコマンド"R"を実行) R 環境に入ると後、: library(ade4)

「Nrep」順列の数を表すと 21 (補足ファイル 1) のコマンド・ラインを実行して統計情報を実行して、2 つのデータ行列の読み込みのマントルピーステストを実行します。テストは、これらの行列の成分間の相関を計算する、行列に置き換えています、再び同じ検定統計量を計算するで構成されています。
メモ: pを計算に使用する統計テストの参照分布を構築する統計テストのすべての得られた値を使用-意義をテストする値。順列の数を定義する精度p-値を取得することができます。

結果

BLASTp 検索を通じてシロイヌナズナ ATL2 (At3g16720) に最も近いブドウのゲノムの ATL の家族のメンバーを調査するためのプローブとして使用されたように遺伝子 VIT_05s0077g01970 (V. vinifera cv ピノ・ノワール PN40024)。PSI-BLAST 解析は、(図 1 a) ブドウ ATL 遺伝子ファミリーに属すると推定される遺伝子のリストを明らかにいくつかのサイクル?...

ディスカッション

ゲノム時代の多くの遺伝子家族は深くいくつかの植物の種で特徴づけられています。この情報は、機能の研究は、家族の別のメンバーの役割をさらに調査するためのフレームを提供します。このコンテキストで、冗長性と名前は異なる遺伝子に独立して割り当てられて別の研究グループがときに発生する混乱を避けること、家族の各メンバーを一意に識別できるように命名システムの必要性?...

開示事項

著者が明らかに何もありません。

謝辞

仕事は、共同のプロジェクト 2014 (特性グレイプバインの ATL の遺伝子ファミリーとPlasmopara 大期に抵抗に関与) の枠内でヴェローナ大学によって支えられました。

資料

Name	Company	Catalog Number	Comments
Personal computer
Basic Local Alignment Search Tool (BLAST)			https://blast.ncbi.nlm.nih.gov/Blast.cgi
Molecular Evolutionary Genetics Analysis (MEGA)			http://www.megasoftware.net/
Motif-based sequence analysis tools (MEME)			http://meme-suite.org/
Geneious	Biomatters Limited		http://www.geneious.com/
ProtParam Tool			http://web.expasy.org/protparam/
ngLOC			http://genome.unmc.edu/ngLOC/index.html
TargetP v1.1 Server			http://www.cbs.dtu.dk/services/TargetP/
Protein Prowler			http://bioinf.scmb.uq.edu.au:8080/pprowler_webapp_1-2/
MUsite			http://musite.sourceforge.net/
Pfam			http://pfam.xfam.org/
TMHMM Server v. 2.0			http://www.cbs.dtu.dk/services/TMHMM/
ProtScale			http://web.expasy.org/protscale/
Grape Genome Database (CRIBI)			http://genomes.cribi.unipd.it/grape/
PhenoGram			http://visualization.ritchielab.psu.edu/phenograms/plot
MCScanX			http://chibba.pgml.uga.edu/mcscan2/
Interactive Tree Of Life (iTOL)			http://itol.embl.de/
UniProt			http://www.uniprot.org/
Phylogeny.fr			http://www.phylogeny.fr/index.cgi
MUSCLE			http://www.ebi.ac.uk/Tools/msa/muscle/
Gblocks Server			http://molevol.cmima.csic.es/castresana/Gblocks_server.html
Vitis vinifera cv. Corvina gene expression Atlas datamatrix			https://www.researchgate.net/publication/273383414_54sample_ datamatrix_geneIDs_Fasoli2012
Multi Experiment Viewer (MeV)			http://mev.tm4.org/#/welcome
Sequence Read Archive (SRA)			https://www.ncbi.nlm.nih.gov/sra
R			https://www.r-project.org/
EMBOSS Needle (EMBL-EBI)			http://www.ebi.ac.uk/Tools/psa/emboss_needle/

参考文献

Jaillon, O., et al. The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla. Nature. 449 (7161), 463-467 (2007).
Adam-Blondon, A. -. F., et al. . Genetics, Genomics, and Breeding of Grapes. , 211-234 (2011).
Chen, L., Hellmann, H. Plant E3 Ligases: Flexible Enzymes in a Sessile World. Mol. Plant. 6 (5), 1388-1404 (2013).
Vierstra, R. D. The ubiquitin-26S proteasome system at the nexus of plant biology. Nat. Rev. Mol. Cell Biol. 10 (6), 385-397 (2009).
Serrano, M., Parra, S., Alcaraz, L. D., Guzmán, P. The ATL Gene Family from Arabidopsis thaliana and Oryza sativa Comprises a Large Number of Putative Ubiquitin Ligases of the RING-H2 Type. J. Mol. Evol. 62 (4), 434-445 (2006).
Aguilar-Hernández, V., Aguilar-Henonin, L., Guzmán, P. Diversity in the Architecture of ATLs, a Family of Plant Ubiquitin-Ligases, Leads to Recognition and Targeting of Substrates in Different Cellular Environments. PLoS One. 6 (8), e23934 (2011).
Guzmán, P. The prolific ATL family of RING-H2 ubiquitin ligases. Plant Signal Behav. 7 (8), 1014-1021 (2012).
Grimplet, J., et al. The grapevine gene nomenclature system. BMC Genomics. 15, 1077 (2014).
Prince, V. E., Pickett, F. B. Splitting pairs: the diverging fates of duplicated genes. Nat. Rev. Genet. 3 (11), 827-837 (2002).
Magadum, S., Nerjee, U., Murugan, P., Gangapur, D., Ravikesavan, R. Gene duplication as a major force in evolution. J. Gen. 92 (1), 155-161 (2013).
Wang, N. Patterns of Gene Duplication and Their Contribution to Expansion of Gene Families in Grapevine. Plant Mol. Biol. Rep. 31 (4), 852-861 (2013).
Fasoli, M. The Grapevine Expression Atlas Reveals a Deep Transcriptome Shift Driving the Entire Plant into a Maturation Program. Plant Cell. 24 (9), 3489-3505 (2012).
. BLAST2.6.0 Available from: https://blast.ncbi.nlm.nih.gov/Blast.cgi (2016)
. Vitis vinifera cv. Corvina gene expression Atlas Available from: https://www.researchgate.net/publication/273383414_54sample_datamatrix_geneIDs_Fasoli2012 (2015)
. Sequence Read Archive (SRA) Available from: https://www.ncbi.nlm.nih.gov/sra (2017)
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nat Meth. 9 (4), 357-359 (2012).
Anders, S., Pyl, P. T., Huber, W. HTSeq-a Python framework to work with high-throughput sequencing data. Bioinformatics. 31 (2), 166-169 (2015).
. Version 3.4.1 Available from: https://www.r-project.org/ (2017)
Ritchie, M. E. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 43 (7), e47 (2015).
Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15 (12), 550 (2014).
Ariani, P. Genome-wide characterisation and expression profile of the grapevine ATL ubiquitin ligase family reveal biotic and abiotic stress-responsive and development-related members. Sci. Rep. 6, 38260 (2016).
Vitulo, N., et al. A deep survey of alternative splicing in grape reveals changes in the splicing machinery related to tissue, stress condition and genotype. BMC Plant Biol. 14 (1), 99 (2014).
Overbeek, R., Fonstein, M., D'Souza, M., Pusch, G. D., Maltsev, N. The use of gene clusters to infer functional coupling. Proc. Natl. Acad. Sci. USA. 96 (6), 2896-2901 (1999).
Dalquen, D. A., Dessimoz, C. Bidirectional Best Hits Miss Many Orthologs in Duplication-Rich Clades such as Plants and Animals. Genome Biol. Evol. 5 (10), 1800-1806 (2013).
Remm, M., Storm, C. E. V., Sonnhammer, E. L. L. Automatic clustering of orthologs and in-paralogs from pairwise species comparisons1. J. Mol. Biol. 314 (5), 1041-1052 (2001).
Kaduk, M., Sonnhammer, E. Improved orthology inference with Hieranoid 2. Bioinformatics. 33 (8), (2017).
Cramer, G. R., et al. Transcriptomic analysis of the late stages of grapevine (Vitis vinifera cv. Cabernet Sauvignon) berry ripening reveals significant induction of ethylene signaling and flavor pathways in the skin. BMC Plant Biol. 14, 370 (2014).
Juretic, N., Hoen, D. R., Huynh, M. L., Harrison, P. M., Bureau, T. E. The evolutionary fate of MULE-mediated duplications of host gene fragments in rice. Genome Res. 15 (9), 1292-1297 (2005).
Filichkin, S. A. Genome-wide mapping of alternative splicing in Arabidopsis thaliana. Genome Res. 20 (1), 45-58 (2010).
Quesada, V., Macknight, R., Dean, C., Simpson, G. G. Autoregulation of FCA pre-mRNA processing controls Arabidopsis flowering time. EMBO J. 22 (12), 3142-3152 (2003).
Wong, D. C. J., Gutierrez, R. L., Gambetta, G. A., Castellarin, S. D. Genome-wide analysis of cis-regulatory element structure and discovery of motif-driven gene co-expression networks in grapevine. DNA Res. 24 (3), 311-326 (2017).
Wong, D. C. J., Matus, J. T. Constructing Integrated Networks for Identifying New Secondary Metabolic Pathway Regulators in Grapevine: Recent Applications and Future Opportunities. Front. Plant Sci. 8, 505 (2017).

転載および許可

このJoVE論文のテキスト又は図を再利用するための許可を申請します

許可を申請

さらに記事を探す

130 ATL E3

This article has been published

Video Coming Soon

Keep me updated: