ゲノムMRI - ゲノムDNA内の配列パターンを研究するためのパブリックリソース

Ashwin Prakash; Jason Bechtel; Alexei Fedorov

doi:10.3791/2663

この記事について

要約
要約
プロトコル
ディスカッション
開示事項
謝辞
資料
参考文献
転載および許可

要約

我々は、ゲノム配列の解析のために公共の計算のウェブサイトを提示する。それは様々な非ランダムな塩基組成とDNA配列のパターンを検出します。このリソースは、また複雑さの多様なレベルでランダム化されたシーケンスを生成します。

要約

遺伝子間の領域、イントロン、そしてエキソンの未翻訳セグメントを含む複雑な真核生物、、の非コードゲノム領域は、それらのヌクレオチド組成に深く非ランダムであり、シーケンスパターンの複雑なモザイクで構成されています。配列（例えば（G + T）が豊富な、プリン体を多く含む、などの塩基の特定の塩基またはその組み合わせによって豊かにされている長さは30から10000ヌクレオチド - これらのパターンは、いわゆるミッドレンジの不均質性（MRI）の領域が含まれています）。 MRIの領域は、多くの場合、遺伝子発現、組換え、および他の遺伝的プロセス（フェドロワ＆フェド2010）の調節に関与している異常な（非B型）DNAの構造に関連付けられています。それらの配列の不均一性を低下させる傾向の変異に対するMRIの領域内で強力な固定バイアスの存在は、さらに、これらのゲノム配列（Prakashさんら 2009）の機能性と重要性をサポートしています。

ゲノムMRIプログラムパッケージ- -それらの内の様々なMRIのパターン（。ベクテルら 2008）を見つけると特徴づけるために、ゲノム配列のコンピューター解析のために設計されたここでは、自由に利用できるインターネットリソースを示しています。また、このパッケージには、ナチュラルインプットのDNA配列へのさまざまなプロパティとの対応のレベルでランダム化されたシーケンスを生成できます。このリソースの主な目標は、まだほとんど調査されないし、徹底した調査との認識を待っている非コードDNAの広大な地域の調査を容易にするためです。

プロトコル

紙のすべての使用されるプログラムはperlを使って書かれており、すべてのWebページがPHPを使用して作成されている。

1。出発点：

http://mco321125.meduohio.edu/〜jbechtel / gmri /オンラインゲノムMRIパッケージのホームページを開きます。 Webリソースは、" ヘルプ（How-to/README）"リンク、 ゲノムMRIと同様のアルゴリズム上のすべての出版物が" 関連するリソースへのリンク "にリストされている間のリンクでプログラムの指示/説明を提供します。

2。入力シーケンスの準備とアップロード（複数可）。

GMRI分析セッションを開始するにはFASTA形式の配列（複数）を持つファイルを作成します。この形式の各塩基配列は、このシーケンスの簡単な説明によって同じ行に続けて識別子を表す">"文字で始まる一行を前にしてください。 GMRI分析のためのヌクレオチド配列はまた、R、Y、N、X、などHwever、非A、T、Cのような文字を許可する、Gの文字は、プログラムによって処理されず、スキップされます。反復の要素が（"N"ので置き換え）"マスク"されているシーケンスを入力として使用することができます。シーケンスの文字は、大文字小文字を区別しないことに注意してください。

ゲノムMRIホームページ上の" 開始または再開 "ボタンをクリックしてGMRIセッションを開始します。これは、塩基配列をアップロードできるページにユーザーを取ります。
あなたのFASTA形式の配列をコピーアンドペーストするか、" ファイルを選択 "ボタンを使用してローカルコンピュータからの配列を含むファイルをアップロードする。
" このファイルを使用して新しいセッションを開始 "ボタンをクリックします。確認メッセージがその、" あなたのシーケンスが正常にアップロードされている "とまた、あなたのセッションのための（例えばb16yMj）[サイトは"セッションラベル"と呼ぶ]英数字の"GMRI識別子"を得る必要がある旨の入力のウィンドウ上に表示されます最初の使用後最長2週間のセッションを取得し、継続して使用することができます。

注記：これ以降の入力シーケンスが"としてuserfile"と呼ばれている。

3。入力シーケンス（オプション）のオリゴヌクレオチド頻度分布を取得します。

入力シーケンスのセット全体のためのオリゴヌクレオチド頻度の分布を得るために、"SRIアナライザ "タブ（一番上の行）をクリックしてください。頭字語SRIは、短距離の不均一性を表しています。この際、ユーザは周波数が計算されるためのオリゴヌクレオチドの最高の長さ（2まで〜9個、デフォルトは6 NTS）を指定することができます。この選択は、" 最大オリゴマーのサイズ "リストボックス内で目的のオプションをクリックすることによって行われます。その後、計算を開始する" ファイルを解析 "ボタンを押してください。入力シーケンスの構成の大まかな表現では、すぐにこのウェブページの中央に短い表として表示され、"userfile.comp.tbl"としてダウンロード可能になります。この表は、入力シーケンス内でだけ最も、少なくとも豊富なオリゴヌクレオチドを表しています。

すべての可能なオリゴヌクレオチドのための全周波数の表は、" ダウンロード構成ファイル "のリンクを介して得られる"userfile.comp"という名前のファイルとして生成されます。

注記：SRIアナライザは、すべての重複オリゴヌクレオチドのセット全体をカウントする。

4。入力シーケンス（オプション）と同じオリゴヌクレオチド組成を持つ乱数列を生成します。

（プロトコールのステップ3の完了は、このタスクに必要とされる）。

ランダムな配列を作成する新しいWebページを開くには、"SRIジェネレータ "タブ（一番上の行）をクリックしてください。このWebページにリストボックスを使用して生成するランダム系列のサンプル数を選択してください。これらのサンプルの各ファイルは" としてuserfile"の入力配列と同じ数と長さのランダム配列が含まれます。また、入力シーケンスは、T、C、またはGの文字を非含まれている場合、ランダムシーケンスは入力シーケンスの場合とまったく同じ位置に、"N"のようになります。
周波数がランダムな配列で近似されるためのオリゴヌクレオチドの最長の長さを選択してください。これは、画面の中央にあるテーブルで、目的のオリゴマーのレベル（4塩基のオリゴヌクレオチドの例："4量体"）のラジオボタンをチェックして選択することができます。それはランダムな配列は、入力シーケンスのように、選択されたオリゴマーレベルでのおおよその周波数だけでなく、短いオリゴマーレベルの対応する周波数ではないだけで構成されることをここで留意すべきである。オリゴヌクレオチドの小さな変動入力とランダム系列の周波数は、ランダムシーケンスの生成に適用されるマルコフモデルの手続きのために可能です。
" ファイルの生成 "ボタンをクリックしてプログラムを起動します。入力シーケンスが大きい場合には、ランダムな配列を生成するために数分かかる場合があります。青い"ダウンロード"のリンクはこのページの下部に表示されるまで、このように、ユーザーは待つ必要があります。ランダムなセットはこのようなXはランダムなセットの数であり、Yが選択されたオリゴマーのレベル（例："userfile_rand2_4"）である"userfile.randX_Y"などの名前を持つファイルに格納されています。

5。入力とランダム配列のミッドレンジ不均一（MRI）の分析。

シーケンスのヌクレオチド組成のミッドレンジの不均一性を分析する新しいWebページを開く"MRIアナライザ "タブ（一番上の行）、をクリックしてください。
リストボックスを（入力シーケンスとランダムシーケンスの生成されたセットの間の選択ここで行うことができます）" を分析するファイル "から分析するシーケンスを選択します。
提供するリストボックスを経由して分析されるMRIのコンテンツタイプを選択します。（七つのコンテンツのオプションが利用可能である：G + C、G +、G + T、A、G、C、またはT）
コンテンツリッチコンテンツの乏しい配列は"ウィンドウサイズ"リストボックス（有効な範囲は30から1000にはデフォルトでは50個のヌクレオチドである）を介して検査対象となるウィンドウの長さを選択してください。
コンテンツリッチコンテンツの乏しい地域での上限しきい値と下限しきい値 、それぞれを選択してください。これらのしきい値は、現在のウィンドウ内の特定のヌクレオチドの正確な数（リストボックス内でnumberオプションを使用）により、またはウィンドウ内のこれらのヌクレオチドの割合（ 百分率のオプションを使用して）によって定義することができます。
すべての5つの選択肢が（例：;コンテンツ= GC、ウィンドウのサイズ= 50;上限しきい値= 35;シーケンス=" としてuserfile"下限しきい値= 15）行われた後に、 分析ファイルのボタンを押してプログラムを呼び出します。プログラムは連続して選択された入力からすべてのシーケンスをスキャンします。各ステップでは、指定されたウィンドウサイズと同じ長さの現在のシーケンスのセグメントを取得し、選択したコンテンツのヌクレオチドの数またはパーセントが上限しきい値の上または下限しきい値以下かどうかを計算します。ウィンドウのいずれかの条件に一致しない場合は、次のオーバーラップウィンドウは（1つのヌクレオチドシフトした）同じ分析のために選択されています。シーケンスは、コンテンツリッチまたは乏しい合成のためのしきい値のいずれかの要件を満たす場所ウィンドウが見つかった場合、プログラムは出力ファイルにこのウィンドウの順序を保存し、グラフィカルな出力にスパイクを生成します。この後、プログラムは次の非重複隣接するウィンドウにジャンプし、シーケンスの終わりに達するまで、スキャン処理を再開します。
プログラム終了後、出力ファイル（名前付き"userfile_GC_50_35 .. 15"上記の例）へのリンクが表示され、結果のグラフィカルな表現は（図1を参照）、Webページの中央に表示されます。以下のようにキロベース（KB）の長さで、このグラフィカルな表示でとしてuserfileからすべての入力シーケンスは、1つの文字列に連結され、X軸上に水平の黒い線として提示。入力シーケンスに沿って、すべてのコンテンツが豊富な地域は、青い"上向き"スパイク、そして赤の"下向きの"スパイクのような内容の乏しい領域としてマークされます。コンテンツリッチコンテンツ悪い窓の合計数は、この図の下部にある凡例（それぞれ32と19、）でparenthsesに示されています。図は、相対的な豊かさとMRIの領域の配置を示すのに役立ちます。一方、具体的な詳細は、出力ファイル（図3参照）に示されている。このファイルでは、コンテンツが豊富なまたは貧困層の基準とそれらの座標と一致するすべてのヌクレオチド配列のセグメントは、入力ファイルに沿って、連続した位置に応じてリストとしてユーザに利用可能です。
選択したシーケンスのためのMRI解析終了後、ユーザーは、パラメータおよび/または、入力ファイルに変更を加えることにより、同じWebページに新しいプロセスを起動することができます。例えば、同じMRIのパラメータを使用して以前に生成されたランダムサンプル＃1を検討するために、ユーザーが唯一の選択肢を分析し、"userfile_rand1_4"ファイルを選択してファイルを変更する必要がありますし、再度分析Fileボタンを押してください。新しいファイルやグラフィック表示が古いものに置き換えられます。それぞれの"セッションのlable"（GMRI識別子）未満の試験の結果と数値は保存され、最後のアクティビティから二週間のために利用できるようにされます。結果/図を保存するために、必要に応じてURESは永久に、ユーザーは、" ダウンロードファイル "タブ（一番上の行）を選択して、セッション全体または個別のファイルをダウンロードする必要があります。
このMRI AnalyzerのWebページでユーザーが勉強することができます
- （G + C）（+ T）が豊富と豊富な地域
- プリン（+ G） - リッチとピリミジン（C + T）豊富な地域
- ケト（G + T） - 豊富なアミノ酸（A + C）が豊富な地域
- 豊富とA -貧困地域
- G -リッチやG -貧困地域
- T -リッチおよびT -貧困地域
- CリッチとC -貧困地域
ゲノムMRIの最新リリースは、Z - DNAの立体構造を形成する可能性がプリン（R）/ピリミジン（Y）が交互のパターンを持つ豊かな地域を研究するための新しいオプションがあります。現在、このオプションは、リンク"Z - DNA"から入手可能であり、それは他の上記のMRIの地域と同じ単位で機能します。ユーザーはスキャンウィンドウにジヌクレオチドの重複（RY + YR）の数の上限と下限のしきい値を選択する必要があります。プログラムは、同様のグラフィカルな出力やプリンおよびピリミジンを交互に豊かにし、枯渇したDNAセグメントのファイルを生成します。推定上のZ - DNA領域は非常に（レビューF＆F 2011年参照）R / Y拠点を交互に濃縮する必要があります。

6。 ゲノムMRIパッケージ（オプション）の中で追加のプログラム。

ゲノムMRIリソースも非常に特定のランダムシーケンスを生成するための2つの高度なオプションがあります。彼らは"MRIジェネレータ "と一番上の行の"CDSジェネレータ "タブから利用できます。

MRIジェネレータは、入力ファイルと同じオリゴヌクレオチド組成（SRIジェネレータに似ている）で無作為化シーケンスを作成します。ただし、それに加えて、無作為化シーケンスは、ユーザが指定した特定のMRIパターンを模倣する。このウェブページ内でユーザーがリストボックスから模倣される特定のMRIパターンを指定する必要があります。リストボックスには、MRIアナライザ （例："userfile_GC_50_35 .. 15"）によってこのセッションで検討されているすべてのパターンが含まれています。このオプションを使用して生成されたランダムな順序は、選択された入力ファイルと同じオリゴヌクレオチド組成と"userfile_GC_50_35 .. 15"に見られるようにと貧困層のパターンも同じGC -リッチを持つことになります。
CDSジェネレータは、タンパク質コード配列のランダム化に使用されます。それは、ユーザー指定の入力でコード化されたものと同じアミノ酸配列を保持します。さらに、プログラムはユーザが選択した入力テーブルで指定されていると同じコドンとジ - コドンバイアスを保持します。 CDSの発電機のオンライン版には、入力としてタンパク質配列を受け入れます。プログラムのすべてのその他のオプションは、メインゲノムMRI WebページからダウンロードできるスタンドアロンのPerlスクリプトを経由して提供されています。

7。代表的な結果

このプロトコルは、ユーザーが塩基配列の組成不均一性を研究することができます。重要なのは、それはまた、入力シーケンスのように近似するオリゴヌクレオチド組成の無作為化シーケンスのさまざまな生成をサポートしています。（例えば、プリン体を多く含む、（G + T通常、複雑な真核生物のゲノム配列は、組成物中に均質ではなく、むしろ特定のヌクレオチドによって豊かに配列セグメントの複雑なモザイクを表す）が豊富な、（+ T）が豊富な、など）。ミッドレンジのスケール（30から1000塩基対）で、これらのパターンには、上部の青色のスパイクと低赤いスパイクなどのコンテンツに乏しいのセグメント（図1および図2を参照）として、コンテンツが豊富なセグメントを選択されていますMRIアナライザのグラフィカルな出力によって視覚化されます。通常、天然の配列（図1）内の任意のコンテンツリッチとコンテンツの乏しい領域の数は同じオリゴヌクレオチドを有する対応する無作為化シーケンスの地域の同じタイプ（図2）の数よりも倍程度である組成物。ヌクレオチド組成のミッドレンジの不均一性を持つこれらのシーケンスのセグメントは、ユーザーが関心を持つ可能性があります。彼らは、さらなる調査のためのゲノムMRIの出力ファイルから入手できます。

figure-protocol-8065
図1、ステップ5.7からMRIアナライザのグラフィカルな出力の例。結果は44のヒトイントロンのサンプルで得られている。青いバーは、これらのイントロンに沿ってGC -リッチ領域の位置を表します。赤いバーは、GC -乏しい（またはAT -リッチ）MRI領域を表します。 y軸は、特定のコンテンツタイプの上限と下限のしきい値が含まれています。

figure-protocol-8353
ランダムシーケンス"userfile.rand1_4"については、図2。MRI アナライザの出力。
グラフィカSRIジェネレータのプログラムを使用してランダムに生成されたシーケンス内のMRIのCALを表現。

figure-protocol-8591
図3。MRI アナライザからテキスト出力ファイルの最初の例。
プログラムによって検出されたすべてのコンテンツリッチとコンテンツの乏しいシーケンスは、最後（4番目）の列に表示されます。窓の数で測定されたそれらの相対的な位置は、、最初の列に表示されます。 2番目と3番目の列は、それぞれコンテンツリッチコンテンツの乏しい地域、の指標です。

ディスカッション

ミッドレンジのスケールで不均一なヌクレオチド組成（30〜1000ヌクレオチド）を持つ領域が複雑な真核生物のゲノムに有り余るものであり、（遺伝子間領域、イントロン、エクソンの翻訳領域、反復要素）の任意の場所を見つけることができます。これらの領域は頻繁に異常なDNAのコンフォメーションに関連付けられています。例えば、purine-/pyrimidine-richシーケンスは、DNAのtriplexes（H - DNA）を形成する傾向があり、交互にプリン/ピリミジン塩基とシーケンスは、Z - DNAのコンフォメーションに関連付けられている、（G + C）が豊富な地域での構造異常を示すB -等（フェド＆フェドロワ2010年レビュー）、 - 、DNAとバックボーンの切断を起こしやすい可能性がある要素をほどくDNA（A + T）豊富な地域では珍しい構造を形成するかもしれない。これらのミッドレンジパターン（例えば、（G + T）が豊富な地域）のいくつかはほとんど調べていないと、まだ徹底的な調査と認識をお待ちしていますされています。私たちのゲノムMRIのWebリソースの主な目的は、彼らのさらなる実験的解析とそれらの可能な機能の探査のためのこれらのMRIの領域の識別にユーザを支援することです。 MRIの領域の知識が組み込まれ、遺伝子予測プログラムの新世代（シェパード2010）改善し、ゲノム機能と特性の理解を進めることができる。

開示事項

利害の衝突は宣言されません。

謝辞

我々は、 ゲノムMRI Webページの管理のためのサミュエルシェパード、ピーターBazeley、そしてジョンDavidベルに感謝しています。この作品は、"イントロン細胞の役割の解明"[助成金番号MCB - 0643542]国立科学財団のキャリア賞によってサポートされていました。

資料

インターネットとコンピュータ
検査のための塩基配列を持つファイル。

参考文献

Bechtel, J. M., Wittenschlaeger, T., Dwyer, T., Song, J., Arunachalam, S., Ramakrishnan, S. K., Shepard, S., Fedorov, A. Genomic mid-range inhomogeneity correlates with an abundance of RNA secondary structures. BMC Genomics. 9, 284-284 (2008).
Prakash, A., Shepard, S., Mileyeva-Biebesheimer, O., He, J., Hart, B., Chen, M., Amarachiniha, S., Bechtel, J., Fedorov, A. Molecular forces shaping human genomic sequence at mid-range scales. BMC Genomics. 10, 513-513 (2009).
Fedorov, A., Fedorova, L. Chapter 3: An Intricate Mosaic of Genomic Patterns at Mid-range Scale. Advances in Genomic Sequence Analysis and Pattern Discovery. , 65-91 (2010).
Shepard, S. S. Chapter 4: Binary-abstracted Markov models and their application to sequence classificatio. The characterization and utilization of middle-range sequence patterns within human genome [dissertation]. , The University of Toledo. 57-157 (2010).

転載および許可

このJoVE論文のテキスト又は図を再利用するための許可を申請します

許可を申請

さらに記事を探す

51 DNA

This article has been published

Video Coming Soon

Keep me updated: