可動要素は、ヒトの遺伝的不安定性の主要な原因の1つです。異なる組織や条件での発現を理解することは、ゲノムへの影響を理解するために重要です。L1転写物の膨大な量は、L1のライフサイクルに何の役割も持たない他の転写物にL1関連配列を受動的に含んだ結果である。
私たちのアプローチは、この無関係な背景を排除します。このプロトコルは、任意のモバイル要素、あるいは任意の配列ゲノム中のウイルスの研究に適応することができる。遺伝子座間の差別を可能にするためには、少なくとも何らかの配列変化が必要である。
この方法の視覚的なデモンストレーションは、座遺伝子固有のレベルで発現したL1反復要素を自信を持って識別するために必要なストリンジェンシーとケアを説明する上で重要です。テキストプロトコルに記載されているように、細胞質RNA抽出と次世代シーケンシングでこの手順を開始します。細胞質RNAを選択することにより、核内で発現したイントロニックmRNA内で見つかったL1関連の読み取り値が著しく枯渇する。
シーケンシングライブラリ調製では、L1sと無関係の転写ノイズを低減するために取られた別のステップは、ポリアデニル化転写物の選択を含む。これは、非mRNA種に見られるL1関連の転写ノイズを除去します。コマンドラインを Linux 端末に入力して、bowtie1 を使用して目的の RNA シークサンプルを使用して、アライメントパラダイムシーケンスング FASTQ ファイルを実行します。
このアライメント戦略では、トランスクリプトが一意に並び、包括的なゲノム検索と一致する必要があります。この戦略は、単一の L1 軌跡に特化した読み取りマッピングの呼び出しに対する信頼を提供します。Strand は、SAMtools コマンドと Linux コマンドを使用して、トップ ストランドとボトム ストランドを選択して出力 BAM ファイルを分離します。
標準の次世代シーケンス プロトコルを使用していない場合、実際のフラグ値は異なる可能性があることに注意してください。このストランド分離ステップは、潜在的なアンチセンスL1関連マッピング読み込みを排除することによって、L1レトロトランスポーズとは無関係のL1配列内で生成される転写ノイズを除外するために働く。ベッドツールを使用して L1 loci の注釈に対する読み取り数を生成します。
最初にコマンド ラインを入力して、上端のセンス方向の L1 の読み取りカウントを生成し、次にコマンド ラインを入力して、底鎖のセンス方向の L1 の読み取りカウントを生成します。L1 を識別するために使用される注釈は、機能プロモーター領域を持つ全長 L1 を表し、切り捨てられた L1s から発生するバックグラウンド ノイズを除去します。
生成された読み取りカウント テキスト ファイルの上にコピーして、下のストランドに対して作成され、ページにminus_bottomラベルを付けます。列 J Copy で見つかった読み取りの最大数から最小数に基づいてすべての列を並べ替えます。列 J. で見つかった読み取りの最大数から最小数に基づいてすべての列を並べ替え、ページにtop_plusラベルを付けます。
結合されたラベルの付いた 3 番目のページを作成し、minus_bottomページとplus_topページから 10 回以上の読み取りですべての loci を追加します。列J.Toに見られる読み取りの最大数から最低数に基づいてすべての列を並べ替え、特にL1 loci内または近くのゲノム領域のマッピング可能性を支援し、対象となる種の全ゲノムペアおよびシーケンシングファイルをNCBIからダウンロードし、テキストプロトコルに記載されているようにFASTQファイルに変換した。次に、ファイルを読み込む前に、統合ゲノミクス ビューア(略称 IGV)で表示できるように BAM ファイルにインデックスを付けます。
IGVでは、注目の参照ゲノムを読み込み、注目された遺伝子を可視化する。また、全長L1要素のアノテーションファイルをロードして、L1アノテーション、ヒトRNA発現用のBAMファイルを可視化し、ヒトゲノムマッピングの目的サンプルおよびBAMファイルからマッピングされたトランスクリプトを可視化し、ゲノム領域のマッピング可能性を評価する。各 BAM ファイルに関連付けられているカバレッジ行とジャンクション行を削除します。
すべての IGV トラックが 1 つの画面に収まるように、ヒト RNA の発現とヒトゲノムのマッピング可能性のために BAM ファイルを圧縮します。L1レトロトランスポーズとは無関係のL1配列の転写ノイズを除去する最後の重要なステップは、RNAシークトランスクリプトをマッピングしたことを特定した全長L1の手動作成です。手動キュレーションは、その周囲のゲノム環境のコンテキストで発現した各L1遺伝子座の可視化を含み、発現がL1プロモーターから生ずることを確認する。
スプレッドシート結合ページにリストされているL1 lociの座標を使用して、IGVの周囲のゲノム環境を調べることによって、各L1遺伝子座を一意にマッピングされたトランスクリプトで手動でキュレーションします。L1方向に最大5キロベースのリードがない場合は、独自に本物の表現を行う軌跡をキュレーションします。行に緑色のラベルを付け、それが本物のL1である理由を書き留めます。L1 の上流の領域がマップ可能でない場合、この規則の例外が存在します。
この場合は、行に赤い色のラベルを付け、L1プロモーターの上流の領域の発現を評価できないため、L1の式を確実に決定できないことに注意してください。最大5キロベースの読み取りがある場合は、独自のプロモーターから本物に表現しないように軌跡をキュレーションします。行に赤のラベルを付け、L1 が本物で表現されていない理由をメモします。発現した遺伝子のイントロン内で同じ方向に発現している場合、L1の上流、L1の上流読み込みで発現遺伝子の下流にある場合、またはL1の上流読み込みで無情報化発現パターンを持つ不表異調発現パターンに対して、同じ方向に発現している場合は偽として評価する。L1 プロモーター開始サイトに直接重なる読み取りが最小である場合、L1 の上流にだけしか読み取りがない場合は、この規則の例外が適用されます。このような L1 ケースの上流に他の読み取りがない場合は、この L1 を本物に表現することを検討してください。
行に緑色のラベルを付け、それが本当に表現されたL1である理由をメモします。ローカスへのマッピングされた読み取りのパターンが特定の L1 のマップ可能性の領域と相関しない場合は、L1 軌跡を偽である可能性が高いかどうかをキュレーションします。L1 が高度にマッピング可能であるが、L1 内の凝縮領域に読み取りが積み重なっている場合、それ自身のプロモーターから L1 表現に関連する可能性が低く、エキソンや LDR のような情報のないソースからのものである可能性が高くなります。このような場合は、lociをオレンジ色にして、なぜ軌跡が疑わしいのかを確認します。
UCSCゲノムブラウザでL1の位置を確認し、疑わしい積み重ねの原因を確認します。散発的に無情報化された領域のゲノム環境内にある場合は、本物の表現を行わない軌跡をキュレーションする。読み取りは、L1の上流に10キロベースを表わしてもよい。しかし、10キロベースかそこらごとに、マッピングされた読み取りがあり、それらの読み取りのいくつかはL1と一致しています。これらのL1sは、ゲノム表現の無情報化パターンのために読み取りをマッピングしている可能性が高い。
このような場合は、lociを赤としてキュレーションし、軌跡が疑わしい理由をメモします。各L1 lociのマッピングを支援するために、ベッドツールプログラム、FL-L1アノテーション、および整列されたゲノムシーケンスデータを使用して、L1 lociに一意にマッピングされた読み取りの数を決定します。400 のユニークな読み取りが一致している場合に、完全なカバレッジ マップ機能を持つ L1 軌跡を指定します。
個々のL1に対して、ゲノムDNAアライメント読み取り値を400にスケールアップまたはダウンするのに必要な因子を決定します。個々の L1 の遺伝子のマッピング可能性に応じて発現のスケール測定を持っている場合は、個々の本物に発現した L1s に整列する RNA トランスクリプト読み取りの数を係数に掛けます。各ステップは、独自のプロモーターから発現されるL1要素と、L1のライフサイクルとは無関係の他のトランスクリプトにL1要素を含めることができるすべての方法の違いを強調するために使用されます。ここに示されているトランスクリプトは、DU145前立腺腫瘍細胞株で発現されるヒトゲノムにおける全長無傷L1sに一意にマップするトランスクリプト読み取りである。
黒で特定のlociは、手動キュレーションの後に本物に表現されています。そして、赤で特定のlociは、手動キュレーションの後に本物で表現された読み取りとして拒否されます。灰色では、それぞれに10読み取りマッピングを持つlociです。
これらのlociはトランスクリプト読み取りのごく一部を表すので、手動でキュレーションされませんでした。マッピングされた読み取り値がゼロであるため、約 4500 個の loci はグラフィカルには表示されません。手動キュレーションの後、DU145の特定のL1 lociを本物に表現するために一意にマップする読み取りの数は、175読み取りから10読み取りの任意に選択された最小カットオフまで範囲です。
各軌跡のマッピング可能性スコアに対して読み取りを調整すると、ほとんどの遺伝子座の式の定量が増加しました。DU145のマッピング可能性補正を伴う特定のL1 lociを本物に表現するために一意にマッピングされた読み取りの数は、612から4読み取りまで及び、最も高い発現遺伝子座の並べ替えがありました。各ステップは、転写バックグラウンドノイズの高レベルを低減する上で重要な役割を果たしています。
しかし、最も重要なステップは、それ自身のプロモーターの転写を確認するために、各L1遺伝子座の手動キュレーションです。DU145細胞で生体情報学的に同定されたL1遺伝子座の約50%が、他の転写源に由来するL1バックグラウンドノイズとして拒絶され、信頼性の高い結果を生み出すために必要な厳しさを強調した。L1の最年少を特定するために、我々は、より長い読み取りを利用し、よりユニークなマッピングを可能にするPacBioのようなL1トランスクリプトとシーケンシング技術の5プライムRACE選択を使用することをお勧めします。
このアプローチにより、L1発現パターンを厳密かつ確実に特定し、定量化することができます。これは、個々のL1遺伝子座の規制と潜在的な影響をよりよく理解する道を開きます。