Method Article
هنا ، نقدم نهج المعلوماتية الحيوية وتحليلات لتحديد خط-1 التعبير علي مستوي معين.
عناصر طويلة تتخللها-1 (خطوط/L1s) هي العناصر المتكررة التي يمكن نسخ وادراج عشوائيا في الجينوم مما ادي إلى عدم الاستقرار الجينوم والطفرات. فهم أنماط التعبير من L1 مكاني علي المستوي الفردي وسوف تقرض لفهم بيولوجيا هذا العنصر الطفرة. هذا العنصر المستقل يشكل جزءا كبيرا من الجينوم البشري مع أكثر من 500,000 نسخه ، علي الرغم من ان 99 ٪ يتم اقتطاعها ومعيبه. ومع ذلك ، فان وفره النسخ المعيبة وعددها المهيمن يجعل من الصعب تحديد الL1s المعرب عنها بشكل أصلي من المتواليات ذات الصلة بالرقم L1 المعبر عنها كجزء من جينات أخرى. ومن الصعب أيضا تحديد الموضع L1 المحدد الذي يعبر عنه بسبب الطبيعة المتكررة للعناصر. التغلب علي هذه التحديات ، نقدم نهج المعلوماتية البيولوجية المتسلسلة لتحديد التعبير L1 عند مستوي معين. وباختصار ، ونحن نجمع الحمض الريبي الخلوي rna ، حدد للنصوص polyadenylated ، والاستفادة من التحليلات الخاصة حبلا الحمض الريبي النيبالي-Seq لخريطة فريد يقرا إلى L1 مكاني في الجينوم المرجعي البشري. نحن الاشراف بصريا كل موضع L1 مع يقرا المعينة بشكل فريد لتاكيد النسخ من المروج الخاصة بها وضبط النص المعين يقرا لحساب القدرة علي كل موضع L1 الفردية. تم تطبيق هذا النهج علي خط خليه ورم البروستاتا ، DU145 ، لإثبات قدره هذا البروتوكول للكشف عن التعبير من عدد صغير من العناصر L1 بالطول الكامل.
ريتروترانسسونز هي عناصر الحمض النووي المتكررة التي يمكن "القفز" في الجينوم في اليه النسخ واللصق عبر وسيطه RNA. ومن المعروف مجموعه فرعيه واحده من الرجعية العناصر الطويلة تتخللها-1 (خطوط/L1s) ويشكل سدس الجينوم البشري مع أكثر من 500, 0000 نسخ1. علي الرغم من وفره, معظم هذه النسخ هي معيبه واقتطاعها مع ما يقدر فقط 80-120 العناصر L1 يعتقد ان تكون نشطه2. A L1 كامل طول حوالي 6 كيلو بايت في الطول مع 5 ' و 3 ' المناطق غير المترجمة, المروج الداخلية والمرتبطة المضادة للشعور المروج, اثنين غير متداخلة إطارات القراءة المفتوحة (orfs), واشاره والذيل polya3,4,5 . في البشر ، تتكون L1s من الأسر الفرعية التي تتميز بالعمر التطوري مع الأسر الأكبر سنا التي تراكمت طفرات تسلسل أكثر تفردا مع مرور الوقت مقارنه مع أصغر عائله فرعيه ، L1HS6،7. L1s هي الوحيدة المستقلة ، والرجعية البشرية و ORFs ترميز النسخ العكسي ، والكريات ، و RNPs مع الجيش النيبالي للربط والانشطه المرافقة المطلوبة لتغيير المسار وادراجها في الجينوم في عمليه المشار اليها باسم الهدف-تستعد عكس النسخ8،9،10،11،12.
وقد أفيد بان التبديل التحديثي لL1s يسبب امراض الإنسان الجرثومية البشرية من خلال مجموعه متنوعة من أليات بما في ذلك الطفرات الذهنية ، وحذف المواقع المستهدفة ، وأعاده الترتيب13و14و15و 16. في الاونه الاخيره تم الافتراض ان L1s قد تلعب دورا في اونكوجينيسيس و/أو تطور الورم كما لوحظ زيادة التعبير واحداث الادراج من هذا العنصر الطفرات في مجموعه متنوعة من السرطانات الظهاريه17,18 . ويقدر ان هناك واحده جديده L1 الادراج في كل 200 الولادات19. ولذلك ، فمن المحتم ان نفهم بشكل أفضل بيولوجيا التعبير عن L1s بنشاط. وقد جعلت الطبيعة المتكررة ووفره النسخ المعيبة الموجودة ضمن نصوص الجينات الأخرى هذا المستوي من التحليل تحديا.
لحسن الحظ ، مع ظهور تقنيات التسلسل الانتاجيه العالية ، تم اجراء خطوات واسعه لتحليل وتحديد التعبير الأصلي L1s علي مستوي محدد الموضع. هناك الفلسفات المختلفة حول كيفيه تحديد أفضل التعبير عن L1s باستخدام RNA الجيل التالي التسلسل. ولم يقترح سوي نهجين معقولين لرسم خرائط المحاضر الحرفية L1 علي المستوي الخاص بالمقر. واحده يركز فقط علي النسخ محتمله ان يقرا من خلال ال [1] [بولدتيلايشن] اشاره وداخل [فلكينغ] تسلسل20. نهجنا يستفيد من الاختلافات تسلسل الصغيرة بين العناصر L1 والخرائط فقط تلك التي الحمض الريبي النيبالي-Seq يقرا ان خريطة فريدة من نوعها لأحد الموضع21. كل من هذه الطرق لديها قيود من حيث كميات من مستويات النص. يمكن تحسين كميات من المحتمل من خلال أضافه تصحيح ل ' mappability فريدة ' من كل الموضع L121، أو استخدام خوارزميات أكثر تعقيدا ان أعاده توزيع القراءات متعددة الخرائط التي لا يمكن تعيينها بشكل فريد إلى موضع معين22. هنا ، سنقوم بالتفصيل في خطوه بخطوه طريقه استخراج RNA والجيل التالي من التسلسل وبروتوكول المعلوماتية الحيوية لتحديد العناصر التي تم التعبير عنها L1 علي مستوي محدد الموضع. نهجنا ياخذ الاستفادة القصوى من معرفتنا بيولوجيا العناصر الوظيفية L1. وهذا يشمل معرفه ان العناصر الوظيفية L1 يجب ان تتولد من المروج L1 ، التي بدات في بداية العنصر L1 ، يجب ان تترجم في السيتوبلاسما وان النسخ الخاصة بهم يجب ان تكون مشتركه الخطي مع الجينوم. لفتره وجيزة ، ونحن نجمع الطازجة ، الحمض الريبي الخلوي الجديد ، حدد للنصوص polyadenylated ، والاستفادة من التحليلات الخاصة حبلا الحمض الريبي النيبالي-Seq لخريطة فريد يقرا إلى L1 مكاني في الجينوم المرجعي البشري. يقرا هذا يحاذي بعد ذلك بعد بعد موسعه يدوية [كرايشن] ان يحدد ان نص يقرا ينشا من ال [L1] مروج قبل يعين موضع كاصليه عبر عن [L1]. نحن نطبق هذا النهج علي DU145 عينه خط خليه ورم البروستاتا لتوضيح كيف انه يحدد عدد قليل نسبيا من الأعضاء المستنسخين بنشاط من كتله النسخ غير النشطة.
1. استخراج الحمض الريبي الخلوي السيتوبلازمي
2-تسلسل الجيل التالي
3. إنشاء التعليقات التوضيحية (اختياري إذا كان أحد التعليقات التوضيحية موجودة)
4. قراءه خط أنابيب المحاذاة لتحديد أعرب L1s
الخيار | وصف |
– ع | هذا تفاصيل عدد مؤشرات الترابط التي يجب ان يستخدمها الكمبيوتر تشغيل المحاذاة. سوف ذاكره الكمبيوتر أكبر تسمح المزيد من المواضيع ويجب ان تكون تجريبية د. |
– م 1 | هذا يخبر البرنامج فقط بقبول القراءات التي لها تطابق واحد في الجينوم أفضل من اي تطابق جينوم آخر. |
– y | هذا هو مفتاح التبديل الذي يجعل البحث عن الخرائط لكافة التطابقات الممكنة وعدم السماح لها بالإنهاء بعد الوصول إلى عدد ثابت من التطابقات. |
– v 3 | يسمح هذا البرنامج فقط لاستخدام الذاكرة للقراءة المعينة مع 3 أو اقل من التباينات إلى الجينوم. |
– X 600 | يسمح هذا فقط بالقراءة المقترنة التي الخريطة ضمن 600 القواعد من بعضها البعض. وهذا يتاكد من ان الأزواج المقروءة مشتركه في الجينوم وتختار ضد الجزيئات التي تعالج جزيئات RNA المعالجة. |
– chunkmbs 8184 | يقوم هذا الأمر بتعيين ذاكره اضافيه لمعالجه الكمية الكبيرة من المحاذاات الممكنة لكل قراءه ذات صله ب L1. |
الجدول 1: خيارات سطر الأوامر ل Bowtie.
5. اليدوي الكرايشن
6. قراءه استراتيجية المحاذاة لتقييم القدرة في الجينوم المرجعي (اختياري إذا كان أحد لديه مجموعه بيانات الحمض النووي الوراثية الانحياز القائمة)
تم تطبيق الخطوات الموضحة أعلاه والموصوفة بيانيا في الشكل 1 علي خط خليه ورم البروستاتا البشرية DU145. عينت ال [رنا] عينه كان [سيتوبلاسميكالي] وكان [أين-جن] متسلسلة في [بولي-ا] ينتقي, [ستراند-ول], يقترن-نهاية بروتوكول. وباستخدام Bowtie ، تمت محاذاة ملفات التسلسل المزدوج التي تسمح بالمطابقة الفريدة التي تتطابق فيها القراءة المزدوجة مع الموقع الجيني بالمقارنة مع اي موقع جيني آخر. تم محاذاة ملفات تسلسل DU145 إلى الجينوم المرجعي البشري إنشاء ملف bam ، الذي يتوفر عند طلب الكاتب. باستخدام أدوات السرير ، تم استخراج البيانات من ملفات bam المفصولة DU145 علي عدد القراءات التي تم تعيينها إلى الطول الكامل L1s. وتم فرز تلك القراءات في جدول بيانات من الأكبر إلى الأصغر وبتنسيق يدوي من خلال فحص البيئة الجينية حول كل موضع من المحور L1 في IGV لتاكيد صحتها (الجدول التكميلي 1). إذا تم تنسيق العينة ليتم التعبير عنها بشكل أصلي ، فقد تم تلوينها باللون الأخضر مع شرح لقبولها في العمود الأيمن. وترد في الشكل 2الف-باءأمثله علي المبادئ التوجيهية L1 التي قبلت ان يتم التعبير عنها بشكل أصلي بعد الإرشادات الموصوفة في قسم الأساليب. إذا تم رفض عينه ليتم التعبير عنها بشكل أصلي ، فانه تم تلوينها باللون الأحمر مع سبب الرفض علي اليمين معظم العمود. وترد بالتفصيل في الشكل 2جيم-هاء أمثله علي المواقع التي رفضتها المادة L1 بسبب التعبير عن مروج آخر غير المبادئ التوجيهية التالية الوارد وصفها في قسم الأساليب.
هنا ، تمت دراسة L1s كامله الطول فقط مع منطقه مروج سليمه. إذا لم يتم اجراء هذا التمييز ، يتم إدخال مصدر كبير من الضوضاء التي تنشا من الL1s المقتطعة. وترد أمثله لL1s المقتطعة في DU145 في الشكل 3الف-باء حيث تم تحديدها علي انها تتضمن القراءات المتسلسلة الخاصة ب RNA التي تم تعيينها بصوره فريدة. في IGV ، ومع ذلك ، فمن الواضح ان هذه النصوص لم تبدا من L1 المقتطعة ، ولكن من ادراج تسلسل L1 في الجينات أو المصب من الجينات المعرب عنها.
عموما في DU145 ، والنسبة المئوية لكامل طول l1 مكاني ويقرا التي تم رفضها كما أعرب أصلي L1s بعد الكرايشن اليدوي هو تقريبا 50 ٪ (الجدول التكميلي 2) مما يدل علي مستوي عال من النص الذي تم تعيينه l1 يقرا التي من شانها ان والا يتم تسجيلها علي انها إيجابيات كاذبه دون الcuration اليدوي. علي وجه التحديد ، في DU145 كانت هناك 114 إجمالي الطول الكامل لل L1 مكاني ان يكون المعين يقرا بشكل فريد في اتجاه الشعور مع ما مجموعه 3,152 يقرا ، ولكن كان هناك فقط 60 مكاني المحددة ليتم التعبير عنها من المروج الخاصة بهم بعد الكرايشن اليدوي مع 1,879 يقرا ( الجدول التكميلي 1). وهذا هو الحال حتى عندما اتخذت خطوات للحد من التعبير لا علاقة لها البيولوجيا L1 عن طريق اختيار mRNA سيتوبلازمي. لاحظ انه تم رفض الموضع مع اعلي مستوي من النصوص المعينة في DU145 لأنه لم يكن التعبير الأصلي L1 (الشكل 4). وبشكل عام ، فان عدد النصوص المعينة إلى نطاقات L1 المحددة يتراوح بين المقبولة والمرفوضة من النوع L1 علي النحو المعرب عنه بعد التجعيد اليدوي (الشكل 4).
بعد الcuration اليدوي ، وعدد من يقرا ان خريطة فريدة من نوعها بشكل أصلي وأعرب محدده L1 مكاني في DU145 نطاق من 175 يقرا إلى الحد الأدنى المختار تعسفا قطع من 10 يقرا (الشكل 5). هذا النهج لتحديد النص الذي تم تعيينه بشكل فريد يقرا إلى L1s يحد من القدرة علي قياس التعبير بدقه. لحساب هذا الأمر ، تم إنشاء عامل تصحيح لكل موضع استنادا إلى قابليه التشغيل الخاصة به. لإنشاء عامل التصحيح هذا ، تم استخدام أدوات السرير الاولي لاستخراج عدد القراءات المعينة بشكل فريد من ملف الجينوم الجيني في هيلا الذي تمت محاذاته لكل الطول الكامل ل L1 مكاني و بياني تلك مكاني من اعلي إلى ادني نص معين يقرا (تكميلي الشكل 1). عينت هو كان تعسفا ان L1s مع 400 يقرا تلقي يشبع تغطيه [اببيليتي]. تم تحجيم عدد القراءات القادرة علي الخريطة إلى موضع L1 في نموذج التسلسل الجيني هيلا بالنسبة إلى 400 قراءه وانه تم ضرب العدد الذي تم تحجيمه إلى عدد القراءات التي تم تعيينها إلى كل التعبيرات الاصليه l1 مكاني في DU145 (الجدول التكميلي 2) . وكما هو متوقع ، جاءت العناصر L1 التي كانت لها درجات تصحيح أكبر لقابليه النفاذ من الأسر الفرعية الأصغر سنا مثل L1PA2 (الجدول التكميلي 2). وبمجرد تعديل القراءات لدرجات القدرة علي التحمل في كل موضع ، زادت كميه التعبير بالنسبة لمعظم المواضع (الشكل 6). وتراوح عدد القراءات التي تم تعيينها بشكل فريد إلى التعبير الأصلي المحدد L1 مكاني مع تصحيحات mappability في DU145 من 612 إلى 4 يقرا وكان هناك أعاده ترتيب من اعلي إلى ادني التعبير عن مكاني (الشكل 6).
الشكل 1: تخطيط سير العمل.
وصفت بيانيا الخطوات ان يعين L1s يعبر في عينه انسانيه. لاحظ ان الخطوتين 1 و 2 لا تحتاج إلى تكرار إذا كانت الملفات المناسبة متوفرة بالفعل. قد يتم تحميل هذه الملفات المناسبة من ملف الملحق 1a-b وملحق ملف 2. تشير المربعات باللون الأحمر إلى الخطوات التي يستخدم فيها برنامج تغطيه أدوات السرير لحساب عدد القراءات التي يتم تعيينها إلى L1s في نفس اتجاه الإحساس. هذه مكاني مع رسم الخرائط المنحى المعني يقرا هي L1s التي ينبغي ان يتم تنسيقها يدويا. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.
الشكل 2: أمثله من المواقع التي تم تنسيقها في DU145.
تحميلها في IGV هي الجينوم المرجعي ، ملف التعليق التوضيحي الكامل الطول L1 gff مطابقه الإصدار الجينوم المرجعي (ملف الملحق 1) ، وملف DU145 bam ، وأخيرا الجينوم هيلا بأم ملف لتقييم القدرة ، والتي هي كل ما هو متاح علي المؤلف طلب. وقد أضيفت أسهم للمساعدة في التصور من اتجاه L1 المشروح. وتوجه السهام ويقرا باللون الأحمر في تسلسل من اليمين إلى اليسار. وتوجه السهام ويقرا باللون الأزرق في تسلسل من اليسار إلى اليمين. ا) في igv ، يظهر هذا الموضع L1 ليتم التعبير عنه من المروج الخاصة به كما ان هناك لا يقرا المنبع من L1 في اتجاه الشعور لأكثر من 5 كيلوبايت. هذا L1 لديه قدره منخفضه ، فانه ليس في الجينات ، ولديه أدله علي النشاط المتوقع المروج انتيسنس26. ب) في igv ، يبدو هذا الموضع L1 ان يعبر عن المروج الخاصة به كما انه لا توجد قراءه المنبع l1 في اتجاه الشعور لأكثر من 5 كيلوبايت. هذا L1 لديه قدره منخفضه وهو داخل جين من الاتجاه المعاكس. ج) في igv ، تم رفض هذا الموضع l1 باعتباره l1 المعرب عنها كما ان هناك يقرا المنبع في نفس الاتجاه في غضون 5 كيلوبايت. هذا L1 داخل مورثه من ال نفسه اتجاه لذلك النص يقرا يكون علي الأرجح أتيت من المروج من ال يعبر مورثه. d) في igv ، تم رفض هذا الموضع l1 كما المعلنة l1 كما ان هناك يقرا المنبع في نفس الاتجاه في غضون 5 كيلوبايت. هذا L1 هو المصب من الجينات التي أعرب عنها بشده في نفس الاتجاه التالي فان النص يقرا هي علي الأرجح الناشئة من المروج لذلك الجين المعرب عنها وتمتد إلى ما بعد الجينات الطبيعية المنهي. ه) في igv ، تم رفض هذا الموضع l1 كما التعبير عن l1 كما ان هناك يقرا المنبع في نفس الاتجاه في غضون 5 كيلوبايت. هذا L1 ليست داخل أو بالقرب من الجينات المشروحة في الجينات المرجعية التالي فان أصل هذه النصوص داخل والمنبع من عنصر L1 توحي الأمم المتحدة-المشروح المروج. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.
الشكل 3: ينشا ضجيج الخلفية من L1s المقتطعة أيضا.
لا يتضمن التعليق التوضيحي L1 L1s المقتطعة لأنها مصدر رئيسي للضوضاء في الخلفية. وقد أضيفت أسهم للمساعدة في التصور من اتجاه L1 المشروح. وتوجه السهام ويقرا باللون الأزرق في تسلسل من اليسار إلى اليمين. ا) الموضح هو مثال علي L1 المقتطعة في L1MB5 sufamily الذي هو 2706 bps. في [ايغف] هو واضحة ان اليقرا يتكون من امتداد مجري النهر من مورثه يعبر. ب) المعروض هو مثال آخر علي L1 المقتطعة. هذا L1 هو L1PA11 الذي هو 4767 bps طويلة. في [ايغف] هو واضحة ان ال يقرا تعيين بشكل فريد إلى ال [L1] يتكون من ال عبر عن [اكسن], اي ال [L1] ضمنت. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.
الشكل 4: يقرا النص تلك الخريطة بشكل فريد لكل الطول الكامل لL1s السليمة في الجينوم البشري المعرب عنه في DU145 خط خلايا أورام البروستاتا.
باللون الأسود هي المواقع المحددة التي يمكن التعرف عليها بشكل أصلي بعد التجعيد اليدوي اللون الأحمر هي المواقع المحددة التي سيتم رفضها كما تم التعبير عنها بشكل أصلي بعد القيام بعمليه التجعيد اليدوي. في الرمادي هي مكاني مع اقل من عشره يقرا تعيين لكل منهما. وحيث ان هذه المواقع تمثل جزءا صغيرا من النص يقرا ، لم يتم الاشراف عليها يدويا. علامات القراد x-محور دلاله علي كل 100 كامله الطول ، L1s سليمه. تقريبا 4,500 لا يتم عرضها بشكل رسومي كما كان لديهم صفر القراءة المعينة. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.
الشكل 5: يقرا النص ان الخريطة فريدة من نوعها ليعبر عن كامل طول سليمه L1s في DU145 البروستاتا خط الخلية الورم.
تظهر أرقام النص يقرا تلك الخريطة إلى مكاني محدده في خلايا DU145 بعد التجعيد اليدوي. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.
الشكل 6: يقرا الرسم البياني ليتم التعبير عنه بشكل أصلي عند تعديله بواسطة القابلية للتعديل.
تظهر أرقام القراءة النصية التي تم تعديلها بواسطة درجات mappability الخاصة بالمواقع المحددة التي تم تعيينها ليتم تنسيقها يدويا في L1 مكاني في خلايا DU145. يرجى النقر هنا لعرض نسخه أكبر من هذا الرقم.
الملف التكميلي 1: شروح لL1s البشرية الكاملة الطول والسليمة وفقا للتوجيه. (ا) FL-L1-BLAST_RM_minus. ب) FL-L1-BLAST_RM_plus. الرجاء الضغط هنا لتحميل هذا الملف.
الملف التكميلي 2: مخطوطات الحاسوب الفائق المستخدمة لاتمته خط أنابيب المعلوماتية الحيوية المفصل في القسم 4. الرجاء الضغط هنا لتحميل هذا الملف.
الشكل التكميلي 1: عينه الجينات الجينية المستخدمة لتحديد قابليه الاستخدام L1.
يظهر عدد من النصوص الجينية يقرا من نموذج خط الخلية هيلا ان الخريطة فريدة من نوعها لجميع 5,000 الطول الكامل L1 مكاني في الجينوم. تم تعيين ان L1 لديه التغطية الكاملة mappability عندما 400 يقرا الخريطة إلى L1. يرجى النقر هنا لتحميل هذا الرقم.
الجدول التكميلي 1: العملية اليدوية لL1s في DU145. يرجى النقر هنا لتحميل هذا الجدول.
الجدول 2 التكميلي: الL1s المنسق في DU145 مع تعديل قابليه الاستخدام. يرجى النقر هنا لتحميل هذا الجدول.
وقد ثبت ان النشاط L1 يسبب الضرر الوراثي وعدم الاستقرار المساهمة في المرض27,28,29. من ال تقريبا 5,000 [فول-لنغث] [L1] نسخ, فقط [ا فو] اثنا عشر [رتنايشنريلي] شباب L1s حساب للاغلبيه من [ريتروريبل] نشاط2. ومع ذلك ، هناك أدله علي انه حتى بعض كبار السن ، ريتروترانسبوسيتيونالي-incompentent L1s لا تزال قادره علي إنتاج الحمض النووي الضار البروتينات30. لنقدر تماما دور L1s في عدم الاستقرار الجينوم والمرض ، يجب فهم التعبير L1 علي مستوي محدد الموضع. ومع ذلك ، فان الخلفية العالية للتسلسلات ذات الصلة بالمستوي L1 المدمجة في RNAs الأخرى غير المرتبطة بالتبديل العكسي لل l1 تشكل تحديا كبيرا في تفسير التعبير L1 الأصلي. تحدي آخر في تحديد التالي فهم أنماط التعبير من الفردية L1 مكاني يحدث بسبب طبيعتها المتكررة التي لا تسمح العديد من تسلسل قراءه قصيرة للخريطة إلى موضع فريد واحد. للتغلب علي هذه التحديات ، قمنا بتطوير النهج الموصوف أعلاه في تحديد التعبير عن الفردية L1 مكاني باستخدام البيانات المتسلسلة RNA.
نهجنا مرشحات المستوي العالي (أكثر من 99 ٪) من الضوضاء المتحولة المتولدة من متواليات L1 التي لا علاقة لها بالتبديل العكسي L1 عن طريق اتخاذ عدد من الخطوات. الخطوة الاولي تنطوي علي اعداد الحمض الخلوي الريبي السيتوبلازمي. عن طريق اختيار ل RNA سيتوبلازمي ، القراءات ذات الصلة L1 وجدت داخل التعبير عن mRNA في النواة والمنضب إلى حد كبير. في اعداد مكتبه التسلسل ، خطوه أخرى اتخذت للحد من الضوضاء التبادلية لا علاقة لها L1s تشمل اختيار النصوص polyadenylated. وهذا يزيل الضوضاء المرتبطة بالنص L1 الموجودة في الأنواع غير mRNA. وتشمل الخطوة الأخرى التسلسل الخاص بالحبل من أجل تحديد وأزاله النصوص ذات الصلة بالاستشعار من النوع L1. استخدام تعليق توضيحي لL1s كامل الطول مع مناطق المروج الوظيفية عند تحديد عدد النسخ المتسلسلة الحمض الريبي النيبالي التي الخريطة إلى L1s أيضا يلغي الضوضاء الخلفية التي تنشا خلاف ذلك من L1s المقتطعة. وأخيرا ، فان الخطوة الحاسمة الاخيره في القضاء علي الضوضاء العابرة لمتواليات L1 غير المرتبطة بالتبديل العكسي L1 هي التحويل اليدوي لL1s الكاملة الطول التي تم تحديدها لتعيين النسخ المتسلسلة لل RNA. وينطوي الاعتماد اليدوي علي تصور لكل موضع من المواقع التي تم التعرف عليها بطريقه المعلوماتية الاحيائيه في سياق بيئتها الجينية المحيطة بها لتاكيد ان التعبير ينبع من المروج L1. تم تطبيق هذا النهج علي DU145 ، وهو خط خليه ورم البروستاتا. وحتى مع جميع الخطوات المتعلقة بالاعداد المتخذة للحد من الضجيج في الخلفية ، تم رفض ما يقرب من 50 في المائة من النسبة المئوية لل L1 التي تم تحديدها بيولوجيا في DU145 باعتبارها ضوضاء خلفيه L1 منشؤها مصادر أخرى للتحويل (الشكل 4) ، التاكيد علي الصرامة المطلوبة لتحقيق نتائج موثوق بها. هذا النهج باستخدام التشغيل اليدوي هو العمل المكثف ، ولكن الضرورية في تطوير هذا الخط لتقييم وفهم البيئة الجينية المحيطة L1 كامل الطول. وتشمل الخطوات التالية الحد من كميه العمليات اليدوية اللازمة من خلال أتمته بعض قواعد الكرايشن ، علي الرغم من نظرا لطبيعة لا تزال غير معروفه تماما من التعبير الجينوم ، ومصادر الأمم المتحدة المشروحة للتعبير في الجينوم المرجعي ، ومناطق منخفضه mappability ، وحتى تعقيد العوامل التي تنطوي عليها مع بناء الجينوم المرجعي فانه لا يكون من الممكن أتمته L1 بالبالكامل في هذا الوقت.
التحدي الثاني في تحديد التعبير عن الفردية l1 مكاني مع التسلسل يتعلق برسم الخرائط من المستنسخات l1 المتكررة. في هذه الاستراتيجية المحاذاة ، فانه من المطلوب ان النص يجب ان تتوافق بشكل فريد والتعاون خطيا إلى الجينوم المرجعي من أجل ان يتم تعيينها. من خلال تحديد التسلسلات المقترنة التي يتم تعيينها بشكل متطابق ، فان مقدار النصوص التي يتم محاذاتها بصوره فريدة إلى L1 مكاني الموجود في الجينوم المرجعي يزيد. وتوفر هذه الاستراتيجية الفريدة لرسم الخرائط الثقة في استدعاء الخرائط المقروءة تحديدا إلى موضع واحد من النوع L1 ، علي الرغم من انه من المحتمل ان يقلل من تقدير كميه التعبير التي تم التعرف عليها بشكل أصلي ومعبر عنها ، والمكررة ، L1. إلى صحيحه تقريبا ل هذا بخس, طورت "[مسبيليتي]" درجه لكل [1] موضع يؤسس علي [مسبيليتي] ه كان وطبقت إلى الرقم من فريد يعين نص يقرا (شكل 6). ومن الجدير بالذكر انه من الناحية المثالية ، يجب ان يكون سجل القدرة علي التغطية الكاملة يقرا عبر L1 كامل الطول وفقا لعينه WGS المتطابقة. هنا ، ونحن نستخدم wgs من الخلايا هيلا لتحديد عشرات mappability من كل l1 مكاني من أجل تضخيم أو انكماش يقرا تعيين إلى l1 مكاني في DU145 خطوط الخلايا السرطانية البروستاتا. هذا الحساب mappability هو درجه تصحيح الخام ، ولكن تم تحديد المختارة ' التغطية الكاملة mappability ' من 400 يقرا مع الطبيعة الديناميكية لخطوط الخلايا السرطانية في الاعتبار. ويمكن ملاحظه ذلك في الشكل التكميلي 1، ان هناك عدد قليل من المواقع L1 مع Wgs هيلا مع ارتفاع كبير للغاية من القراءات المعينة. هذه من المرجح ان تاتي من متواليات الكروموسومات المكررة داخل هيلا التي ليست ضمن الجينوم المرجعي ، وهذا هو السبب في تلك المواقع لم يتم اختيارها لتكون ممثله للتغطية كامله القدرة. بدلا من ذلك حددت هو كان ان المعدل من 100% يقرا تغطيه يحدث حول 400 يقرا وفقا ل اضافيه شكل 1 وكان بعد ذلك افترضت ان هذا معدل يطبق إلى ال DU145 ورم بروستاتا خليه خط أيضا.
هذه الاستراتيجية المحاذاة مع 100-200 bp يقرا من تكنولوجيا RNA-Seq أيضا يختار بشكل تفضيلي لL1s القديمة التطورية داخل الجينوم المرجعي كما تراكمت L1s القديمة علي مر الزمن طفرات فريدة من نوعها التي تجعلها أكثر قابل للتعيين. هذا النهج ، التالي ، لديه حساسية محدوده عندما يتعلق الأمر بتحديد أصغر من L1s ، فضلا عن عدم المرجعية ، L1s متعدد الوجوه. لتحديد أصغر من L1s ، نقترح استخدام 5 ' سباق الاختيار من النصوص L1 والتكنولوجيا التسلسل مثل PacBio التي تجعل استخدام أطول يقرا21. هذا يسمح رسم خرائط أكثر فريدة من نوعها ، التالي التعرف علي ثقة من L1s الشباب المعرب عنها. استخدام الحمض الريبي النيبالي-Seq ونهج PacBio معا يمكن ان يؤدي إلى قائمه أكثر شمولا من التعبير عنها بشكل أصلي L1s. ولتحديد الL1s متعددة الوجوه المعرب عنها أصليا ، تشمل الخطوات التالية الاولي بناء وادراج متواليات متعددة الوجوه في الجينوم المرجعي.
التحديات البيولوجية والتقنية في دراسة تكرار متواليات كبيره ، علي الرغم من الإجراءات الصارمة المذكورة أعلاه لأزاله الضوضاء التبادلية من تسلسل L1 الأمم المتحدة المتعلقة باعاده التحديث باستخدام تكنولوجيا التسلسل RNA ، نبدا في التدقيق من خلال المستويات الكبيرة للضوضاء الخلفية المتحولة والتعرف بثقة وصرامة علي أنماط التعبير L1 وكميتها علي مستوي الموضع الفردي.
وليس لدي المؤلفين ما يفصحون عنه.
نود ان نشكر الدكتور يان دونغ لخلايا أورام البروستاتا DU145. نود ان نشكر الدكتور ناثان Ungerleider لتوجيهاته والمشورة في إنشاء مخطوطات الكمبيوتر الفائق. تم تمويل بعض من هذا العمل من قبل المعاهد القومية للصحة المنح R01 GM121812 إلى PD ، R01 AG057597 إلى VPB ، و 5TL1TR001418 إلى المعارف التقليدية. ونود أيضا ان نعترف بالدعم من الصليبيين السرطان ومركز Tulane للسرطان المعلوماتية الحيوية الاساسيه.
Name | Company | Catalog Number | Comments |
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |
Request permission to reuse the text or figures of this JoVE article
Request PermissionThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. All rights reserved