ثلاث طرق تحليل التعبير التفاضلي لتسلسل الحمض النووي الريبي:limma، EdgeR، و DESeq2. افتح برنامج RStudio ثم قم بتحميل R ملف DEGs. يمكن الحصول على الملف من الملفات التكميلية. واحد.
تنزيل البيانات ومعالجتها مسبقا.1.1. تحميل بيانات عدد تسلسل عالية الإنتاجية من سرطان Cholangiocarcinoma من أطلس الجينوم السرطان. يمكن تحقيق علامة التبويب هذه بسهولة بواسطة التعليمات البرمجية التالية.
انقر فوق تشغيل لتثبيت حزمة R. انقر فوق تشغيل لتحميل حزمة R. تعيين دليل العمل.
اختر نوع السرطان. تشغيل التعليمات البرمجية R من ملف GDCquery لتحميل البيانات. يمكن الحصول على ملف GDCquery من الملفات الإضافية / البرامج النصية.
بعد التنفيذ، يمكن تنزيل بيانات تعداد تسلسل الحمض النووي الريبي Cholangiocarcinoma ويسمى CNT، حيث تمثل الصفوف معرفات الجينات الفرقة وتمثل الأعمدة معرفات الرموز. يرجى ملاحظة الأرقام في الموضع 14 إلى 15 في معرفات الرموز. وتتراوح الأرقام من 01 إلى 09 تشير إلى الأورام و10 إلى 19 تشير إلى الأنسجة الطبيعية.1.2.
محادثة معرفات الجينات الفرقة إلى رموز الجينات. استيراد ملف التعليق التوضيحي إلى R، وفقا لمسار التخزين الخاص به. يمكن الحصول على ملف التعليق التوضيحي من الملفات التكميلية.
تشغيل رمز R من الملف v22 gtf. والتي يمكن الحصول عليها من الملفات التكميلية / البرامج النصية. تطبيق ال نزل "وظيفة وتحويل معرفات الجينات الفرقة إلى رموز الجينات.1.3.
تصفية الجينات منخفضة التعبير. انقر فوق تشغيل لتثبيت edgeR الحزمة "انقر فوق تشغيل لتحميل حزمة R edgeR"تشغيل التعليمات البرمجية R التالية للحفاظ على الجينات مع التهم لكل مليون قيمة أكبر من واحد في عينتين على الأقل. اثنان. تحليل التعبير التفاضلي من خلال limma "انقر فوق تشغيل لتثبيت حزمة R limma"انقر فوق تشغيل لتحميل حزمة R limma"edgeR"تشغيل التعليمات البرمجية R التالية لإنشاء مصفوفة التصميم.
استخراج معلومات المجموعة. تعيين 01 "كما نسيج الورم. تعيين 11 "كما الأنسجة العادية.
إنشاء مصفوفة التصميم. إنشاء كائن DGEList. تطبيع البيانات.
تشغيل التعليمات البرمجية R التالية لتنفيذ أسلوب limma-الاتجاه يستند تحليل التعبير التفاضلي. حساب قيمة CPM. انقر فوق تشغيل لاحتواء نموذج خطي للتنبؤ بالبيانات أو استنتاج العلاقة بين المتغيرات.
حساب قيمة T وقيمة F واحتمالات السجل استنادا إلى بايزيان. استخراج جدول النتائج. يتم حفظ نتائج تحليل التعبير التفاضلي في res_limma"الذي يتضمن قيمة تغيير log2 أضعاف.
متوسط مستوى تعبير log2 للجين في التجربة. إحصائية T المعدلة، قيمة P، معدل الاكتشاف الزائف تصحيح قيمة p واحتمالات السجل للجينات المعبر عنها بشكل تفاضلي. تحديد الجينات المعرب عنها بشكل تفاضلي.
وبالتالي فإن القيمة P المعدلة أقل من 0.05، والقيمة المطلقة للتغيير الزائف للسجل أكبر من أو يساوي اثنين هي عتبات لفحص الجينات المعبر عنها بشكل تفاضلي. تظهر النتائج أن المقارنة مع الأنسجة الطبيعية ، 1443 جينا يتم تنظيمها ، و1880 جينا يتم تنظيمها بشكل منخفض في أنسجة Cholangiocarcinoma. إخراج جدول النتائج إلى ملف.
انقر فوق تشغيل لتثبيت حزمة R ggplot2 "انقر فوق تشغيل لتحميل حزمة R ggplot2"تشغيل R رمز من ملف البركان لإنشاء مؤامرة بركان وبركان الملف يمكن الحصول عليها من الملفات التكميلية. يمكن تعيين الجينات إلى مواقع مختلفة وفقا لتغييرها أضعاف log2 والقيم P المعدلة. حتى تصل تنظيم الجينات المعرب عنها بشكل تفاضلي ملونة باللون الأحمر.
ويتم تلوين الجينات التي يتم التعبير عنها بشكل تفاضلي أسفل التنظيم باللون الأخضر. انقر فوق تصدير"لإنقاذ مؤامرة بركان. تلاتة. تحليل التعبير التفاضلي من خلال edgeR "انقر فوق تشغيل لتحميل حزمة R edgeR"تشغيل التعليمات البرمجية R التالية لإنشاء مصفوفة التصميم.
انقر فوق تشغيل لإنشاء كائن DGEList وتطبيع البيانات. انقر فوق تشغيل لتقدير تشتت قيمة التعبير الجيني. انقر فوق تشغيل لاحتواء الطراز لحساب البيانات.
إجراء اختبار إحصائي. استخراج جدول النتائج. يتم حفظ النتيجة في res edgeR"التي تتضمن قيمة تغيير طية السجل، logCPM، F، p القيمة ومعدل اكتشاف خاطئ تصحيح قيمة p.
تحديد الجينات المعرب عنها بشكل تفاضلي. النتيجة res edgeR"يظهر أن مقارنة مع الأنسجة العادية, 3, 121 الجينات هي ما يصل تنظيم, و 1,578 الجينات هي أسفل تنظيمها في أنسجة سرطان Cholangiocarcinoma. إخراج جدول النتائج إلى ملف.
إنشاء مؤامرة بركان. انقر فوق التصدير لحفظ مؤامرة بركان. أربعة. تحليل التعبير التفاضلي من خلال DESeq2.
انقر فوق تشغيل لتثبيت حزمة R DESeq2 "انقر فوق تشغيل لتحميل حزمة R DESeq2"تشغيل التعليمات البرمجية R التالية لتحديد عامل التلمس. إنشاء كائن مجموعة البيانات DESeq2. إجراء تحليل.
إنشاء جدول النتائج. يتم حفظ النتيجة في RES DESeq2، والذي يتضمن متوسط عدد القراءة تسويتها، سجل أضعاف تغيير القيمة، سجل أضعاف تغيير السهم القياسي، والإحصاء لحام، قيمة P الأصلي والقيمة P تصحيحها. تحديد DEGs.
النتيجة res DESeq2 يظهر أنه بالمقارنة مع الأنسجة العادية، يتم تنظيم ألفين وتسعمائة وثمانية وثلاثين جينا، وألف وستمائة وستة عشر جينا يتم تنظيمها في أنسجة تشولانجيوكارسينوما. إخراج جدول النتائج إلى ملف. إنشاء مؤامرة بركان.
انقر فوق التصدير لحفظ مؤامرة بركان. خمسة. مخطط فين. انقر فوق تشغيل لتثبيت الرسم التخطيطي ل R حزمة venn.
انقر فوق تشغيل لتحميل الرسم التخطيطي ل R حزمة venn. جعل رسم تخطيطي venn من الجينات التي يتم التعبير عنها بشكل تفاضلي منظم. انقر فوق التصدير لحفظ الرسم البياني فان، وجعل رسم تخطيطي venn من الجينات التي تم التعبير عنها بشكل تفاضلي أسفل تنظيمها.
انقر فوق تصدير لحفظ الرسم التخطيطي venn. ستة. النتائج التمثيلية. الشكل الأول يبين المؤامرات بركان من جميع الجينات التي حصلت عليها limma، edgeR و DESeq2.
يتم رسم قيمة p السجل السالب مقابل تغيير طية السجل. تمثل النقاط الحمراء الجينات المعرب عنها بشكل متفاوت والمنظمة، وتمثل النقاط الخضراء الجينات المعرب عنها بشكل تفاضلي. تحدد ليما الألف وثمانيمائة وثمانين من الجينات التي تم التعبير عنها بشكل تفاضلي ، والألف وأربعمائة وثلاثة وأربعين جينا منظما بشكل متفاوت في أنسجة Cholangiocarcinoma.
EdgeR تحديد واحد 5008 ثمانية وسبعين الجينات التي تم التعبير عنها بشكل تفاضلي ، وثلاثة آلاف و121 الجينات التي تم التعبير عنها بشكل تفاضلي. DESeq2 تحديد ألف ستمائة وستة عشر الجينات التي تم التعبير عنها بشكل تفاضلي أسفل التنظيم، واثنين من ألفين وتسعمائة وثمانية وثلاثين الجينات التي تم التعبير عنها بشكل تفاضلي. الشكل الثاني، تظهر الرسومات التخطيطية venn التداخل بين النتائج تقسيم من حافة limma و DESeq2.
قارن نتائج هذه الطرق الثلاث، ألف وأربعمائة وواحد وثلاثون جينا معبرا عنه بشكل تفاضلي، وألف وخمسمائة وواحد وثلاثون جينا متمايزا يتم التعبير عنها بشكل تفاضلي متداخلة. Seven.Conclusion. في هذا البروتوكول، قدمنا هنا بروتوكول مفصل لأنواع مختلفة من تحليل قياس لتسلسل عال من البيانات العد باستخدام حزم R، limma، edgeR، و DESeq2. وهناك ثلاث طرق مماثلة وموظفون من بين عملية تحليلهم.
ومن ثم تداخلت جزئيا من تلك الأدوية الثلاثة. الأدوية الثلاثة جميعها لها مزاياها الخاصة. والاختيار يعتمد فقط على وقت البيانات الخاصة بك.
إذا كان هناك بياناتي الحالية ، وينبغي إعطاء limma مع الأولوية ، ولكن الجيل تسلسل البيانات ، في edgeR ، و DESeq2 المفضلة.