ثلاث طرق لتحليل التعبير التفاضلي لتسلسل الحمض النووي الريبي: ليما، إيدج آر، DESeq2

Shiyi Liu; Zitao Wang; Ronghui Zhu; Feiyan Wang; Yanxiang Cheng; Yeqiang Liu

doi:10.3791/62528

A subscription to JoVE is required to view this content. Sign in or start your free trial.

Method Article

ثلاث طرق لتحليل التعبير التفاضلي لتسلسل الحمض النووي الريبي: ليما، إيدج آر، DESeq2

DOI:

10.3791/62528

⸱

September 18th, 2021

Shiyi Liu*¹, Zitao Wang*¹, Ronghui Zhu¹, Feiyan Wang², Yanxiang Cheng¹, Yeqiang Liu²

¹Department of Obstetrics and Gynecology, Renmin Hospital of Wuhan University, ²Department of Pathology, Shanghai Skin Disease Hospital, Tongji University School of Medicine

* These authors contributed equally

Please note that all translations are automatically generated. Click here for the English version.

Summary

وقدم بروتوكول مفصل لأساليب تحليل التعبير التفاضلي لتسلسل الحمض النووي الريبي: ليما، إيدج آر، DESeq2.

Abstract

تسلسل الحمض النووي الريبي (RNA-seq) هي واحدة من التقنيات الأكثر استخداما على نطاق واسع في transcriptomics لأنها يمكن أن تكشف عن العلاقة بين التغيير الوراثي والعمليات البيولوجية المعقدة ولها قيمة كبيرة في التشخيص، والتكهنات، والعلاجات من الأورام. التحليل التفاضلي للبيانات RNA-seq أمر بالغ الأهمية لتحديد النسخ الشاذة ، و limma و EdgeR و DESeq2 هي أدوات فعالة للتحليل التفاضلي. ومع ذلك، يتطلب التحليل التفاضلي RNA-seq مهارات معينة مع لغة R والقدرة على اختيار طريقة مناسبة، وهو ما يفتقر إليه منهج التعليم الطبي.

هنا، ونحن نقدم بروتوكول مفصل لتحديد الجينات المعرب عنها بشكل تفاضلي (DEGs) بين سرطان cholangiocarcinoma (CHOL) والأنسجة العادية من خلال ليما، DESeq2 وEdgR، على التوالي، وتظهر النتائج في قطع بركان والرسوم البيانية فين. البروتوكولات الثلاثة ليما، DESeq2 و EdgeR متشابهة ولكن لها خطوات مختلفة بين عمليات التحليل. على سبيل المثال، يتم استخدام نموذج خطي للإحصائيات في limma، بينما يتم استخدام التوزيع الثنائي السالب في edgeR و DESeq2. بالإضافة إلى ذلك، فإن بيانات العد RNA-seq العادية ضرورية ل EdgeR و limma ولكنها ليست ضرورية ل DESeq2.

هنا، نقدم بروتوكول مفصل لثلاث طرق تحليل تفاضلي: ليما، إيدجر و DESeq2. نتائج الطرق الثلاث متداخلة جزئيا. جميع الأساليب الثلاثة لها مزاياها الخاصة، واختيار الأسلوب يعتمد فقط على البيانات.

Introduction

تسلسل الحمض النووي الريبي (RNA-seq) هي واحدة من التقنيات الأكثر استخداما على نطاق واسع في transcriptomics مع العديد من المزايا (على سبيل المثال، إعادة إنتاج البيانات العالية)، وزادت بشكل كبير فهمنا لوظائف وديناميات العمليات البيولوجية المعقدة¹^،². تحديد النصوص الشاذة في سياق بيولوجي مختلف ، والتي تعرف أيضا باسم الجينات المعرب عنها بشكل تفاضلي (DEGs) ، هو خطوة رئيسية في تحليل الحمض النووي الريبي- seq. RNA-seq يجعل من الممكن الحصول على فهم عميق للآليات الجزيئية ذات الصلة pathogenesis والوظائف البيولوجية. لذلك، يعتبر التحليل التفريقي قيمة للتشخيص، التكهن والعلاجات من الأورام³^،⁴^،⁵. حاليا، تم تطوير المزيد من حزم R/Bioconductor مفتوحة المصدر لتحليل التعبير التفاضلي RNA-seq، وخاصة ليما، DESeq2 و EdgeR¹^،⁶^،⁷. ومع ذلك، يتطلب التحليل التفاضلي مهارات معينة مع لغة R والقدرة على اختيار الطريقة المناسبة، والتي تفتقر إليها المناهج الدراسية للتعليم الطبي.

في هذا البروتوكول، استنادا إلى cholangiocarcinoma (CHOL) RNA-seq عدد البيانات المستخرجة من أطلس الجينوم السرطان (TCGA)، ثلاثة من الطرق الأكثر شهرة (ليما^8،EdgeR⁹ و DESeq2¹⁰⁾نفذت، على التوالي، من قبل برنامج R¹¹ لتحديد DEGs بين CHOL والأنسجة العادية. البروتوكولات الثلاثة لليما، إيدجر و DESeq2 متشابهة ولكن لها خطوات مختلفة بين عمليات التحليل. على سبيل المثال، تعد بيانات العد RNA-seq العادية ضرورية ل EdgeR و limma⁸^,⁹, بينما يستخدم DESeq2 تباينات المكتبة الخاصة به لتصحيح البيانات بدلا من تطبيع¹⁰. وعلاوة على ذلك، edgeR مناسبة خصيصا للبيانات RNA-seq، في حين يتم استخدام ليما لmicroarrays ورنا-seq. يتم اعتماد نموذج خطي من قبل limma لتقييم DEGs¹²، في حين تستند الإحصاءات في edgeR على التوزيعات الثنائية السلبية ، بما في ذلك تقدير Bayes التجريبي ، والاختبارات الدقيقة ، والنماذج الخطية المعممة واختبارات شبه الاحتمال⁹.

باختصار، نحن نقدم بروتوكولات مفصلة لتحليل التعبير التفاضلي RNA-seq باستخدام limma و DESeq2 و EdgeR على التوالي. بالإشارة إلى هذه المقالة، يمكن للمستخدمين بسهولة إجراء تحليل التفاضلية RNA-seq واختيار أساليب التحليل التفاضلي المناسبة لبياناتهم.

Protocol

ملاحظة: فتح برنامج R Studio وتحميل R ملف "DEGs.R" ، يمكن الحصول على الملف من الملفات الإضافية /البرامج النصية.

1. تحميل ومعالجة البيانات مسبقا

قم بتنزيل بيانات العد عالية الإنتاجية (HTSeq) لورم تشولانجيوكارسينوما (CHOL) من أطلس جينوم السرطان (TCGA). يمكن تحقيق هذه الخطوة بسهولة بواسطة التعليمات البرمجية R التالية.
1. انقر فوق تشغيل لتثبيت حزم R.
2. انقر فوق تشغيل لتحميل حزم R.
  إذا (!requireNamespace("BiocManager" ، بهدوء = صحيح))
  + install.packages ("BiocManager")
  BiocManager::تثبيت(ج("TCGAbiolinks", "ملخصاErieriment"))
3. تعيين دليل العمل.
  مكتبة (TCGAbiolinks)
  مكتبة(ملخصااالمسان)
  setwd("C:/المستخدمين/ليوشيي/سطح المكتب")
4. اختر نوع السرطان.
  < السرطان - "TCGA-CHOL"
5. تشغيل التعليمات البرمجية R من الملف "GDCquery.R" لتحميل البيانات. يمكن الحصول على الملف "GDCquery.R" من الملفات الإضافية/البرامج النصية:
  المصدر("ملفات تكميلية/برامج نصية/GDCquery.R")
  الرأس (cnt)
  ##TCGA-3X-AAVA-01A-11R-A41I-07
  رقم #ENSG00000000003 4262
  رقم1 #ENSG00000000005
  رقم #ENSG00000000419 1254
  رقم #ENSG00000000457 699
  رقم #ENSG00000000460 239
  رقم #ENSG00000000938 334
  ملاحظة: بعد التنفيذ، سيتم تحميل بيانات تعداد CHOLHTSeq ويسمى "cnt"، حيث تمثل الصفوف معرفات الجينات الفرقة والأعمدة تمثل عينة معرفات. يرجى ملاحظة الأرقام في المواضع 14-15 في عينة معرفات; تشير الأرقام التي تتراوح بين 01 و 09 إلى الأورام وتتراوح بين 10 و19 إلى الأنسجة الطبيعية.
تحويل معرفات الجينات الفرقة إلى رموز الجينات.
1. استيراد ملف التعليق التوضيحي إلى R وفقا لمسار التخزين الخاص به. يمكن الحصول على ملف التعليق التوضيحي (gencode.v22.annotation.gtf) من الملفات التكميلية.
  gtf_v22 <- rtracklayer::import('ملفات تكميلية/gencode.v22.annotation.gtf')
2. تشغيل رمز R من "gtf_v22. R" الملف، والتي يمكن الحصول عليها من الملفات التكميلية / البرامج النصية:
  المصدر("ملفات تكميلية/برامج نصية/gtf_v22. R")
3. تطبيق الدالة "ann" لتحويل معرفات الجينات الفرقة إلى رموز الجينات.
  cnt = ann (cnt,gtf_v22)
تصفية الجينات منخفضة التعبير
1. انقر فوق تشغيل لتثبيت حزمة R "edgeR".
  BiocManager::تثبيت("edgeR")
2. انقر فوق تشغيل لتحميل حزمة R "edgeR".
  مكتبة(edgeR)
3. قم بتشغيل رمز R التالي للحفاظ على الجينات التي لها قيم تعداد لكل مليون (CPM) أكبر من واحدة في عينتين على الأقل.
  الاحتفاظ <-rowSums(cpm(cnt)>1)>=2
  cnt <-as.matrix(cnt [الاحتفاظ,])
  ملاحظة: يتم استخدام قيمة الأعداد لكل مليون (CPM) بدلا من عدد القراءات لإزالة الانحراف الناتج عن أعماق تسلسل مختلفة.

2. تحليل التعبير التفاضلي من خلال "limma"

انقر فوق تشغيل لتثبيت حزمة R "limma".
BiocManager::تثبيت("limma")
انقر فوق تشغيل لتحميل حزم R "limma" ، "edgeR".
مكتبة (ليما)
مكتبة(edgeR)
تشغيل التعليمات البرمجية R التالية لإنشاء مصفوفة التصميم.
مجموعة <- substring(colnames(cnt),14,15) # Extract group information
المجموعة [المجموعة ٪في٪ "01"] <- "Cancer" # set '01' as tumor tissue
المجموعة [المجموعة ٪in٪ "11"] <- "Normal" # set '11' as normal tissue
مجموعة <- factor (group, levels = c("Normal","Cancer"))
1. إنشاء مصفوفة التصميم.
  تصميم <- model.matrix (~ المجموعة)
  أسماء الصفوف (التصميم) <-colnames(cnt)
2. إنشاء كائن DGEList.
  dge <- DGEList(التهم = cnt، المجموعة = المجموعة)
3. تطبيع البيانات.
  dge <-calcNormFactors(dge، طريقة = "TMM")
4. تشغيل التعليمات البرمجية R التالية لتنفيذ أسلوب limma-الاتجاه يستند تحليل التعبير التفاضلي.
  dge
  ##An كائن الفئة "DGEList"
  ##$counts
  ##TCGA-3X-AAVA-01A-11R-A41I-07
  رقم #TSPAN6 4262
  رقم #DPM1 1254
  رقم #SCYL3 699
  رقم #C1orf112 239
  رقم #FGR 334
5. حساب قيمة CPM.
  logdge <- cpm(dge, سجل = TRUE, prior.count =3)
6. انقر فوق تشغيل لاحتواء نموذج خطي للتنبؤ بالبيانات أو استنتاج العلاقة بين المتغيرات.
  تناسب <- lmFit (logdge، تصميم)
7. حساب قيمة T وقيمة F واحتمالات السجل استنادا إلى بايزيان.
  تناسب < - يباي (صالح ، الاتجاه = TRUE)
8. استخراج جدول النتائج.
  res_limma<-as.data.frame(topTable(fit,n=Inf))
  
  الرأس (res_limma)
  ## سجل اف اف سي افيExpr t P.Value adj. ب. فال ب
  ##RP11-252E2.2 -4.899493 -2.488589 -20.88052 2.386656e-25 4.931786e-21 47.28823
  ##BX842568.1 -4.347930 -2.595205 -20.14532 1.082759e-24 1.118706e-20 45.83656
  ##CTC-537E7.3 -5.154894 -2.143292 -19.59571 3.452354e-24 2.216114e-20 44.72001
  ##RP11-468N14.3 -6.532259 -2.029714 -19.49409 4.289807e-24 2.216114e-20 44.51056
  ##AP006216.5 -4.507051 -2.670915 -19.25649 7.153356e-24 2.956339e-20 44.01704
  ##RP11-669E14.4 -4.107204 -2.828311 -18.93246 1.448209e-23 4.987633e-20 43.33543
  #The يتم حفظ نتيجة تحليل التعبير التفاضلي في "res_limma"، والتي تشمل معرف الجين، قيمة تغيير أضعاف log2 (logFC)، متوسط مستوى التعبير log2 من الجين في التجربة (AveExpr)، والإحصاء t المعدلة (ر)، وإعادة رق قيمة p (P.Value)، ومعدل الاكتشاف الزائف (FDR) تصحيح قيمة p (adj). P.Val) واحتمالات السجل للجينات المعرب عنها بشكل تفاضلي (B)
  ملاحظة: الدالة "calcNormFactors()" من "edgeR" تم استخدامها لتطبيع البيانات لإزالة التأثير الناجم عن إعداد عينة أو بناء مكتبة وتسلسل. في بناء مصفوفة التصميم ، من الضروري مطابقة التصميم التجريبي (على سبيل المثال ، نوع الأنسجة: الأنسجة الطبيعية أو الأورام) لعينة من معرفات المصفوفة. limma-trend مناسب للبيانات التي يكون عمق تسلسلها هو نفسه، في حين أن limma-voom مناسب: (1) عندما يكون حجم مكتبة العينة مختلفا؛ '2' عندما يكون حجم مكتبة العينة مختلفا؛ '2' عندما يكون حجم مكتبة العينة مختلفا؛ '2' عندما يكون حجم المكتبة مختلفا؛ '2' عندما يكون حجم المكتبة مختلفا؛ '2' عندما يكون حجم مكتبة العينة مختلفا؛ '2' عندما يكون حجم المكتبة مختلفا؛ '2' عندما يكون '2' البيانات التي لم يتم تسويتها بواسطة TMM؛ '3' هناك الكثير من "الضوضاء" في البيانات. ويعني السجل الإيجابي أن الجين منظم في التجربة، في حين أن الرقم السلبي يعني أن الجين منظم بشكل لأسفل.
9. تحديد DEGs.
  res_limma $sig <-as.factor (
  ifelse (res_limma دولار adj. P.Val < 0.05 والقيمة المطلقة (res_limma $logFC) > 2,
  ifelse(res_limma$logFC > 2,'up','down')'not')) # قيمة adj.p < 0.05 و |log2FC| > = 2 هي عتبات لتحديد DEGs
  ملخص(res_limma$sig)
  ##down لا يصل
  ##1880 17341 1443
10. إخراج جدول النتائج إلى ملف.
  الكتابة.csv(res_limma، ملف = 'result_limma.csv')
11. انقر فوق تشغيل لتثبيت حزمة R "ggplot2".
  install.packages ("ggplot2")
12. انقر فوق تشغيل لتحميل حزمة R "ggplot2".
  مكتبة(ggplot2)
13. تشغيل رمز R من "بركان. R" لإنشاء مؤامرة البركان. الملف "بركان. R" يمكن الحصول عليها من الملفات التكميلية.
  المصدر("ملفات تكميلية/برامج نصية/بركان. R")
  بركان (res_limma،"logFC","adj. ب.فال"،2,0.05)
  ملاحظة: يمكن تعيين الجينات إلى مواقع مختلفة وفقا لقيم log2FC و adj-p الخاصة بها ، ويتم تلوين DEGs المنظمة باللون الأحمر ، ويتم تلوين DEGs الخاضعة للتنظيم لأسفل باللون الأخضر.
14. انقر فوق تصدير لحفظ مؤامرة بركان.
  ملاحظة: يمكن إنشاء قطع بركان وتحميلها في أشكال مختلفة (على سبيل المثال، PDF، TIFF، PNG، تنسيق JPEG). يمكن تعيين الجينات إلى مواقع مختلفة وفقا لقيمها log2FC و adj p ، يتم تلوين DEGs المتابعة المنظمة (log2FC > 2، adj p < 0.05) باللون الأحمر، وDGS أسفل تنظيم (log2FC < -2، adj p < 0.05) ملونة باللون الأخضر، وغير DEGs ملونة باللون الرمادي.

3. تحليل التعبير التفاضلي من خلال "edgeR"

انقر فوق تشغيل لتحميل حزمة R "edgeR".
مكتبة(edgeR)
تشغيل التعليمات البرمجية R التالية لإنشاء مصفوفة التصميم.
مجموعة < الفرعية(colnames(cnt),14,15)
المجموعة [المجموعة ٪in٪ "01"] <-"السرطان"
المجموعة [المجموعة ٪in٪ "11"] <-"عادي"
المجموعة = عامل (مجموعة، مستويات = ج("عادي"، "السرطان"))
تصميم < model.matrix(~ المجموعة)
أسماء الصفوف (التصميم) = أسماء الأسماء (cnt)
انقر فوق تشغيل لإنشاء كائن DGEList.
dge <- DGEList(التهم = cnt)
تطبيع البيانات.
dge <-calcNormFactors(dge، طريقة = "TMM")
انقر فوق تشغيل لتقدير تشتت قيم التعبير الجيني.
dge <- التقديرDisp(dge, تصميم, قوي = T)
انقر فوق تشغيل لاحتواء الطراز لحساب البيانات.
تناسب <- glmQLFit (dge، تصميم)
إجراء اختبار إحصائي.
تناسب <- glmQLFTest(تناسب)
استخراج جدول النتائج. يتم حفظ النتيجة في "res_edgeR"، والتي تشمل قيمة تغيير أضعاف السجل، سجل CPM، F، P القيمة وFDR تصحيح قيمة p.
res_edgeR=as.data.frame(توبتاغس(احتواء، n=Inf))
الرأس (res_edgeR)
## سجل CPM F PValue FDR
##GCDH -3.299633 5.802700 458.5991 1.441773e-25 2.979280e-21
##MSMO1 -3.761400 7.521111 407.0416 1.730539e-24 1.787993e-20R
##CL1 -3.829504 5.319641 376.5043 8.652474e-24 5.516791e-20
##ADI1 -3.533664 8.211281 372.6671 1.067904e-23 5.516791e-20
##KCNN2 -5.583794 3.504017 358.6525 2.342106e-23 9.679455e-20
##GLUD1 -3.287447 8.738080 350.0344 3.848408e-23 1.194406e-19
يتم حفظ #The النتيجة في "res_edgeR"، والتي تشمل قيمة تغيير طية السجل (logFC)، سجل CPM، F، P القيمة وFDR تصحيح قيمة p
تحديد DEGs.
res_edgeR $sig = as.factor (
ifelse(res_edgeR$FDR < 0.05 والقيمة المطلقة (res_edgeR$logFC) > 2,
ifelse(res_edgeR$logFC > 2 ،'up', 'down')'not'))
ملخص(res_edgeR$sig)
##down لا يصل
##1578 15965 3121
إخراج جدول النتائج إلى ملف.
الكتابة.csv(res_edgeR، ملف = 'res_edgeR.csv')
إنشاء مؤامرة بركان.
بركان (res_edgeR،"logFC","FDR",2,0.05)
انقر فوق تصدير لحفظ مؤامرة بركان.

4. تحليل التعبير التفاضلي من خلال "DESeq2"

انقر فوق تشغيل لتثبيت حزم R "DESeq2".
BiocManager::تثبيت("DESeq2")
انقر فوق تشغيل لتحميل حزم R "DESeq2".
مكتبة(DESeq2)
تشغيل التعليمات البرمجية R التالية لتحديد عامل التجميع.
مجموعة < الفرعية(colnames(cnt),14,15)
المجموعة [المجموعة ٪in٪ "01"] <-"السرطان"
المجموعة [المجموعة ٪in٪ "11"] <-"عادي"
المجموعة = عامل (مجموعة، مستويات = ج("عادي"، "السرطان"))
إنشاء الكائن DESeqDataSet.
dds <-DESeqDataSetFromMatrix (cnt، DataFrame(مجموعة)، تصميم = ~group)
دس
##class: ديسك داتاسيت
##dim: 20664 45
##metadata(1): الإصدار
##assays(1): عدد
##rownames(20664): TSPAN6 DPM1 ... RP11-274B21.13 LINC01144
##rowData الأسماء(0):
##colnames(45): TCGA-3X-AAVA-01A-11R-A41I-07 ...
##colData أسماء(1): المجموعة
إجراء التحليل.
dds <- DESeq(dds)
إنشاء جدول النتائج.
res_DESeq2 <-data.frame(النتائج(dds))

الرأس (res_DESeq2)
## قاعدةMean log2FoldChange lfcSE احصائيات pvalue بادج
##TSPAN6 4704.9243 -0.8204515 0.3371667 -2.433370 1.495899e-02 2.760180e-02
##DPM1 1205.9087 -0.3692497 0.1202418 -3.070894 2.134191e-03 4.838281e-03
##SCYL3 954.9772 0.2652530 0.2476441 1.071106 2.841218e-01 3.629059e-01
##C1orf112 277.7756 0.7536911 0.2518929 2.992109 2.770575e-03 6.101584e-03
##FGR 345.8789 -0.6423198 0.3712729 -1.730047 8.362180e-02 1.266833e-01
##CFH 27982.3546 -3.8761382 0.5473363 -7.081823 1.422708e-12 1.673241e-11
ملاحظة: يتم حفظ النتيجة في "res_DESeq2" ، والذي يتضمن متوسط عدد القراءة العادية (baseMean) ، قيمة تغيير أضعاف السجل (log2FoldChange) ، خطأ قياسي لتغيير طي السجل (lfcSE) ، إحصائية Wald (stat) ، قيمة p الأصلية (pvalue) وقيمة p المصححة (padj)
تحديد DEGs.
res_DESeq2 $sig = as.factor (
ifelse(res_DESeq2$padj < 0.05 والقيمة المطلقة (res_DESeq2$log2FoldChange) > 2,
ifelse(res_DESeq2$log2FoldChange > 2 ,'up','down')'not'))
ملخص (res_DESeq2$sig)
##down لا يصل
##1616 16110 2938
إخراج جدول النتائج إلى ملف.
الكتابة.csv(res_DESeq2، ملف = 'res_DESeq2.csv')
إنشاء مؤامرة بركان.
بركان(res_DESeq2،"log2FoldChange"," بادج",2,0.05)
انقر فوق تصدير لحفظ مؤامرة بركان.

5. الرسم التخطيطي Venn

انقر فوق تشغيل لتثبيت حزمة R "فيندياغرام".
install.packages ("فيندياغرام")
انقر فوق تشغيل لتحميل حزمة R "فيندياغرام".
مكتبة (فيندياغرام)
جعل الرسم البياني فين من DEGs المنظمة.
grid.newpage()
grid.draw(venn.diagram(list(Limma=أسماء الصفوف(res_
ليما [res_limma$sig=="up",]),
edgeR =أسماء الصفوف(res_edgeR[res_edgeR$sig=="up",]),
DESeq2=أسماء الصفوف(res_DESeq2[res_DESeq2$sig==
"لأعلى"،]))
NULL، ارتفاع = 3، عرض = 3، وحدات = "في"،
col="أسود",lwd=0.3,fill=c("#FF6666","#FFFF00",
"#993366"),
ألفا = ج (0.5، 0.5، 0.5)، الرئيسي = "أعلى ينظم DEGs"))
انقر فوق تصدير لحفظ الرسم التخطيطي Venn.
جعل رسم تخطيطي فين من أسفل DEGs المنظمة.
grid.newpage()
grid.draw(venn.diagram(list(Limma=أسماء الصفوف(res_
ليما [res_limma$sig=="down",])
edgeR = أسماء الصفوف (res_edgeR[res_edgeR$sig==
"أسفل"،])،
DESeq2=أسماء الصفوف(res_DESeq2[res_DESeq2$sig=="down",]))
NULL، ارتفاع = 3، عرض = 3، وحدات = "في"،
col="أسود",lwd=0.3,fill=c("#FF6666","#FFFF00",
"#993366"),
ألفا = ج (0.5، 0.5، 0.5)، الرئيسية = "DEGs أسفل تنظيم"))
انقر فوق تصدير لحفظ الرسم التخطيطي Venn.

النتائج

هناك مقاربات مختلفة لتصور نتيجة تحليل التعبير التفاضلي ، من بينها مؤامرة البركان والرسم التخطيطي Venn تستخدم بشكل خاص. حددت ليما 3323 DEGs بين CHOL والأنسجة الطبيعية مع |logFC|≥2 وdj. P.Val <0.05 كعتبات، من بينها 1880 كانت أسفل تنظيم في أنسجة CHOL و 1443 كانت منظمة صعودا(الشكل 1a). وفي الوقت نفسه، ح?...

Discussion

يمكن التعرف بسهولة على النصوص الشاذة وفيرة في السرطانات من خلال تحليل التفاضلية RNA-seq^5. ومع ذلك، غالبا ما يتم تقييد تطبيق تحليل التعبير التفاضلي RNA-seq لأنه يتطلب مهارات معينة مع لغة R والقدرة على اختيار الأساليب المناسبة. لمعالجة هذه المشكلة، ونحن نقدم مقدمة مفصلة لطرق الثلاثة ا...

Disclosures

لم يتم نشر المخطوطة من قبل ولا يتم النظر في نشرها في مكان آخر. ساهم جميع المؤلفين في إنشاء هذه المخطوطة للمحتوى الفكري الهام وقرأوا المخطوطة النهائية ووافقوا عليها. ونعلن أنه لا يوجد تضارب في المصالح.

Acknowledgements

وقد تم دعم هذا العمل من قبل المؤسسة الوطنية للعلوم الطبيعية في الصين (المنحة رقم 81860276) ومشاريع الصندوق الخاص الرئيسية للبرنامج الوطني للبحث والتطوير (المنحة رقم 2018YFC1003200).

Materials

Name	Company	Catalog Number	Comments
R		version 3.6.2	free software
Rstudio			free software

References

Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, 139-140 (2010).
Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, 1035-1043 (2013).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Explore More Articles

175

This article has been published

Video Coming Soon

Keep me updated:

ثلاث طرق لتحليل التعبير التفاضلي لتسلسل الحمض النووي الريبي: ليما، إيدج آر، DESeq2

In This Article

Summary

Abstract

Introduction

Protocol

النتائج

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Explore More Articles