JoVE Logo

Sign In

A subscription to JoVE is required to view this content. Sign in or start your free trial.

In This Article

  • Summary
  • Abstract
  • Introduction
  • Protocol
  • תוצאות
  • Discussion
  • Disclosures
  • Acknowledgements
  • Materials
  • References
  • Reprints and Permissions

Summary

פרוטוקול מפורט של שיטות ניתוח ביטוי דיפרנציאלי עבור רצף RNA סופק: לימה, EdgeR, DESeq2.

Abstract

רצף RNA (RNA-seq) היא אחת הטכנולוגיות הנפוצות ביותר בתעתיק, שכן היא יכולה לחשוף את הקשר בין השינוי הגנטי לתהליכים ביולוגיים מורכבים ויש לה ערך רב באבחון, פרוגנוסטיקה וטיפולים של גידולים. ניתוח דיפרנציאלי של נתוני RNA-seq חיוני לזיהוי תמלולים חריגים, ולימה, EdgeR ו- DESeq2 הם כלים יעילים לניתוח דיפרנציאלי. עם זאת, ניתוח דיפרנציאלי RNA-seq דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור שיטה מתאימה, אשר חסר בתוכנית הלימודים של החינוך הרפואי.

בזאת, אנו מספקים את הפרוטוקול המפורט לזיהוי גנים מבוטאים דיפרנציאלי (DEGs) בין cholangiocarcinoma (CHOL) ורקמות נורמליות באמצעות לימה, DESeq2 ו- EdgeR, בהתאמה, והתוצאות מוצגות בחלקות הר געש ודיאגרמות ון. שלושת הפרוטוקולים של לימה, DESeq2 ו- EdgeR דומים אך יש להם שלבים שונים בין תהליכי הניתוח. לדוגמה, מודל ליניארי משמש עבור סטטיסטיקה בלימה, בעוד ההתפלגות הבינומית השלילית משמשת ב- edgeR וב- DESeq2. בנוסף, נתוני ספירת הרנ"א-seq מנורמלים נחוצים עבור EdgeR ולימה, אך אינם נחוצים עבור DESeq2.

כאן, אנו מספקים פרוטוקול מפורט לשלוש שיטות ניתוח דיפרנציאליות: לימה, EdgeR ו- DESeq2. התוצאות של שלוש השיטות חופפות חלקית. לכל שלוש השיטות יש יתרונות משלהן, ובחירת השיטה תלויה רק בנתונים.

Introduction

RNA-sequencing (RNA-seq) היא אחת הטכנולוגיות הנפוצות ביותר בתעתיק עם יתרונות רבים (למשל, שחזור נתונים גבוה), והגדילה באופן דרמטי את הבנתנו את הפונקציות והדינמיקה של תהליכים ביולוגיים מורכבים1,2. זיהוי של תמלילים חריגים בהקשר ביולוגי שונה, הידועים גם כגנים מבוטאים באופן דיפרנציאלי (DEGs), הוא צעד מפתח בניתוח RNA-seq. RNA-seq מאפשר לקבל הבנה עמוקה של מנגנונים מולקולריים הקשורים פתוגנזה פונקציות ביולוגיות. לכן, ניתוח דיפרנציאלי נחשב בעל ערך עבור אבחון, פרוגנוסטיקה וטיפולים של גידולים3,4,5. נכון לעכשיו, חבילות R/Bioconductor קוד פתוח יותר פותחו עבור ניתוח ביטוי דיפרנציאלי RNA-seq, במיוחד לימה, DESeq2 ו EdgeR1,6,7. עם זאת, ניתוח דיפרנציאלי דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור את השיטה המתאימה, אשר חסר בתוכנית הלימודים של החינוך הרפואי.

בפרוטוקול זה, המבוסס על נתוני ספירת הרנ"א-seq של cholangiocarcinoma (CHOL) שחולצו מאטלס הגנום הסרטני (TCGA), שלוש מהשיטות הידועות ביותר (לימה8, EdgeR9 ו- DESeq210) בוצעו, בהתאמה, על ידי תוכנית R11 כדי לזהות את DEGs בין CHOL ורקמות נורמליות. שלושת הפרוטוקולים של לימה, EdgeR ו- DESeq2 דומים אך יש להם שלבים שונים בין תהליכי הניתוח. לדוגמה, נתוני ספירת הרנ"א-seq המנורמלים נחוצים עבור EdgeR ו- limma8,9, ואילו DESeq2 משתמשת בסתירות ספריה משלה כדי לתקן נתונים במקום נורמליזציה10. יתר על כן, edgeR מתאים במיוחד לנתוני RNA-seq, בעוד שהלימה משמשת למיקרו-arrays ו- RNA-seq. מודל ליניארי מאומץ על ידי לימה כדי להעריך את DEGs12, בעוד הסטטיסטיקה ב edgeR מבוססים על הפצות בינומיות שליליות, כולל הערכת בייס אמפירית, בדיקות מדויקות, מודלים ליניאריים כלליים ובדיקות מעין סבירות9.

לסיכום, אנו מספקים את הפרוטוקולים המפורטים של ניתוח ביטוי דיפרנציאלי RNA-seq באמצעות לימה, DESeq2 ו- EdgeR, בהתאמה. בהתייחסם למאמר זה, משתמשים יכולים לבצע בקלות את הניתוח הדיפרנציאלי של RNA-seq ולבחור את שיטות הניתוח הדיפרנציאלי המתאימות עבור הנתונים שלהם.

Protocol

הערה: פתח את תוכנית R-studio לטעון קובץ R "DEGs.R", הקובץ ניתן לרכוש מקבצים משלימים / סקריפטים.

1. הורדה ועיבוד מראש של נתונים

  1. הורד את נתוני ספירת הרצוף בעל התפוקה הגבוהה (HTSeq) של כולנגיוקרצינומה (CHOL) מאטלס הגנום הסרטני (TCGA). שלב זה יכול להיות מושג בקלות על ידי קוד R הבא.
    1. לחץ על הפעל כדי להתקין חבילות R.
    2. לחץ על הפעל כדי לטעון חבילות R.
      if(!requireNamespace("BiocManager", בשקט=TRUE))
      + install.packages("BiocManager")
      BiocManager::install(c("TCGAbiolinks", "ניסיון מסוכם"))
    3. הגדר את ספריית העבודה.
      ספריה (TCGAbiolinks)
      ספריה (ניסיון מסוכם)
      setwd("C:/Users/LIUSHIYI/Desktop")
    4. בחר את סוג הסרטן.
      סרטן < - "TCGA-CHOL"
    5. הפעל את קוד ה- R מהקובץ "GDCquery.R" כדי להוריד את הנתונים. ניתן לרכוש את הקובץ "GDCquery.R" מקבצים/סקריפטים משלימים:
      מקור("קבצים משלימים/סקריפטים/GDCquery.R")
      head(cnt)
      ##TCGA-3X-AAVA-01A-11R-A41I-07
      ##ENSG00000000003 4262
      ##ENSG00000000005 1
      ##ENSG00000000419 1254
      ##ENSG00000000457 699
      ##ENSG00000000460 239
      ##ENSG00000000938 334
      הערה: לאחר ביצוע, נתוני ספירת CHOLHTSeq יורדו וייקראו "cnt", כאשר שורות מייצגות מזהי גנים ועמודות של הרכב מייצגות מזהים לדוגמה. אנא שימו לב למספרים במיקומים 14-15 בתמותות הת"י לדוגמה; מספרים הנעים בין 01 ל -09 מצביעים על גידולים הנעים בין 10 ל -19 מצביעים על רקמות רגילות.
  2. המר זהות גנים של אנסמבל לסמלים גנטיים.
    1. יבא את קובץ הביאורים ל- R בהתאם לנתיב האחסון שלו. ניתן לרכוש את קובץ הביאורים (gencode.v22.annotation.gtf) מקבצים משלימים.
      gtf_v22 <- rtracklayer::import('קבצים משלימים/gencode.v22.annotation.gtf')
    2. הפעל את קוד R מ"gtf_v22. קובץ R, אשר ניתן לרכוש מקבצים משלימים / סקריפטים:
      מקור("קבצים משלימים/סקריפטים/gtf_v22. R")
    3. החל את הפונקציה "ann" כדי להמיר את זהות הגן הרכב לסמלים גנטיים.
      cnt= ann(cnt,gtf_v22)
  3. סינון גנים בעלי ביטוי נמוך
    1. לחץ על הפעל כדי להתקין את חבילת R "edgeR".
      BiocManager::install("edgeR")
    2. לחץ על הפעל כדי לטעון את חבילת R "edgeR".
      library(edgeR)
    3. הפעל את קוד ה- R הבא כדי לשמור על גנים עם ערכי ספירה למיליון (עלות לאלף חשיפות) הגדולים מאחד מכל שתי דגימות לפחות.
      שמור <- שורותsums(cnt)>1)>=2
      cnt <- as.matrix(cnt[keep,])
      הערה: נעשה שימוש בערך ספירה למיליון (עלות לאלף חשיפות) במקום ספירת הקריאה כדי לבטל את הסטייה הנגרמת על-ידי עומקי רצף שונים.

2. ניתוח ביטוי דיפרנציאלי באמצעות "לימה"

  1. לחץ על הפעל כדי להתקין את חבילת R "limma".
    BiocManager::install("limma")
  2. לחץ על הפעל כדי לטעון את חבילות R "לימה", "edgeR".
    library(limma)
    library(edgeR)
  3. הפעל את קוד ה- R הבא כדי ליצור את מטריצת העיצוב.
    קבוצה <- substring(colnames(cnt),14,15) # Extract group information
    קבוצה [קבוצה %ב% "01"] <- "Cancer" # set '01' as tumor tissue
    קבוצה [קבוצה %ב% "11"] <- "Normal" # set '11' as normal tissue
    קבוצה <- factor (group, levels = c("Normal","Cancer"))
    1. צור את מטריצת העיצוב.
      עיצוב <- model.matrix (~group)
      שמות שורה (design) <- colnames(cnt)
    2. צור את האובייקט DGEList.
      dge <- DGEList(counts = cnt, group = group)
    3. לנרמל את הנתונים.
      dge <- calcNormFactors(dge, method = "TMM")
    4. הפעל את קוד ה- R הבא כדי לבצע את ניתוח הביטוי הדיפרנציאלי המבוסס על שיטת מגמת לימה.
      dge
      אובייקט #An של מחלקה "DGEList"
      ##$counts
      ##TCGA-3X-AAVA-01A-11R-A41I-07
      ##TSPAN6 4262
      ##DPM1 1254
      ##SCYL3 699
      ##C1orf112 239
      ##FGR 334
    5. חשב את ערך ה- CPM.
      logdge <- cpm(dge, log=TRUE, prior.count=3)
    6. לחץ על הפעל כדי להתאים למודל ליניארי כדי לחזות את הנתונים או להסיק את קשר הגומלין בין משתנים.
      התאם <- lmFit (logdge, design)
    7. חשב את ערך T, ערך F וסיכויי יומן רישום בהתבסס על Bayesian.
      התאם <- eBayes(בכושר, מגמה= TRUE)
    8. חלץ את טבלת התוצאות.
      res_limma<- as.data.frame(topTable(התאמה,n=Inf))

      ראש(res_limma)
      ## logFC AveExpr t P.Value adj. פ.ואל.
      ##RP11-252E2.2 -4.899493 -2.488589 -20.88052 2.386656e-25 4.931786e-21 47.28823
      ##BX842568.1 -4.347930 -2.595205 -20.14532 1.082759e-24 1.118706e-20 45.83656
      ##CTC-537E7.3 -5.154894 -2.143292 -19.59571 3.452354e-24 2.216114e-20 44.72001
      ##RP11-468N14.3 -6.532259 -2.029714 -19.49409 4.289807e-24 2.216114e-20 44.51056
      ##AP006216.5 -4.507051 -2.670915 -19.25649 7.153356e-24 2.956339e-20 44.01704
      ##RP11-669E14.4 -4.107204 -2.828311 -18.93246 1.448209e-23 4.987633e-20 43.33543
      #The תוצאה של ניתוח ביטוי דיפרנציאלי נשמרת ב- "res_limma", הכולל את מזהה הגן, ערך שינוי הקיפול של log2 (logFC), רמת הביטוי הממוצעת של log2 של הגן בניסוי (AveExpr), סטטיסטיקת t שהשתנתה (t), ערך p מחדש (P.Value), ערך p המתוקן של שיעור גילוי כוזב (FDR) (adj). פ.ואל) וסיכויי היומן של הגנים המבוטאים באופן דיפרנציאלי (ב)
      הערה: הפונקציה "calcNormFactors()" של "edgeR" שימשה לנרמול הנתונים כדי לחסל את ההשפעה הנגרמת על ידי הכנת מדגם או בניית ספריה ורצף. בבניית מטריצת עיצוב, יש צורך להתאים עיצוב ניסיוני (למשל, סוג רקמה: רקמות רגילות או גידול) כדי לדגום מזהים של המטריצה. מגמת לימה מתאימה לנתונים שעומק הרצף שלהם זהה, ואילו לימה-וום מתאים: (i) כאשר גודל ספריית הדגימה שונה; (ii) נתונים שאינם מנורמלים על-ידי TMM; (iii) יש הרבה "רעש" בנתונים. logFC חיובי אומר כי הגן הוא מוסדר למעלה בניסוי, בעוד מספר שלילי אומר כי הגן הוא למטה מוסדר.
    9. זהה את הדי-ג'י.
      res_limma$sig <- as.factor(
      ifelse(res_limma$adj. P.Val < 0.05 & res_limma$logFC) > 2,
      ifelse(res_limma$logFC > 2 ,'למעלה','down'),'')) # הערך של adj.p < 0.05 ו- |log2FC| >= 2 הם סף לזיהוי DEGs
      סיכום(res_limma$sig)
      ##down לא למעלה
      ##1880 ​17341 1443
    10. פלט טבלת התוצאות לקובץ.
      כתיבה.csv(res_limma, קובץ = 'result_limma.csv')
    11. לחץ על הפעל כדי להתקין את חבילת R "ggplot2".
      install.packages("ggplot2")
    12. לחץ על הפעל כדי לטעון את חבילת R "ggplot2".
      library(ggplot2)
    13. הפעל את קוד R מ "הר הגעש. R" כדי ליצור את חלקת הר הגעש. הקובץ "הר געש. R" ניתן לרכוש מקבצים משלימים.
      מקור("קבצים משלימים/ סקריפטים / הר געש. R")
      הר געש(res_limma,"logFC","adj. פ.ואל",2,0.05)
      הערה: ניתן למפות גנים למיקומים שונים בהתאם לערכי log2FC ו- adj-p שלהם, ה- DEGs המפוקחים למעלה נצבעים באדום, ו- DEGs המוסדר כלפי מטה נצבע בירוק.
    14. לחץ על ייצוא כדי להציל את חלקת הר הגעש.
      הערה: ניתן ליצור ולהוריד את מגרשי הר הגעש בפורמטים שונים (למשל, pdf, TIFF, PNG, פורמט JPEG). ניתן למפות גנים למיקומים שונים בהתאם לערכי log2FC ו- adj p שלהם, ה- DEGs המוסדרים (log2FC > 2, adj p < 0.05) צבועים באדום, ו- DEGs המוסדר כלפי מטה (log2FC < -2, adj p < 0.05) צבועים בירוק, שאינם DEGs צבועים באפור.

3. ניתוח ביטוי דיפרנציאלי באמצעות "edgeR"

  1. לחץ על הפעל כדי לטעון את חבילת R "edgeR".
    library(edgeR)
  2. הפעל את קוד ה- R הבא כדי ליצור מטריצת עיצוב.
    group <-substring(colnames(cnt),14,15)
    קבוצה [קבוצה %ב% "01"] <- "סרטן"
    קבוצה [קבוצה %ב% "11"] <- "רגיל"
    group=factor(קבוצה, רמות = c("נורמלי","סרטן"))
    עיצוב <-model.matrix(~קבוצה)
    שמות שורה(design) = colnames(cnt)
  3. לחץ על הפעל כדי ליצור את האובייקט DGEList.
    dge <- DGEList(counts=cnt)
  4. לנרמל את הנתונים.
    dge <- calcNormFactors(dge, method = "TMM")
  5. לחץ על הפעל כדי להעריך את הפיזור של ערכי ביטוי גנים.
    dge <- estimateDisp(dge, design, robust = T)
  6. לחץ על הפעל כדי להתאים מודל לספירת נתונים.
    התאם <- glmQLFit(dge, עיצוב)
  7. ערוך בדיקה סטטיסטית.
    התאם <- glmQLFTest (התאמה)
  8. חלץ את טבלת התוצאות. התוצאה נשמרת ב- "res_edgeR", הכוללת את ערך שינוי קיפול יומן הרישום, יומן הרישום עלות לאלף חשיפות, F, ערך p וערך p מתוקן של FDR.
    res_edgeR=as.data.frame(topTags(התאמה, n=Inf))
    ראש(res_edgeR)
    ## logFCFC F PValue FDR
    ##GCDH -3.299633 5.802700 458.5991 1.441773e-25 2.979280e-21
    ##MSMO1 -3.761400 7.521111 407.0416 1.730539e-24 1.787993e-20R
    ##CL1 -3.829504 5.319641 376.5043 8.652474e-24 5.516791e-20
    ##ADI1 -3.533664 8.211281 372.6671 1.067904e-23 5.516791e-20
    ##KCNN2 -5.583794 3.504017 358.6525 2.342106e-23 9.679455e-20
    ##GLUD1 -3.287447 8.738080 350.0344 3.848408e-23 1.194406e-19
    תוצאת #The נשמרת ב- "res_edgeR", הכוללת את ערך השינוי של קיפול יומן הרישום (logFC), עלות לאלף חשיפות של יומן רישום, F, ערך p וערך p מתוקן של FDR
  9. זהה את הדי-ג'י.
    res_edgeR$sig = as.factor(
    ifelse(res_edgeR$FDR < 0.05 & abs(res_edgeR$logFC) > 2,
    ifelse(res_edgeR$logFC > 2 'למעלה','down'),'not'))
    סיכום(res_edgeR$sig)
    ##down לא למעלה
    ##1578 15965 3121
  10. פלט טבלת התוצאות לקובץ.
    כתיבה.csv(res_edgeR, קובץ = 'res_edgeR.csv')
  11. צור את חלקת הר הגעש.
    הר געש(res_edgeR,"logFC","FDR",2,0.05)
  12. לחץ על ייצוא כדי להציל את חלקת הר הגעש.

4. ניתוח ביטוי דיפרנציאלי באמצעות "DESeq2"

  1. לחץ על הפעל כדי להתקין חבילות R "DESeq2".
    BiocManager::install("DESeq2")
  2. לחץ על הפעל כדי לטעון חבילות R "DESeq2".
    library(DESeq2)
  3. הפעל את קוד ה- R הבא כדי לקבוע את גורם הקבץ.
    group <-substring(colnames(cnt),14,15)
    קבוצה [קבוצה %ב% "01"] <- "סרטן"
    קבוצה [קבוצה %ב% "11"] <- "רגיל"
    group=factor(קבוצה, רמות = c("נורמלי","סרטן"))
  4. צור את האובייקט DESeqDataSet.
    dds <-DESeqDataSetFromMatrix (cnt, DataFrame(group), design = ~group)
    dds
    ##class: DESeqDataSet
    ##dim: 20664 45
    ##metadata(1): גירסה
    ##assays(1): ספירה
    ##rownames(20664): TSPAN6 DPM1 ... RP11-274B21.13 LINC01144
    שמות #rowData(0):
    ##colnames(45): TCGA-3X-AAVA-01A-11R-A41I-07 ...
    ##colData שמות(1): קבוצה
  5. בצע את הניתוח.
    dds <- DESeq(dds)
  6. צור את טבלת התוצאות.
    res_DESeq2 <- data.frame(תוצאות(dds))

    ראש(res_DESeq2)
    ## baseMean log2FoldChange lfcSE stat pvalue padj
    ##TSPAN6 4704.9243 -0.8204515 0.3371667 -2.433370 1.495899e-02 2.760180e-02
    ##DPM1 1205.9087 -0.3692497 0.1202418 -3.070894 2.134191e-03 4.838281e-03
    ##SCYL3 954.9772 0.2652530 0.2476441 1.071106 2.841218e-01 3.629059e-01
    ##C1orf112 277.7756 0.7536911 0.2518929 2.992109 2.770575e-03 6.101584e-03
    ##FGR 345.8789 -0.6423198 0.3712729 -1.730047 8.362180e-02 1.266833e-01
    ##CFH 27982.3546 -3.8761382 0.5473363 -7.081823 1.422708e-12 1.673241e-11
    הערה: התוצאה נשמרת ב- "res_DESeq2", הכוללת את הממוצע של ספירת הקריאה המנורמלת (baseMean), ערך שינוי קיפול יומן (log2FoldChange), שגיאת תקן שינוי קיפול יומן (lfcSE), סטטיסטיקת Wald (stat), ערך p המקורי (pvalue) וערך p מתוקן (padj)
  7. זהה DEGs.
    res_DESeq2$sig = as.factor(
    ifelse(res_DESeq2$padj < 0.05 & abs (res_DESeq2$log2FoldChange) > 2,
    ifelse(res_DESeq2$log2Foldשינוי > 2 'למעלה','down'),'not'))
    סיכום(res_DESeq2$sig)
    ##down לא למעלה
    ##1616 16110 2938
  8. פלט טבלת התוצאות לקובץ.
    כתיבה.csv(res_DESeq2, קובץ = 'res_DESeq2.csv')
  9. צור את חלקת הר הגעש.
    הר געש(res_DESeq2,"log2FoldChange","padj",2,0.05)
  10. לחץ על ייצוא כדי להציל את חלקת הר הגעש.

5. דיאגרמת ון

  1. לחץ על הפעל כדי להתקין את חבילת R "VennDiagram".
    install.packages("VennDiagram")
  2. לחץ על הפעל כדי לטעון את חבילת R "VennDiagram".
    ספריה (דיאגרמת ון)
  3. הפוך דיאגרמת ון של DEGs מוסדר.
    grid.newpage()
    grid.draw(venn.diagram(list(Limma=rownames(res_
    לימה[res_limma$sig=="up",]),
    edgeR=rownames(res_edgeR[res_edgeR$sig=="up",]),
    DESeq2=rownames(res_DESeq2[res_DESeq2$sig==
    "למעלה",])),
    NULL, גובה = 3, רוחב = 3,יחידות = "in",
    קול="שחור", lwd = 0.3,fill =c("#FF6666", "#FFFF00",
    "#993366"),
    אלפא = c(0.5, 0.5, 0.5),ראשי = "למעלה מוסדר DEGs"))
  4. לחץ על ייצוא כדי לשמור את דיאגרמת חיתוך ההון.
  5. הפוך דיאגרמת ון של DEGs מוסדר למטה.
    grid.newpage()
    grid.draw(venn.diagram(list(Limma=rownames(res_
    לימה[res_limma$sig=="down",]),
    edgeR=rownames(res_edgeR[res_edgeR$sig==
    "למטה",]),
    DESeq2=rownames(res_DESeq2[res_DESeq2$sig=="down",])),
    NULL, גובה = 3, רוחב = 3,יחידות = "in",
    קול="שחור", lwd = 0.3,fill =c("#FF6666", "#FFFF00",
    "#993366"),
    אלפא = c(0.5, 0.5, 0.5),ראשי = "DEGs מוסדר למטה"))
  6. לחץ על ייצוא כדי לשמור את דיאגרמת חיתוך ההון.

תוצאות

ישנן גישות שונות כדי לדמיין את התוצאה של ניתוח ביטוי דיפרנציאלי, ביניהם חלקת הר הגעש ודיאגרמת Venn משמשים במיוחד. לימה זיהתה 3323 DEGs בין CHOL ורקמות נורמליות עם |logFC|≥2 ו adj. P.Val <0.05 כסף, ביניהם 1880 היו למטה מוסדר ברקמות CHOL ו 1443 היו מוסדר למעלה(איור 1a). בינתיים, edgeR זיהתה את דגי ה-DEGs המפו?...

Discussion

תמלילים חריגים בשפע בסרטן ניתן לזהות בקלות על ידי ניתוח דיפרנציאלי RNA-seq5. עם זאת, היישום של ניתוח ביטוי דיפרנציאלי RNA-seq מוגבל לעתים קרובות כפי שהוא דורש מיומנויות מסוימות עם שפת R ואת היכולת לבחור שיטות מתאימות. כדי לטפל בבעיה זו, אנו מספקים מבוא מפורט לשלוש השיטות הידועות ביות?...

Disclosures

כתב היד לא פורסם בעבר ואינו נשקלת לפרסום במקומות אחרים. כל המחברים תרמו ליצירת כתב יד זה לתוכן אינטלקטואלי חשוב וקראו ואישרו את כתב היד הסופי. אנו מצהירים שאין ניגוד אינטרסים.

Acknowledgements

עבודה זו נתמכה על ידי הקרן הלאומית למדעי הטבע של סין (מענק מס ' 81860276) ופרויקטים מרכזיים של הקרן המיוחדת של תוכנית המחקר והפיתוח הלאומית (מענק מס '2018YFC1003200).

Materials

NameCompanyCatalog NumberComments
Rversion 3.6.2free software
Rstudiofree software

References

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, 1035-1043 (2013).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Explore More Articles

175

This article has been published

Video Coming Soon

JoVE Logo

Privacy

Terms of Use

Policies

Research

Education

ABOUT JoVE

Copyright © 2025 MyJoVE Corporation. All rights reserved