In This Article

Summary

Dostarczono szczegółowy protokół metod analizy różnicowej ekspresji dla sekwencjonowania RNA: limma, EdgeR, DESeq2.

Abstract

Sekwencjonowanie RNA (sekwencjonowanie RNA) jest jedną z najczęściej stosowanych technologii w transkryptomice, ponieważ może ujawnić związek między zmianami genetycznymi a złożonymi procesami biologicznymi i ma wielką wartość w diagnostyce, prognostyce i terapii nowotworów. Analiza różnicowa danych sekwencyjnych RNA ma kluczowe znaczenie dla identyfikacji nieprawidłowych transkrypcji, a limma, EdgeR i DESeq2 są skutecznymi narzędziami do analizy różnicowej. Jednak analiza różnicowa RNA-seq wymaga pewnych umiejętności posługiwania się językiem R i umiejętności wyboru odpowiedniej metody, której brakuje w programie edukacji medycznej.

Niniejszym udostępniamy szczegółowy protokół identyfikacji genów o zróżnicowanej ekspresji (DEG) między rakiem dróg żółciowych (CHOL) a normalnymi tkankami odpowiednio za pomocą limma, DESeq2 i EdgeR, a wyniki są pokazane na wykresach wulkanów i diagramach Venna. Trzy protokoły limma, DESeq2 i EdgeR są podobne, ale mają różne etapy w procesach analizy. Na przykład model liniowy jest używany do statystyk w limma, podczas gdy ujemny rozkład dwumianowy jest używany w edgeR i DESeq2. Dodatkowo, znormalizowane dane dotyczące liczby sekwencji RNA są niezbędne dla EdgeR i limma, ale nie są konieczne dla DESeq2.

Tutaj udostępniamy szczegółowy protokół dla trzech metod analizy różnicowej: limma, EdgeR i DESeq2. Wyniki tych trzech metod częściowo się pokrywają. Wszystkie trzy metody mają swoje zalety, a wybór metody zależy tylko od danych.

Introduction

Sekwencjonowanie RNA (sekwencjonowanie RNA) jest jedną z najczęściej stosowanych technologii w transkryptomice, z wieloma zaletami (np. wysoką odtwarzalnością danych) i znacznie zwiększyła nasze zrozumienie funkcji i dynamiki złożonych procesów biologicznych1,2. Identyfikacja aberracyjnych transkryptów w różnych kontekstach biologicznych, które są również znane jako geny o zróżnicowanej ekspresji (DEC), jest kluczowym krokiem w analizie sekwencyjnej RNA. RNA-seq umożliwia dogłębne zrozumienie mechanizmów molekularnych i funkcji biologicznych związanych z patogenezą. Dlatego analiza różnicowa została uznana za cenną w diagnostyce, prognostyce i terapii nowotworów3,4,5. Obecnie opracowano więcej pakietów R/Bioconductor typu open source do analizy różnicowej ekspresji RNA-seq, w szczególności limma, DESeq2 i EdgeR1,6,7. Analiza różnicowa wymaga jednak pewnych umiejętności posługiwania się językiem R oraz umiejętności wyboru odpowiedniej metody, czego brakuje w programie nauczania edukacji medycznej.

W tym protokole, na podstawie danych dotyczących liczby sekwencyjnych RNA raka dróg żółciowych (CHOL) wyodrębnionych z Atlasu Genomu Raka (TCGA), trzy z najbardziej znanych metod (limma8, EdgeR9 i DESeq210) zostały przeprowadzone, odpowiednio, przez program R11 w celu identyfikacji stopni DEG między CHOL a normalnymi tkankami. Trzy protokoły limma, EdgeR i DESeq2 są podobne, ale mają różne etapy w procesach analizy. Na przykład znormalizowane dane dotyczące liczby sekwencji RNA są niezbędne dla EdgeR i limma8, 9, podczas gdy DESeq2 używa własnych rozbieżności bibliotecznych do poprawiania danych zamiast normalizacji10. Co więcej, edgeR jest szczególnie odpowiedni dla danych sekwencyjnych RNA, podczas gdy limma jest używana do mikromacierzy i sekwencji RNA. Model liniowy jest przyjmowany przez limma do oceny DEGs12, podczas gdy statystyki w edgeR są oparte na ujemnych rozkładach dwumianowych, w tym empirycznym oszacowaniu Bayesa, dokładnych testach, uogólnionych modelach liniowych i testach quasi-prawdopodobieństwa9.

Podsumowując, udostępniamy szczegółowe protokoły analizy różnicowej ekspresji RNA-seq za pomocą odpowiednio limma, DESeq2 i EdgeR. Odwołując się do tego artykułu, użytkownicy mogą łatwo przeprowadzić analizę różnicową RNA-seq i wybrać odpowiednie metody analizy różnicowej dla swoich danych.

Access restricted. Please log in or start a trial to view this content.

Protocol

UWAGA: Otwórz program R-studio i załaduj plik R "DEGs.R", plik można pobrać z Dodatkowych plików/Skryptów.

1. Pobieranie i wstępne przetwarzanie danych

  1. Pobierz dane dotyczące sekwencjonowania wysokoprzepustowego (HTSeq) raka dróg żółciowych (CHOL) z Atlasu genomu raka raka (TCGA). Ten krok można łatwo wykonać za pomocą następującego kodu języka R.
    1. Kliknij pozycję Uruchom, aby zainstalować pakiety języka R.
    2. Kliknij pozycję Uruchom, aby załadować pakiety języka R.
      if(!requireNamespace("BiocManager", cicho=PRAWDA))
      + install.packages("BiocManager")
      BiocManager::install(c("TCGAbiolinks", "PodsumowanyEksperyment"))
    3. Ustaw katalog roboczy.
      biblioteka (TCGAbiolinks)
      biblioteka(PodsumowanyEksperyment)
      setwd("C:/Użytkownicy/LIUSHIYI/Pulpit")
    4. Wybierz typ nowotworu.
      rak < - "TCGA-CHOL"
    5. Uruchom kod języka R z pliku "GDCquery.R", aby pobrać dane. Plik "GDCquery.R" można pobrać z Supplementary files/Scripts:
      source("Pliki uzupełniające/Skrypty/GDCquery.R")
      Głowa (CNT)
      ##TCGA-3X-AAVA-01A-11R-A41I-07
      ##ENSG00000000003 4262
      ##ENSG00000000005 1
      ##ENSG00000000419 1254
      ##ENSG00000000457 699
      ##ENSG00000000460 239
      ##ENSG00000000938 334
      UWAGA: Po wykonaniu dane zliczania CHOLHTSeq zostaną pobrane i nazwane "cnt", gdzie wiersze reprezentują identyfikatory genów zespołu, a kolumny reprezentują identyfikatory próbek. Proszę zwrócić uwagę na numery na pozycjach 14-15 w identyfikatorach próbek; Liczby od 01 do 09 wskazują na nowotwory, a od 10 do 19 wskazują na normalne tkanki.
  2. Konwertuj identyfikatory genów zespołu na symbole genów.
    1. Zaimportuj plik adnotacji do języka R zgodnie ze ścieżką przechowywania. Plik adnotacji (gencode.v22.annotation.gtf) można pobrać z Supplementary files.
      gtf_v22 <- rtracklayer::import('Pliki uzupełniające/gencode.v22.annotation.gtf')
    2. Uruchom kod języka R z poziomu polecenia "gtf_v22. R", który można pobrać z Dodatkowe pliki/Skrypty:
      source("Pliki uzupełniające/Skrypty/gtf_v22. R")
    3. Zastosuj funkcję "ann", aby przekonwertować identyfikatory genów zespołu na symbole genów.
      cnt=ann(cnt;gtf_v22)
  3. Filtrowanie genów o niskiej ekspresji
    1. Kliknij przycisk Uruchom, aby zainstalować pakiet języka R "edgeR".
      BiocManager::install("krawędźR")
    2. Kliknij przycisk Uruchom, aby załadować pakiet języka R "edgeR".
      biblioteka(krawędźR)
    3. Uruchom następujący kod języka R, aby zachować wartości genów z liczbą na milion (CPM) większą niż jeden na co najmniej dwie próbki.
      zachowaj <- rowSums(cpm(cnt)>1)>=2
      cnt <- as.matrix(cnt[zachowaj,])
      UWAGA: Wartość liczby na milion (CPM) jest używana zamiast liczby odczytów, aby wyeliminować odchylenia spowodowane różnymi głębokościami sekwencjonowania.

2. Analiza różnicowa wyrażeń za pomocą "limma"

  1. Kliknij przycisk Uruchom, aby zainstalować pakiet języka R "limma".
    BiocManager::install("limma")
  2. Kliknij przycisk Uruchom, aby załadować pakiety języka R "limma", "edgeR".
    biblioteka(limma)
    biblioteka(krawędźR)
  3. Uruchom następujący kod języka R, aby utworzyć macierz projektu.
    group <- substring(colnames(cnt),14,15) # Wyodrębnij informacje o grupie
    grupa [grupa %w% "01"] <- "Rak" # ustaw '01' jako tkankę nowotworową
    group [group %in% "11"] <- "Normalna" # ustaw '11' jako normalną tkankę
    grupa <- czynnik (grupa, poziomy = c("Normalny","Rak"))
    1. Utwórz macierz projektu.
      projekt <- model.matrix (~grupa)
      Nazwy wierszy (projekt) < - nazwy kolumn (CNT)
    2. Utwórz obiekt DGEList.
      dge <- DGEList(liczby = cnt, grupa = grupa)
    3. Normalizacja danych.
      dge <- calcNormFactors(dge, metoda = "TMM")
    4. Uruchom następujący kod języka R, aby przeprowadzić analizę wyrażeń różnicowych opartą na metodzie limma-trend.
      dge
      ##An obiekt klasy "DGEList"
      ##$counts
      ##TCGA-3X-AAVA-01A-11R-A41I-07
      ##TSPAN6 4262
      ##DPM1 1254
      ##SCYL3 699
      ##C1orf112 239
      ##FGR 334
    5. Oblicz wartość CPM.
      logdge <- cpm(dge, log=PRAWDA, prior.count=3)
    6. Kliknij przycisk Uruchom, aby dopasować model liniowy w celu przewidywania danych lub wywnioskowania relacji między zmiennymi.
      fit <- lmFit (logdge, design)
    7. Oblicz wartość T, wartość F i logarytm kursów na podstawie Bayesian.
      fit <- eBayes(dopasowanie, trend=PRAWDA)
    8. Wyodrębnij tabelę wyników.
      res_limma<- as.data.frame(topTable(fit,n=Inf))

      głowa (res_limma)
      ## logFC AveExpr t P.Value przym. P.Val B
      ##RP11-252E2.2 -4.899493 -2.488589 -20.88052 2.386656e-25 4.931786e-21 47.28823
      ##BX842568.1 -4.347930 -2.595205 -20.14532 1.082759e-24 1.118706e-20 45.83656
      ##CTC-537E7.3 -5.154894 -2.143292 -19.59571 3.452354e-24 2.216114e-20 44.72001
      ##RP11-468N14.3 -6.532259 -2.029714 -19.49409 4.289807e-24 2.216114e-20 44.51056
      ##AP006216.5 -4.507051 -2.670915 -19.25649 7.153356e-24 2.956339e-20 44.01704
      ##RP11-669E14.4 -4.107204 -2.828311 -18.93246 1.448209e-23 4.987633e-20 43.33543
      #The wynik różnicowej analizy ekspresji jest zapisywany w "res_limma", który obejmuje identyfikator genu, wartość log2 krotnej zmiany (logFC), średni poziom ekspresji log2 genu w eksperymencie (AveExpr), zmodyfikowaną statystykę t (t), wartość relavent p (P.Value), skorygowaną wartość p współczynnika fałszywych odkryć (FDR) (adj. P.Val) i logarytm genów o zróżnicowanej ekspresji (B)
      UWAGA: Funkcja "calcNormFactors()" w "edgeR" została użyta do normalizacji danych w celu wyeliminowania wpływu spowodowanego przygotowaniem próbki lub budową i sekwencjonowaniem biblioteki. Przy konstruowaniu matrycy projektowej konieczne jest dopasowanie projektu eksperymentalnego (np. typu tkanki: tkanki prawidłowej lub nowotworowej) do identyfikatorów próbek matrycy. limma-trend jest odpowiedni dla danych, których głębokość sekwencjonowania jest taka sama, podczas gdy limma-voom jest odpowiednia: (i) gdy rozmiar biblioteki próbek jest różny; (ii) dane nieznormalizowane przez TMM; (iii) w danych jest dużo "szumu". Dodatni logFC oznacza, że gen jest regulowany w górę w eksperymencie, podczas gdy liczba ujemna oznacza, że gen jest regulowany w dół.
    9. Zidentyfikuj DEGs.
      res_limma$sig <- as.factor(
      ifelse(res_limma$adj. P.Val < 0.05 & abs(res_limma$logFC) > 2,
      ifelse(res_limma$logFC > 2 ,'w górę','w dół'),'nie')) # Wartość adj.p < 0,05 i |log2FC| >= 2 to progi pozwalające zidentyfikować DEGs
      summary(res_limma$sig)
      ##down nie up
      ##1880 17341 1443
    10. Wyprowadzaj tabelę wyników do pliku.
      write.csv(res_limma, plik = 'result_limma.csv')
    11. Kliknij przycisk Uruchom, aby zainstalować pakiet języka R "ggplot2".
      install.packages("ggplot2")
    12. Kliknij przycisk Uruchom, aby załadować pakiet języka R "ggplot2".
      biblioteka(ggplot2)
    13. Uruchom kod R z "wulkanu. R", aby utworzyć wykres wulkanu. Plik "wulkan. R" można pobrać z plików uzupełniających.
      source("Pliki uzupełniające/Skrypty/wulkan. R")
      wulkan(res_limma,"logFC","przym. P.Val",2,0.05)
      UWAGA: Geny można mapować do różnych pozycji zgodnie z ich wartościami log2FC i adj-p, DEG regulowane w górę są pokolorowane na czerwono, a DEG regulowane w dół są pokolorowane na zielono.
    14. Kliknij przycisk Eksportuj, aby zapisać wykres wulkanu.
      UWAGA: Wykresy wulkanów można generować i pobierać w różnych formatach (np. pdf, tiff, png, jpeg). Geny można mapować do różnych pozycji zgodnie z ich wartościami log2FC i adj p, DEG regulowane w górę (log2FC > 2, adj p < 0,05) są pokolorowane na czerwono, a DEG regulowane w dół (log2FC < -2, adj p < 0,05) są pokolorowane na zielono, DEG nie-DEG są pokolorowane na szaro.

3. Analiza różnicowa wyrażeń za pomocą "edgeR"

  1. Kliknij przycisk Uruchom, aby załadować pakiet języka R "edgeR".
    biblioteka(krawędźR)
  2. Uruchom następujący kod języka R, aby utworzyć macierz projektu.
    grupa <-podciąg(nazwy(cnt),14,15)
    grupa [grupa %w% "01"] <- "Rak"
    group [grupa %in% "11"] <- "Normalny"
    group=factor(grupa, poziomy = c("Normalny","Rak")))
    design <-model.matrix(~group)
    Nazwy wierszy(projekt) = nazwy kolumn(CNT)
  3. Kliknij przycisk Uruchom, aby utworzyć obiekt DGEList.
    dge <- DGEList(liczby=cnt)
  4. Normalizacja danych.
    dge <- calcNormFactors(dge, metoda = "TMM")
  5. Kliknij przycisk Uruchom, aby oszacować rozproszenie wartości ekspresji genów.
    dge <- estimateDisp(dge, projekt, solidny = T)
  6. Kliknij przycisk Uruchom, aby dopasować model do zliczania danych.
    fit <- glmQLFit(dge, projekt)
  7. Przeprowadź test statystyczny.
    dopasuj <- glmQLFTest(dopasowanie)
  8. Wyodrębnij tabelę wyników. Wynik jest zapisywany w "res_edgeR", który zawiera wartość zmiany logarytmu, logarytm CPM, wartość F, p i skorygowaną wartość p FDR.
    res_edgeR=as.data.frame(topTags(fit, n=Inf))
    głowa (res_edgeR)
    ## logFC logCPM F PValue FDR
    ##GCDH -3.299633 5.802700 458.5991 1.441773e-25 2.979280e-21
    ##MSMO1 -3.761400 7.521111 407.0416 1.730539e-24 1.787993e-20R
    ##CL1 -3.829504 5.319641 376.5043 8.652474e-24 5.516791e-20
    ##ADI1 -3.533664 8.211281 372.6671 1.067904e-23 5.516791e-20
    ##KCNN2 -5.583794 3.504017 358.6525 2.342106e-23 9.679455e-20
    ##GLUD1 -3.287447 8.738080 350.0344 3.848408e-23 1.194406e-19
    #The wynik jest zapisywany w formacie "res_edgeR", który zawiera wartość zmiany logarytmu krotności (logFC), logarytm CPM, wartość F, p i skorygowaną wartość p FDR
  9. Zidentyfikuj DEGs.
    res_edgeR$sig = as.factor(
    ifelse(res_edgeR$FDR < 0.05 & abs(res_edgeR$logFC) > 2,
    ifelse(res_edgeR$logFC > 2 ,'góra','dół'),'nie'))
    summary(res_edgeR$sig)
    ##down nie up
    ##1578 15965 3121
  10. Wyprowadzaj tabelę wyników do pliku.
    write.csv(res_edgeR, plik = 'res_edgeR.csv')
  11. Utwórz działkę wulkanu.
    wulkan(res_edgeR,"logFC","FDR",2,0.05)
  12. Kliknij przycisk Eksportuj, aby zapisać wykres wulkanu.

4. Analiza różnicowa wyrażeń za pomocą "DESeq2"

  1. Kliknij przycisk Uruchom, aby zainstalować pakiety języka R "DESeq2".
    BiocManager::install("DESeq2")
  2. Kliknij przycisk Uruchom, aby załadować pakiety języka R "DESeq2".
    biblioteka(DESeq2)
  3. Uruchom następujący kod języka R, aby określić współczynnik grupowania.
    grupa <-podciąg(nazwy(cnt),14,15)
    grupa [grupa %w% "01"] <- "Rak"
    group [grupa %in% "11"] <- "Normalny"
    group=factor(grupa, poziomy = c("Normalny","Rak"))
  4. Utwórz obiekt DESeqDataSet.
    dds <-DESeqDataSetFromMatrix (cnt, DataFrame(group), design = ~group)
    dds
    ##class: DESeqDataSet
    ##dim: 20664 45
    ##metadata(1): wersja
    ##assays(1): liczy
    ##rownames(20664): TSPAN6 DPM1 ... RP11-274B21.13 LINC01144
    ##rowData nazwy(0):
    ##colnames(45): TCGA-3X-AAVA-01A-11R-A41I-07 ...
    ##colData imiona(1): grupa
  5. Wykonaj analizę.
    dds <- DESeq(dds)
  6. Wygeneruj tabelę wyników.
    res_DESeq2 <- data.frame(wyniki(dds))

    głowa (res_DESeq2)
    ## baseMean log2FoldZmień wartość p-statystyki lfcSE padj
    ##TSPAN6 4704.9243 -0.8204515 0.3371667 -2.433370 1.495899e-02 2.760180e-02
    ##DPM1 1205.9087 -0.3692497 0.1202418 -3.070894 2.134191e-03 4.838281e-03
    ##SCYL3 954.9772 0.2652530 0.2476441 1.071106 2.841218e-01 3.629059e-01
    ##C1orf112 277.7756 0.7536911 0.2518929 2.992109 2.770575e-03 6.101584e-03
    ##FGR 345.8789 -0.6423198 0.3712729 -1.730047 8.362180e-02 1.266833e-01
    ##CFH 27982.3546 -3.8761382 0.5473363 -7.081823 1.422708e-12 1.673241e-11
    UWAGA: Wynik jest zapisywany w "res_DESeq2", który zawiera średnią znormalizowanej liczby odczytów (baseMean), wartość zmiany logarytmu złożenia (log2FoldChange), błąd standardowy zmiany logarytmu zmiany złożenia (lfcSE), statystykę Walda (stat), oryginalną wartość p (pvalue) i poprawioną wartość p (padj)
  7. Zidentyfikuj DEGs.
    res_DESeq2$sig = as.factor(
    ifelse(res_DESeq2$padj < 0.05 & abs(res_DESeq2$log2FoldChange) > 2,
    ifelse(res_DESeq2$log2FoldZmień > 2 ,'góra','dół'),'nie'))
    summary(res_DESeq2$sig)
    ##down nie up
    ##1616 16110 2938
  8. Wyprowadzaj tabelę wyników do pliku.
    write.csv(res_DESeq2, plik = 'res_DESeq2.csv')
  9. Utwórz działkę wulkanu.
    wulkan(res_DESeq2,"log2FoldChange","padj",2,0.05)
  10. Kliknij przycisk Eksportuj, aby zapisać wykres wulkanu.

5. Diagram Venna

  1. Kliknij przycisk Uruchom, aby zainstalować pakiet języka R "VennDiagram".
    install.packages("Diagram Venn")
  2. Kliknij przycisk Uruchom, aby załadować pakiet języka R "VennDiagram".
    biblioteka (VennDiagram)
  3. Zrób diagram Venna dla regulowanych stopni w górę.
    grid.newpage()
    grid.draw(venn.diagram(list(Limma=nazwy wierszy(res_
    limma[res_limma$sig=="up",]),
    edgeR=nazwy wierszy(res_edgeR[res_edgeR$sig=="w górę",]),
    DESeq2=nazwy wierszy(res_DESeq2[res_DESeq2$sig==
    "góra",])),
    NULL,wysokość = 3,szerokość = 3,jednostki = "in",
    col="",lwd=0.3,fill=c("#FF6666","#FFFF00",
    "#993366"),
    alpha=c(0.5, 0.5, 0.5),main = "Stopnie regulowane w górę"))
  4. Kliknij przycisk Eksportuj, aby zapisać diagram Venna.
  5. Zrób diagram Venna dla regulowanych w dół DEGs.
    grid.newpage()
    grid.draw(venn.diagram(list(Limma=nazwy wierszy(res_
    limma[res_limma$sig=="w dół",]),
    edgeR=nazwy wierszy(res_edgeR[res_edgeR$sig==
    "w dół",]),
    DESeq2=nazwy wierszy(res_DESeq2[res_DESeq2$sig=="w dół",])),
    NULL,wysokość = 3,szerokość = 3,jednostki = "in",
    col="",lwd=0.3,fill=c("#FF6666","#FFFF00",
    "#993366"),
    alpha=c(0,5, 0,5, 0,5),main = "Obniżone stopnie Celsjusza"))
  6. Kliknij przycisk Eksportuj, aby zapisać diagram Venna.

Access restricted. Please log in or start a trial to view this content.

Results

Istnieją różne podejścia do wizualizacji wyników analizy różnicowej wyrażeń, wśród których szczególnie wykorzystywane są wykres wulkanu i diagram Venna. limma zidentyfikowała 3323 stopnie między CHOL a normalnymi tkankami za pomocą |logFC|≥2 i adj. P.Val <0,05 jako progi, wśród których 1880 było regulowanych w dół w tkankach CHOL, a 1443 było regulowanych w górę (Rysunek 1a). Tymczasem edgeR zidentyfikował 1578 DEG regulowanych w dół i 3121 DEG regulowanych w ...

Access restricted. Please log in or start a trial to view this content.

Discussion

Obfite aberracyjne transkrypty w nowotworach można łatwo zidentyfikować za pomocą analizy różnicowej RNA-seq5. Jednak zastosowanie analizy różnicowej ekspresji RNA-seq jest często ograniczone, ponieważ wymaga pewnych umiejętności w zakresie języka R i zdolności do wyboru odpowiednich metod. Aby rozwiązać ten problem, przedstawiamy szczegółowe wprowadzenie do trzech najbardziej znanych metod (limma, EdgeR i DESeq2) oraz samouczki dotyczące stosowania analizy różnicowej wyraże?...

Access restricted. Please log in or start a trial to view this content.

Disclosures

Manuskrypt nie był wcześniej publikowany i nie jest brany pod uwagę do publikacji w innych miejscach. Wszyscy autorzy przyczynili się do powstania tego manuskryptu ze względu na ważne treści intelektualne oraz przeczytali i zatwierdzili ostateczną wersję rękopisu. Oświadczamy, że nie ma konfliktu interesów.

Acknowledgements

Ta praca była wspierana przez Narodową Fundację Nauk Przyrodniczych Chin (Grant nr 81860276) oraz Kluczowe Projekty Funduszu Specjalnego Narodowego Kluczowego Programu Badawczo-Rozwojowego (Grant nr 2018YFC1003200).

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Rwersja 3.6.2darmowe oprogramowanie
Darmowe oprogramowanieRstudio

References

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152(2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022(2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47(2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, Oxford, England. 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550(2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80(2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29(2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178(2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383(2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, Oxford, England. 1035-1043 (2013).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Explore More Articles

R nicowa analiza ekspresjisekwencjonowanie RNALimmaEdgeRDESeq2sekwencjonowanie wysokoprzepustowerak dr g ciowychatlas genomu rakaRStudiowst pne przetwarzanie danychsymbole gen widentyfikatory gen w zespo uplik adnotacjigeny o niskiej ekspresjiobiekt DGEListmatryca projektowamodel liniowy