Três métodos diferenciais de análise de expressão para sequenciamento de RNA:limma, EdgeR e DESeq2. Abra o programa RStudio e, em seguida, carregue arquivo R, DEGs. O arquivo pode ser adquirido a partir de arquivos suplementares. Um.
Download e pré-processamento de dados.1.1. Baixe os dados de contagem de sequenciamento de alta produtividade de Cholangiocarcinoma do Atlas do Genoma do Câncer. Esta guia pode ser facilmente alcançada pelo seguinte código.
Clique em executar para instalar o pacote R. Clique em executar para carregar o pacote R. Definir diretório de trabalho.
Escolha o tipo de câncer. Execute o código R do arquivo GDCquery para baixar os dados. O GDCquery do arquivo pode ser adquirido a partir de arquivos/scripts complementares.
Após a execução, os dados de contagem de sequenciamento de RNA de Cholangiocarcinoma podem ser baixados e chamados CNT, onde as linhas representam IDs e colunas genéticas do conjunto representam IDs de símbolos. Observe os números na posição 14 a 15 nos IDs dos símbolos. Os números variam de 01 a 09 indicam tumores e 10 a 19 indicam tecidos normais.1.2.
Conversa de conjuntos de genes com símbolos genéticos. Importe o arquivo de anotação em R, de acordo com o seu caminho de armazenamento. O arquivo de anotação pode ser adquirido a partir de arquivos complementares.
Execute o código R a partir do arquivo GTF V22. Que podem ser adquiridos a partir de arquivos/scripts complementares. Aplique a função da pousada e converta os IDs genéticos do conjunto em símbolos genéticos.1.3.
Filtrar genes baixos expressos. Clique em executar para instalar o edgeR do pacote "Clique em executar para carregar o edgeR do pacote R"Execute seguindo o código R para manter os genes com contagens por milhão de valores maiores que um em pelo menos duas amostras. Dois. Análise de expressão diferencial através do limma"Clique em Executar para instalar o pacote R limma"Clique em Executar para carregar o pacote R limma"edgeR"Executar o seguinte código R para criar matriz de design.
Extrair informações do grupo. Coloque 01"como tecido tumoral. Coloque 11"como tecido normal.
Criar matriz de design. Crie o objeto DGEList. Normalize os dados.
Execute o seguinte código R para executar a análise de expressão diferencial baseada no método limma-trend. Calcule o valor do CPM. Clique em Executar para encaixar em um modelo linear para prever os dados ou inferir a relação entre variáveis.
Calcule o valor T, o valor F e as probabilidades de log com base no Bayesian. Extrair a tabela de resultados. Os resultados da análise de expressão diferencial são salvos em res_limma", o que inclui o valor de alteração da dobra log2.
O nível médio de expressão log2 do gene no experimento. A estatística T modificada, o valor P, a taxa de descoberta falsa corrigiu o valor p e as chances de log de genes expressos diferencialmente. Identifique os genes expressos diferencialmente.
Assim, o valor P ajustado inferior a 0,05, e o valor absoluto de log falsa mudança maior ou igual a dois são limiares para tela dos genes expressos diferencialmente. Os resultados res limma mostra que comparando com os tecidos normais, 1.443 genes são regulados, e 1.880 genes são regulados em tecidos cholangiocarcinoma. Saída a tabela de resultados para um arquivo.
Clique em Executar para instalar o pacote R ggplot2"Clique em Executar para carregar o pacote R ggplot2"Executar código R do arquivo vulcão para criar o enredo do vulcão e o vulcão de arquivos pode ser adquirido a partir de arquivos suplementares. Os genes podem ser mapeados para diferentes posições de acordo com a alteração de dobra log2 e valores P ajustados. Assim, genes expressos diferencialmente regulados são coloridos em vermelho.
e os genes expressos diferencialmente regulados são coloridos em verde. Clique em exportar"para salvar o enredo do vulcão. Três. Análise de expressão diferencial através do edgeR"Clique em Executar para carregar borda do pacote R"Execute o seguinte código R para criar matriz de design.
Clique em Executar para criar o objeto DGEList e normalizar os dados. Clique em Executar para estimar a dispersão do valor da expressão genética. Clique em Executar para ajustar o modelo para contar dados.
Realizar teste estatístico. Extrair a tabela de resultados. O resultado é salvo em res edgeR", que inclui o valor de alteração do fold de log, logCPM, F, p valor e a taxa de detecção falsa corrigida p valor.
Identifique os genes expressos diferencialmente. O resultado res edgeR" mostra que comparando com os tecidos normais, 3.121 genes são regulados, e 1.578 genes são regulados em tecidos cholangiocarcinoma. Saída a tabela de resultados para um arquivo.
Crie o enredo do vulcão. Clique em exportar para salvar o enredo do vulcão. Quatro. Análise de expressão diferencial através do DESeq2.
Clique em Executar para instalar o pacote R DESeq2"Clique em Executar para carregar o pacote R DESeq2"Execute o seguinte código R para determinar o fator tateamento. Crie o objeto de conjunto de dados DESeq2. Faça análises.
Gere a tabela de resultados. O resultado é salvo em res DESeq2, que inclui a média da contagem de leitura normalizada, valor de alteração de dobra de log, seta padrão de alteração de dobra de log, a estatística de solda, o valor P original e o valor P corrigido. Identifique deGs.
O resultado res DESeq2 mostra que comparando com os tecidos normais, dois mil novecentos e trinta e oito genes são regulados, e mil seiscentos e dezesseis genes são regulados em tecidos cholangiocarcinoma. Saída a tabela de resultados para um arquivo. Crie o enredo do vulcão.
Clique em exportar para salvar o enredo do vulcão. Cinco. Diagrama de Venn. Clique em Executar para instalar o diagrama de venn do pacote R.
Clique em Executar para carregar o diagrama de venn do pacote R. Faça um diagrama de venn de genes expressos diferencialmente regulados. Clique em exportar para salvar o diagrama da van, Faça um diagrama de venn de genes expressos diferencialmente regulados.
Clique em exportar para salvar o diagrama de venn. Seis. Resultados representativos. A figura um mostra as parcelas vulcânicas de todos os genes adquiridos por limma, edgeR e DESeq2.
O valor p de log negativo é plotado contra a alteração da dobra de log. Os pontos vermelhos representam os genes expressos diferencialmente regulados, e os pontos verdes representam os genes expressos diferencialmente regulados. Limma identifica os mil oitocentos e oitenta genes regulados diferencialmente expressos, e os mil quatrocentos e quarenta e três genes expressos diferencialmente nos tecidos cholangiocarcinoma.
EdgeR identifica os mil quinhentos e setenta e oito genes expressos diferencialmente regulados, e três mil cento e vinte e um genes expressos diferencialmente. O DESeq2 identifica mil seiscentos e dezesseis genes expressos diferencialmente regulados, e dois mil novecentos e trinta e oito genes expressos diferencialmente. Figura dois, os diagramas de venn mostram sobreposição entre os resultados divididos de limma edgeR e DESeq2.
Compare os resultados desses três métodos, mil quatrocentos e trinta e um genes expressos diferencialmente regulados, e mil quinhentos e trinta e um genes expressos diferencialmente regulados estão sobrepostos. Seven.Conclusion. Neste protocolo, fornecemos aqui um protocolo detalhado de diferentes tipos de análise de medidas para uma alta sequência de dados de contagem usando pacotes R, limma, edgeR e DESeq2. Três métodos têm equipes semelhantes e equipes entre seu processo de análise.
E então os seus desses três medicamentos estão parcialmente sobrepostos. Todos os três medicamentos têm suas próprias vantagens. E a escolha depende apenas do tempo de seus dados.
Se houver meus dados atuais, limma deve ser dado com prioridade, mas dados de sequenciamento de geração, no edgeR e DESeq2 são preferidos.