Tres métodos de análisis de expresión diferencial para la secuenciación de ARN: limma, EdgeR y DESeq2. Abra el programa RStudio y luego cargue el archivo R, DEGs. El archivo se puede adquirir a partir de archivos complementarios. Uno.
Descarga y preprocesamiento de datos.1.1. Descargue los datos de recuento de secuenciación de alto rendimiento del colangiocarcinoma del Atlas del Genoma del Cáncer. Esta pestaña se puede lograr fácilmente con el siguiente código.
Haga clic en Ejecutar para instalar el paquete R. Haga clic en ejecutar para cargar el paquete de R. Establecer directorio de trabajo.
Elija el tipo de cáncer. Ejecute el código R desde el archivo GDCquery para descargar los datos. El archivo GDCquery se puede adquirir a partir de archivos/scripts complementarios.
Después de la ejecución, los datos del recuento de secuenciación de ARN del colangiocarcinoma se pueden descargar y denominar CNT, donde las filas representan id de genes de conjunto y las columnas representan id. de símbolos. Tenga en cuenta los números en la posición 14 a 15 en los ID de símbolos. Los números van del 01 al 09 que indican tumores y del 10 al 19 indican tejidos normales.1.2.
Conversación de id.ids de genes de conjunto a símbolos de genes. Importe el archivo de anotación en R, de acuerdo con su ruta de almacenamiento. El archivo de anotación se puede adquirir a partir de archivos complementarios.
Ejecute el código R desde el archivo gtf v22. Que se puede adquirir a partir de archivos / scripts complementarios. Aplicar la función inn"y convertir los ID de genes del conjunto en símbolos de genes.1.3.
Filtrar genes de baja expresada. Haga clic en ejecutar para instalar el paquete edgeR"Haga clic en ejecutar para cargar el paquete de R edgeR"Ejecute el código de R para mantener los genes con recuentos por millón de valores superiores a uno de al menos dos ejemplos. Dos. Análisis de expresión diferencial a través de limma"Haga clic en Ejecutar para instalar el paquete de R limma"Haga clic en Ejecutar para cargar el paquete de R limma"edgeR"Ejecute el siguiente código de R para crear una matriz de diseño.
Extraer información del grupo. Establezca 01" como tejido tumoral. Establecer 11" como tejido normal.
Crear matriz de diseño. Cree el objeto DGEList. Normalizar los datos.
Ejecute el siguiente código de R para realizar el análisis de expresión diferencial basado en el método limma-trend. Calcule el valor de CPM. Haga clic en Ejecutar para ajustar un modelo lineal para predecir los datos o inferir la relación entre variables.
Calcule el valor T, el valor F y las probabilidades logarítmos basadas en bayesiano. Extraiga la tabla de resultados. Los resultados del análisis de expresión diferencial se guardan en res_limma", que incluye el valor de cambio log2 fold.
El nivel medio de expresión log2 del gen en el experimento. La estadística T modificada, el valor P, la tasa de descubrimiento falso corrigieron el valor p y las probabilidades logarítimas de genes expresados diferencialmente. Identificar los genes expresados diferencialmente.
Por lo tanto, el valor ajustado de P menor que 0,05 y el valor absoluto del cambio falso logarítsi mayor o igual a dos son umbrales para examinar los genes expresados diferencialmente. Los resultados muestran que, en comparación con los tejidos normales, 1.443 genes están regulados al pie, y 1.880 genes están regulados a la baja en los tejidos del colangiocarcinoma. Genere la tabla de resultados en un archivo.
Haga clic en Ejecutar para instalar el paquete R ggplot2"Haga clic en Ejecutar para cargar el paquete R ggplot2"Ejecute el código R desde el archivo volcano para crear el diagrama volcano y el volcán archivo volcano se puede adquirir desde archivos complementarios. Los genes se pueden mapear a diferentes posiciones de acuerdo con su cambio de pliegue log2 y valores de P ajustados. Por lo tanto, los genes expresados diferencialmente regulados al pie están coloreados en rojo.
y los genes expresados diferencialmente regulados a la baja están coloreados en verde. Haga clic en exportar" para guardar la gráfica del volcán. Tres. Análisis de expresión diferencial a través de edgeR"Haga clic en Ejecutar para cargar el paquete de R edgeR"Ejecute el siguiente código de R para crear una matriz de diseño.
Haga clic en Ejecutar para crear el objeto DGEList y normalizar los datos. Haga clic en Ejecutar para estimar el valor de dispersión de la expresión génica. Haga clic en Ejecutar para ajustar el modelo y contar los datos.
Realizar pruebas estadísticas. Extraiga la tabla de resultados. El resultado se guarda en res edgeR", que incluye el valor de cambio de pliegue de registro, logCPM, F, valor p y el valor p corregido de tasa de descubrimiento falso.
Identificar los genes expresados diferencialmente. El resultado res edgeR"muestra que, en comparación con los tejidos normales, 3, 121 genes están regulados al pie y 1, 578 genes están regulados a la baja en los tejidos del colangiocarcinoma. Genere la tabla de resultados en un archivo.
Crea la trama del volcán. Haga clic en exportar para guardar el gráfico del volcán. Cuatro. Análisis de expresión diferencial a través de DESeq2.
Haga clic en Ejecutar para instalar el paquete de R DESeq2"Haga clic en Ejecutar para cargar el paquete de R DESeq2"Ejecute el siguiente código de R para determinar el factor de manoseo. Cree el objeto de conjunto de datos DESeq2. Realizar análisis.
Genere la tabla de resultados. El resultado se guarda en res DESeq2, que incluye la media del recuento de lectura normalizado, el valor de cambio de pliegue de registro, la flecha estándar de cambio de pliegue de registro, la estadística de soldadura, el valor de P original y el valor de P corregido. Identificar DEGs.
El resultado res DESeq2 muestra que, en comparación con los tejidos normales, dos mil novecientos treinta y ocho genes están regulados al pie, y mil seiscientos dieciséis genes están regulados a la baja en los tejidos del colangiocarcinoma. Genere la tabla de resultados en un archivo. Crea la trama del volcán.
Haga clic en exportar para guardar el gráfico del volcán. Cinco. Diagrama de Venn. Haga clic en Ejecutar para instalar el diagrama de venn del paquete R.
Haga clic en Ejecutar para cargar el diagrama de venn del paquete R. Haga un diagrama de Venn de genes expresados diferencialmente regulados al pie. Haga clic en exportar para guardar el diagrama de van, Hacer un diagrama de Venn de genes expresados diferencialmente regulados a la baja.
Haga clic en exportar para guardar el diagrama de Venn. Seis. Resultados representativos. La figura uno muestra las gráficas de volcanes de todos los genes adquiridos por limma, edgeR y DESeq2.
El valor negativo de log p se traza contra el cambio de pliegue de log. Los puntos rojos representan los genes expresados diferencialmente regulados hacia arriba, y los puntos verdes representan los genes expresados diferencialmente regulados hacia abajo. Limma identifica los mil ochocientos ochenta genes expresados diferencialmente regulados a la baja, y los mil cuatrocientos cuarenta y tres genes expresados diferencialmente regulados hacia arriba en los tejidos del colangiocarcinoma.
EdgeR identifica los mil quinientos setenta y ocho genes expresados diferencialmente regulados a la baja, y tres mil ciento veintiún genes expresados diferencialmente regulados hacia arriba. DESeq2 identifica mil seiscientos dieciséis genes expresados diferencialmente regulados a la baja, y dos mil novecientos treinta y ocho genes expresados diferencialmente regulados hacia arriba. Figura dos, los diagramas de Venn muestran superposición entre los resultados de la división de limma edgeR y DESeq2.
Compare los resultados de estos tres métodos, Mil cuatrocientos treinta y un genes expresados diferencialmente regulados hacia arriba, y mil quinientos treinta y un genes expresados diferencialmente regulados hacia abajo se superponen. Siete.Conclusión. En este protocolo, proporcionamos aquí un protocolo detallado de diferentes tipos de análisis de medidas para una secuencia alta de datos de recuento mediante el uso de paquetes R, limma, edgeR y DESeq2. Tres métodos tienen similares y personal entre su proceso de análisis.
Y luego su de esos tres medicamentos se superpone en parte. Los tres medicamentos tienen sus propias ventajas. Y la elección solo depende del tiempo de sus datos.
Si hay mis datos actuales, limma debe darse con prioridad, pero se prefieren los datos de secuenciación de generación, en edgeR y DESeq2.