Este protocolo proporciona una comprensión integral de las isoformas génicas generadas por empalme alternativo y poliadenilación al proporcionar un flujo de trabajo paso a paso para identificar sitios de empalme diferencial, exones expresados diferencialmente y poli(A)sitios. La principal ventaja de este protocolo es que evalúa métodos basados en exones y basados en eventos para estudiar splicing alternativo. También aplica el método basado en exones para estudiar la poliadenilación alternativa.
Se han proporcionado los archivos R Markdown que incluyen los códigos y notas para el análisis AS y AP. Sería recomendable seguir los pasos en el archivo R Markdown y llegar a la nota para cada paso cuidadosamente. Para identificar el empalme diferencial mediante diffSplice de limma, siga el archivo de bloc de notas de R.
Prepare los archivos de entrada como se describe en el texto manuscrito. Asegúrese de que los pasos del uno al tres en el manuscrito se hayan seguido secuencialmente para preparar los archivos de entrada antes de continuar. Comience cargando las bibliotecas necesarias.
Para realizar un filtrado no específico, primero extraiga la matriz de recuentos de lectura obtenidos previamente y cree una lista de entidades utilizando la función DGEList del paquete edgeR, donde las filas representan genes y las columnas representan muestras. A continuación, transforme los datos de escala sin procesar a recuentos por millón utilizando la función CPM del paquete edgeR y mantenga exones con recuentos superiores a un umbral configurable. Este conjunto de datos contiene seis ejemplos.
Por lo tanto, el CPM se establece en más de una y al menos tres muestras de seis. Normalice los recuentos entre muestras con la función calcNormFactors del paquete edgeR utilizando la media recortada de los valores M. Esta función calculará factores de escala para ajustar el tamaño de la biblioteca.
Utilice la tabla de ejemplo generada previamente para crear la matriz de diseño para definir las condiciones experimentales de cada muestra. Ejecute la función voom del paquete limma para procesar los datos de secuenciación de ARN para estimar la varianza. Esta función generará pesos de precisión para corregir el ruido de conteo de Poisson y transformar los recuentos de nivel de exón para registrar dos recuentos por millón o logCPM.
Ejecute la función lmfit para ajustar los modelos lineales a los datos de expresión de cada exón. A continuación, ejecute la función eBayes para calcular estadísticas empíricas para que el modelo ajustado detecte la expresión diferencial del exón. Definir una matriz de contraste para las comparaciones experimentales de interés.
Usa los contrastes. Función de ajuste para obtener coeficientes y errores estándar para cada par de comparaciones. Ejecute diffSplice en el modelo ajustado para probar las diferencias en el uso de exones de genes entre wild type y knockout.
Explore los resultados mejor clasificados utilizando la función topSplice donde una prueba igual a t da una clasificación de exones AS y una prueba igual a simes da una clasificación de genes. Ejecute la función plotSplice para trazar los resultados. Al poner el gen de interés en el argumento de la identificación del gen, los puntos rojos muestran los exones expresados diferencialmente.
Genere un diagrama de volcán utilizando el paquete de bioconductores EnhancedVolcano para exhibir los exones expresados diferencialmente. Para usar rMATS, asegúrese de que la última versión de rMATS versión 4.1.1 esté instalada usando conda o GitHub en el directorio de trabajo. Vaya a la carpeta que contiene los archivos bam obtenidos después de la asignación.
Prepare los archivos de texto según lo requiera rMATS para las dos condiciones de copiar el nombre de los archivos bam y su ruta separada por una coma. Ejecute rmas. PY utilizando los dos archivos de texto de entrada generados que describen la ruta de acceso de los archivos BAM y la anotación.
GTF obtenido previamente. Esto genera una carpeta de salida rmats_out que contiene archivos de texto que describen estadísticas, incluidos los valores P y los niveles de inclusión para cada evento de empalme por separado. Utilice el máser del paquete bioconductor para explorar los resultados de rMATS.
Cargue los archivos de texto de conteo de uniones y exones con la extensión JCEC en el objeto máser e incluya al menos cinco lecturas promedio por evento de empalme para filtrar el resultado en función de la cobertura. Para visualizar los resultados de rMATS, primero ejecute la función topEvents desde el paquete máser, seleccionando los eventos de empalme significativos con una tasa de descubrimiento falso del 10% y un cambio mínimo del 10% en el porcentaje empalmado o PSI. Verifique los eventos genéticos para genes individuales de interés y trace los valores de PSI para cada evento de empalme de ese gen.
Genere un diagrama de volcán especificando el tipo de evento. Utilice los resultados de los eventos de empalme obtenidos con rMATS en forma de archivos de texto para generar gráficos de sashimi utilizando el paquete rmats2sashimiplot. La gráfica de sashimi muestra un evento de exón omitido en el gen Wnk1.
Cada fila representa una muestra de RNA-seq, tres réplicas de tipo salvaje y knockout Mbnl1. La altura muestra la cobertura de lectura en RPKM y los arcos de conexión representan lecturas de unión a través de exones. La parte inferior muestra isoformas alternativas anotadas del modelo genético.
Se puede observar un cambio sustancial en el pliegue y una fuerte evidencia estadística de diferencias genuinas en los genes ubicados en los cuadrantes superior izquierdo o derecho de los diagramas de volcanes obtenidos utilizando diffSplice y DEXSeq. Se encontró que un exón de casete variaba entre diferentes condiciones para el gen Wnk1. La gráfica de uso de exones diferenciales mostró evidencia de empalme diferencial en cinco sitios de exón cerca de Wnk1.6.45, con los exones resaltados en rosa probablemente empalmados en muestras knockout de Mbnl1 en comparación con el tipo salvaje.
La gráfica del volcán de genes que se empalman alternativamente ayudó a distinguir entre los genes que fueron excluidos del tipo salvaje y los que se incluyeron en el tipo salvaje. Los tipos de eventos de empalme SE, A5SS, A3SS, MXE y RI se visualizaron utilizando gráficos de sashimi de los principales genes significativos de esos eventos. La actividad diferencial de APA en tres regiones principales no traducidas de genes se observó utilizando gráficos de volcanes.
Los resultados de uso del sitio de PA significativamente diferenciales adquiridos de diferentes canalizaciones se visualizaron utilizando el gráfico de eventos. Se puede observar un cambio distal a proximal significativo del uso del sitio PA en knockouts dobles en ambos genes FOSL1 y Papola. La cobertura media en las regiones flanqueantes ancladas en sitios de escisión de PA conocidos a nivel de todo el genoma se determinó utilizando una gráfica de diagnóstico.
Asegúrese de que los parámetros, como la información tranespecífica y permitir la superposición múltiple, se utilicen correctamente al generar métricas de conteo. El ajuste del modelo lineal y la generación de pares de contraste son importantes para una comparación adecuada. Para rMATS, asegúrese de que todos los parámetros estén configurados correctamente de acuerdo con sus datos antes de ejecutar el comando.
Los genes obtenidos de la actividad de empalme diferencial podrían usarse para realizar análisis de enriquecimiento de conjuntos de genes. Otra herramienta llamada MISO podría usarse para un análisis adicional basado en eventos.