Este protocolo fornece uma compreensão abrangente das isoformas genéticas geradas por splicing alternativo e poliadenilação, fornecendo um fluxo de trabalho passo-a-passo para identificar locais de splicing diferenciais, éxons diferencialmente expressos e poli(A)sítios. A principal vantagem deste protocolo é que ele avalia métodos baseados em exons e baseados em eventos para estudar splicing alternativo. Também aplica o método baseado em éxons para estudar a poliadenilação alternativa.
Os arquivos R Markdown que incluem os códigos e notas para análise AS e AP foram fornecidos. Seria aconselhável seguir as etapas no arquivo R Markdown e chegar à nota para cada etapa com cuidado. Para identificar o splicing diferencial usando diffSplice de limma, siga o arquivo de bloco de anotações R.
Prepare os arquivos de entrada conforme descrito no manuscrito do texto. Certifique-se de que as etapas de um a três no manuscrito tenham sido seguidas sequencialmente para preparar os arquivos de entrada antes de prosseguir. Comece carregando as bibliotecas necessárias.
Para executar a filtragem não específica, primeiro extraia a matriz de contagens de leitura obtidas anteriormente e crie uma lista de recursos usando a função DGEList do pacote edgeR, onde linhas representam genes e colunas representam amostras. Em seguida, transforme os dados da escala bruta em contagens por milhão usando a função CPM do pacote edgeR e mantenha os éxons com contagens maiores que um limite definível. Este conjunto de dados contém seis amostras.
Assim, o CPM é definido em maior que uma e pelo menos três amostras de seis. Normalize as contagens entre amostras com a função calcNormFactors do pacote edgeR usando a Média Aparada dos valores M. Essa função calculará fatores de dimensionamento para ajustar os tamanhos das bibliotecas.
Use a tabela de amostra gerada anteriormente para criar a matriz de projeto para definir as condições experimentais para cada amostra. Execute a função voom do pacote limma para processar dados de sequenciamento de RNA para estimar a variância. Essa função gerará pesos de precisão para corrigir o ruído de contagem de Poisson e transformar as contagens de nível de éxon para registrar duas contagens por milhão ou logCPM.
Execute a função lmfit para ajustar modelos lineares aos dados de expressão para cada éxon. Em seguida, execute a função eBayes para calcular estatísticas empíricas para o modelo ajustado para detectar a expressão diferencial do éxon. Defina uma matriz de contraste para as comparações experimentais de interesse.
Use os contrastes. função de ajuste para obter coeficientes e erros-padrão para cada par de comparações. Execute diffSplice no modelo ajustado para testar as diferenças no uso de éxons de genes entre o tipo selvagem e o nocaute.
Explore os resultados mais bem classificados usando a função topSplice onde um teste igual a t dá uma classificação de éxons AS e teste igual a simes dá uma classificação de genes. Execute a função plotSplice para plotar os resultados. Ao colocar o gene de interesse no argumento do gene ID, os pontos vermelhos mostram os éxons diferencialmente expressos.
Gere um gráfico de vulcão usando o pacote biocondutor EnhancedVolcano para exibir os éxons diferencialmente expressos. Para usar o rMATS, verifique se a versão mais recente do rMATS versão 4.1.1 está instalada usando conda ou GitHub no diretório de trabalho. Vá para a pasta que contém os arquivos bam obtidos após o mapeamento.
Prepare arquivos de texto conforme exigido pelo rMATS para as duas condições de copiar o nome dos arquivos bam e seu caminho separados por uma vírgula. Execute rmas. py usando os dois arquivos de texto de entrada gerados descrevendo o caminho dos arquivos bam e a anotação.
gtf obtido anteriormente. Isso gera uma pasta de saída rmats_out contendo arquivos de texto que descrevem estatísticas, incluindo valores P e níveis de inclusão para cada evento de splicing separadamente. Use o pacote de biocondutores maser para explorar os resultados do rMATS.
Carregue a junção e o éxon conte arquivos de texto com a extensão JCEC no objeto maser e inclua pelo menos cinco leituras médias por evento de emenda para filtrar o resultado com base na cobertura. Para visualizar os resultados do rMATS, primeiro execute a função topEvents do pacote masser, selecionando os eventos de splicing significativos a uma taxa de descoberta falsa de 10% e uma alteração mínima de 10% na porcentagem emendada ou PSI. Verifique os eventos genéticos para genes individuais de interesse e plote os valores de PSI para cada evento de splicing desse gene.
Gere um gráfico de vulcão especificando o tipo de evento. Use os resultados de eventos de splicing obtidos com rMATS na forma de arquivos de texto para gerar gráficos de sashimi usando o pacote rmats2sashimiplot. O gráfico de sashimi mostra um evento éxon ignorado no gene Wnk1.
Cada linha representa uma amostra de RNA-seq, três repetições do tipo selvagem e nocaute Mbnl1. A altura mostra a cobertura de leitura em RPKM e os arcos de conexão retratam leituras de junção através de éxons. A parte inferior mostra isoformas alternativas do modelo de gene anotado.
Uma mudança substancial de dobras e fortes evidências estatísticas de diferenças genuínas podem ser observadas nos genes localizados nos quadrantes superior esquerdo ou direito das parcelas vulcânicas obtidas usando diffSplice e DEXSeq. Verificou-se que um éxon em variava entre diferentes condições para o gene Wnk1. O gráfico de uso diferencial de éxons mostrou evidências de splicing diferencial em cinco locais de éxons perto de Wnk1.6.45, com os éxons destacados em rosa provavelmente sendo emendados em amostras de nocaute de Mbnl1 em comparação com o tipo selvagem.
O gráfico vulcânico de genes que são alternativamente emendados ajudou a distinguir entre os genes que foram excluídos do tipo selvagem e aqueles que foram incluídos no tipo selvagem. Os tipos de eventos de splicing SE, A5SS, A3SS, MXE e RI foram visualizados usando gráficos de sashimi dos principais genes significativos desses eventos. A atividade diferencial da APA em três regiões primordiais não traduzidas de genes foi observada usando gráficos de vulcões.
Os resultados significativamente diferenciais de uso do site de PA adquiridos de diferentes pipelines foram visualizados usando o gráfico de eventos. Um deslocamento distal para proximal significativo do uso do sítio da AF em nocautes duplos pode ser observado em ambos os genes FOSL1 e Papola. A cobertura média em regiões de flanco ancoradas em locais de clivagem de PA conhecidos no nível de todo o genoma foi determinada usando um gráfico de diagnóstico.
Certifique-se de que os parâmetros, como informações tranespecíficas e permitir multi-sobreposição, sejam usados corretamente ao gerar métricas de contagem. O ajuste do modelo linear e a geração de pares de contraste são importantes para a comparação adequada. Para rMATS, verifique se todos os parâmetros estão definidos corretamente de acordo com seus dados antes de executar o comando.
Os genes obtidos a partir da atividade de splicing diferencial poderiam ser usados para realizar a análise de enriquecimento do conjunto de genes. Outra ferramenta chamada MISO poderia ser usada para análises posteriores baseadas em eventos.