Bem-vindos ao protocolo de análise de transcriptome de alto rendimento para investigar interações hospedeiro-patógeno. Este protocolo é dividido nas etapas seguintes. Controle de qualidade para filtrar leituras de baixa qualidade e também para remover sequências de adaptadores Sequenciamento e anotações, onde você tem que mapear as leituras em um genoma de referência e anotar as leituras nos genes.
Análise estatística e de co-expressão, que define os genes expressos diferencialmente e também encontra os módulos de co-expressão. Grau molecular de análise de perturbação para encontrar amostras possíveis. E, finalmente, a análise funcional para determinar as funções biológicas dos genes expressos diferencialmente.
Todas as ferramentas que utilizam esses dutos foram pré-instaladas em um sistema Linux e encapsuladas em um contêiner Docker. As amostras que utilizam esses protocolos derivam de um artigo publicado pelo nosso grupo no PLOS Pathogen. As amostras compreendem 20 pessoas saudáveis e 39 pacientes infectados com o vírus Chikungunya.
As amostras de sangue foram coletadas e o sequenciamento do RNA foi realizado. Para instalar o Docker no sistema Windows, você tem que seguir essas etapas. Acesse a página oficial do Docker e clique em Get Started.
Encontre o instalador do Docker Desktop para windows. Baixe o arquivo. Instale localmente em sua máquina.
Certifique-se de que essas duas opções estão marcadas. Depois de instalar o programa, baixa a imagem do Docker para este protocolo. Vá para o terminal windows.
Execute os comandos para baixar a imagem. Depois de baixar a imagem, você pode ver o arquivo na área de trabalho do Docker, e a partir desta imagem, podemos iniciar o contêiner. Depois de clicar no botão redondo, você tem que expandir os parâmetros e opções originais para definir o nome do contêiner e associar uma pasta em seu computador local com a pasta dentro do Docker.
Depois disso, clique em Executar para iniciar o contêiner. Em seguida, você pode acessar o terminal, que está no sistema Linux dentro do Docker. Digite os comandos bash, e então você pode executar todos os comandos deste protocolo.
Primeiro, temos que executar a fonte para disponibilizar todas as ferramentas deste protocolo. Você deve acessar os roteiros do diretório. Para realizar uma análise transcriômica, você tem que baixar primeiro o genoma de referência.
Para isso, você tem que executar os seguintes comandos. Depois que o genoma é baixado, você tem que baixar a anotação dos genes. Para fazer isso, você tem que digitar os seguintes comandos.
Em seguida, você tem que configurar o fastq-dump. Isso permite que você baixe os arquivos de sequenciamento dos exemplos. Depois de digitar os seguintes comandos, você tem que usar o botão Tab para ir à opção Ferramentas e marcar o diretório de opções atuais.
Use os botões Tab para salvar e, em seguida, ok. E então saia da ferramenta fastq-dump. Agora podemos iniciar os downloads das leituras digitando os seguintes comandos.
O controle de qualidade consiste e avalia graficamente a probabilidade de erros nas leituras de sequenciamento. Nesta etapa, você também tem que remover as sequências técnicas, como adaptadores. Para gerar os gráficos de controle de qualidade, você tem que executar o programa FastQC.
Para remover as sequências do adaptador e as sequências de baixa qualidade, você tem que digitar os seguintes comandos. Com as leituras de boa qualidade, agora temos que mapear as leituras no genoma de referência. Após o mapeamento, teremos que anotar os genes de acordo com os genes humanos e, em seguida, contar o número de leituras que correspondem a cada gene humano.
O primeiro passo é indexar o genoma de referência digitando o seguinte comando. E então digitamos este comando para mapear as leituras no genoma humano. Em seguida, você deve executar os scripts que anotam as leituras.
Após mapeamento e anotação, você pode realizar a análise de expressão diferencial que consiste em encontrar os genes cuja expressão é maior ou menor em um grupo em comparação com outro. Para identificar os genes expressos diferencialmente, ou DEGs, você tem que executar após comandos. Depois disso, você pode transferir os resultados dos dados do Docker para o seu computador local.
Para isso, vá até o terminal e digite os seguintes comandos para salvar todos os resultados em uma pasta local. Para realizar a análise restante, você também precisa copiar todos os arquivos dos dados do diretório para um diretório em seu computador local. Em seu computador local, você poderá ver os diretórios onde salvou os dados do Docker.
Como você pode ver, você pode acessar todas as bibliotecas. Você também pode abrir o arquivo HTML contendo os relatórios de controle de qualidade. Você também pode acessar um diretório contendo os genes expressos diferencialmente.
E dentro deste diretório, você encontrará as tramas do vulcão onde você pode ver os genes que são para cima ou para baixo regulados em um grupo versus outro, neste caso, pacientes infectados com vírus Chikungunya versus controles saudáveis. Todas as etapas restantes deste protocolo serão executadas em ferramentas web usando seu navegador. Vamos começar com o CEMiTool.
Vá para o navegador e digite o seguinte endereço. O CEMiTool identifica módulos de co-expressão a partir de conjuntos de dados de expressão fornecidos pelos usuários. Na página principal, você pode ir ao menu e clicar no botão Executar.
Isso abrirá uma nova página onde você pode carregar o arquivo de expressão. Este arquivo está nos dados do diretório do seu computador local. Você verá que há três arquivos de expressão, e o que vamos usar para o CEMiTool é uma chamada de normalização tmm.
Então você tem que selecionar o arquivo de fenodados, a mesma coisa para o arquivo que contém as interações proteína-proteína, e finalmente, carregar o arquivo contendo os conjuntos genéticos ou caminhos. O arquivo de conjuntos genéticos permite que o CEMiTool realize análises de enriquecimento para cada um do módulo de co-expressão. Em seguida, você deve expandir a seção parâmetro e clicar em Aplicar VST.
Depois disso, basta clicar em Executar CEMiTool. Depois de executar o CEMiTool, você verá que 12 módulos de co-expressão foram identificados. Clicando aqui, você pode baixar todos os resultados desta análise.
Outra ferramenta que vamos utilizar neste protocolo é o MDP, ou Grau Molecular de Perturbação. Basta digitar no seu navegador mdp.sysbio.tools. O MDP calcula a distância molecular de cada amostra em comparação com um grupo de referência de amostras, neste caso, os controles saudáveis, a fim de encontrar não apenas potenciais outliers, mas também o quão perturbadas cada amostra é em comparação com este grupo.
Na página Executar, você pode apenas carregar o arquivo de expressão clicando no botão e selecionando o arquivo. Então você tem que carregar o arquivo de fenodados. Em seguida, você tem que definir qual coluna contém as informações sobre o grupo ou a classe e, em seguida, qual classe ou grupo correspondem ao grupo de controle.
Depois disso, você pode apenas executar MDP. O gráfico da barra mostra para cada uma das amostras como uma barra a pontuação do grau molecular de perturbação, e as cores representam os diferentes grupos. E o enredo da caixa é outra maneira de visualizar os mesmos resultados onde você vê em cada ponto, é uma amostra diferente separada por dois grupos.
Para realizar a análise funcional, vamos usar a ferramenta Enrichr. Para isso, você tem que selecionar a lista de genes que foram expressos diferencialmente, para cima ou para baixo, e usá-lo como uma lista genética de entrada na ferramenta Enrichr. Você verá que existem guias diferentes.
Todos os resultados também podem ser baixados para o seu computador local. O ambiente do computador para análise de transcriptome foi colocado na plataforma Docker. Essa abordagem permite que usuários sem experiência prévia com sistema Linux utilizem um terminal.
Neste contêiner, há uma estrutura de pasta predefinida para conjunto de dados e scripts que são necessários para toda a análise. No pipeline, os usuários utilizarão dados de transcrição sanguínea de 20 indivíduos saudáveis e 39 pacientes gravemente infectados pelo vírus Chikungunya. A plataforma de sequenciamento retorna um conjunto de arquivos FASTQ contendo a sequência de DNA, ou seja.
as leituras e a qualidade associada para cada base nucleotídea. A escala de qualidade phred indica a probabilidade de uma leitura incorreta para cada base. As ferramentas identificam e removem leituras de baixa qualidade das amostras e para aumentar a probabilidade de mapeamento de leituras.
Nesta etapa, o módulo de mapeamento, as leituras de alta qualidade recuperadas são usadas como entradas para alinhá-las ao genoma de referência humana. O CEMiTool identifica e analisa módulos de co-expressão. Genes dentro do mesmo módulo são co-expressos, o que significa que eles exibem padrões de expressão semelhantes nas amostras dos conjuntos de dados.
A análise da rede fornece informações sobre os genes mais conectados, ou seja, os hubs. Os nomes desses genes são mostrados na rede.
O tamanho dos nódulos é proporcional ao seu grau de conectividade. Os resultados obtidos a partir da análise DEG foram resumidos nas parcelas do vulcão. A análise do grau molecular de perturbação permite a identificação de amostras perturbadas de indivíduos saudáveis e infectados.
MDP sugere quais amostras são potenciais outliers biológicos. A remoção dessas amostras afetará os resultados a jusante. Uma análise de enriquecimento funcional utilizando AURA pode ser realizada com a ferramenta Enrichr.
Essas etapas ajudam a interpretar os resultados revelando papéis funcionais comuns de vários genes que foram expressos diferencialmente. O processo biológico mostrado nos gráficos de barras são os 10 principais conjuntos genéticos enriquecidos com base em seu ranking de valor p. Em conclusão, esses protocolos abrangem todas as etapas da análise do RNA-Seq.
O oleoduto foi desenvolvido e encapsulado no sistema não comercial chamado Docker. Em uma imagem e disponibilizada para a comunidade científica. Devido ao sistema de contêineres, todos os scripts e ferramentas estão sob a mesma versão específica para garantir a reprodutibilidade.
Além disso, partes da análise bioinformática foram realizadas por meio de ferramentas web gratuitas.