As amostras utilizadas neste protocolo foram aprovadas pelos comitês de ética tanto do Departamento de Microbiologia do Instituto de Ciências Biomédicas da Universidade de São Paulo quanto da Universidade Federal de Sergipe (Protocolos: 54937216.5.0000.5467 e 54835916.2.0000.5546, respectivamente).
1. Instalação de desktop docker
NOTA: As etapas para preparar o ambiente Docker são diferentes entre os sistemas operacionais (OSs). Portanto, os usuários de Mac devem seguir as etapas listadas como 1.1, os usuários de Linux devem seguir as etapas listadas como 1.2 e os usuários do Windows devem seguir as etapas listadas como 1.3.
- Instale no MacOS.
- Acesse o site Get Docker (Tabela de Materiais), clique no Docker Desktop para Mac e clique no link Download do Docker Hub .
- Baixe o arquivo de instalação clicando no botão Obter Docker .
- Execute o arquivo .dmg Docker para abrir o instalador e, em seguida, arraste o ícone para a pasta Aplicativos . Localize e execute o Docker.app na pasta Aplicativos para iniciar o programa.
NOTA: O menu específico do software na barra de status superior indica que o software está em execução e que ele está acessível a partir de um terminal.
- Instale o programa de contêineres no Sistema Operacional Linux.
- Acesse o site Get Docker Linux (Tabela de Materiais) e siga as instruções para instalar usando a seção de repositório disponível no link do Repositório Linux Docker .
- Atualize todos os pacotes Linux usando a linha de comando:
sudo apt-get atualização
- Instale os pacotes necessários no Docker:
sudo apt-get instalar apt-transport-https ca-certificates curl gnupg lsb-release
- Crie um arquivo de chaveamento de arquivo de software:
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
- Adicione informações do Docker deb no arquivo source.list:
echo "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) estável" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
- Atualize todos os pacotes novamente, incluindo os recentemente adicionados:
sudo apt-get atualização
- Instale a versão desktop:
sudo apt-get instalar docker-ce docker-ce-cli containerd.io
- Selecione a área geográfica e o fuso horário para terminar o processo de instalação.
- Instale o programa de contêiner no sistema operacional Windows.
- Acesse o site get docker (Tabela de Materiais) e clique em Get Started. Encontre o instalador do Docker Desktop para Windows. Baixe os arquivos e instale-os localmente no computador.
- Após o download, inicie o arquivo de instalação (.exe) e mantenha os parâmetros padrão. Certifique-se de que as duas opções Instale componentes necessários do Windows para WSL 2 e Adicione atalho à área de trabalho estão marcadas.
NOTA: Em alguns casos, quando este software tenta iniciar o serviço, ele mostra um erro: a instalação do WSL está incompleta. Para descobrir esse erro, acesse o site WSL2-Kernel (Tabela de Materiais).
- Baixe e instale o mais recente kernel WSL2 Linux.
- Acesse o terminal PowerShell como administrador e execute o comando:
dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
- Certifique-se de que o software Docker Desktop seja instalado com sucesso.
- Baixe a imagem do repositório da CSBL no hub Docker (Tabela de Materiais).
- Abra a área de trabalho do Docker e verifique se o status está "funcionando" no canto inferior esquerdo da barra de ferramentas.
- Vá para a linha de comando do terminal Windows PowerShell. Baixe a imagem do Contêiner Linux para este protocolo no repositório da CSBL no hub Docker. Execute o seguinte comando para baixar a imagem:
docker puxar csblusp/transcriptome
NOTA: Depois de baixar a imagem, o arquivo pode ser visto no Desktop Docker. Para criar o contêiner, os usuários do Windows devem seguir o passo 1.5, enquanto os usuários de Linux devem seguir o passo 1.6.
- Inicialize o contêiner do servidor no sistema operacional Windows.
- Visualize o arquivo de imagem Do Docker no gerenciador de aplicativos de desktop da barra de ferramentas e acesse a página Imagens.
NOTA: Se a imagem do pipeline foi baixada com sucesso, haverá uma imagem csblusp/transcriptome disponível.
- Inicie o recipiente a partir da imagem csblusp/transcriptome clicando no botão Executar . Expanda as Configurações Opcionais para configurar o recipiente.
- Defina o Nome do Contêiner (por exemplo, servidor).
- Associe uma pasta no computador local com a pasta dentro do docker. Para fazer isso, determine o Caminho do Host. Defina uma pasta na máquina local para armazenar os dados processados que serão baixados no final. Defina o caminho do contêiner. Defina e vincule a pasta do contêiner csblusp/transcriptome ao caminho da máquina local (use o nome "/opt/transferdata" para o Caminho do Contêiner).
- Depois disso, clique em Executar para criar o recipiente csblusp/transcriptome.
- Para acessar o terminal Linux a partir do recipiente csblusp/transcriptome, clique no botão CLI.
- Digite o terminal bash para ter uma experiência melhor. Para isso, execute o comando:
Bash
- Após executar o comando bash, certifique-se de que o terminal mostra (root@:/#):
root@ac12c583b731:/ #
- Inicialize o contêiner do servidor para o Sistema Operacional Linux.
- Execute este comando para criar o contêiner Docker com base na imagem:
docker run -d -it --rm --name server -v :/opt/transferdata csblusp/transcriptome
NOTA: : defina um caminho da máquina de pasta local.
- Execute este comando para acessar o terminal de comando do contêiner Docker:
docker exec -it servidor bash
- Garanta a disponibilidade de um terminal Linux para executar quaisquer programas/scripts usando a linha de comando.
- Após executar o comando bash, certifique-se de que o terminal mostra (root@:/#):
root@ac12c583b731:/ #
NOTA: A senha raiz é "transcriptome" por padrão. Se desejar, a senha raiz pode ser alterada executando o comando:
passwd
- Primeiro, execute o comando de origem para addpath.sh para garantir que todas as ferramentas estejam disponíveis. Execute o comando:
fonte /opt/addpath.sh
- Verifique a estrutura da pasta de sequenciamento RNA.
- Acesse a pasta de scripts do pipeline transcriptome e garanta que todos os dados do sequenciamento do RNA sejam armazenados dentro da pasta: /home/transcriptome-pipeline/data.
- Certifique-se de que todos os resultados obtidos a partir da análise sejam armazenados dentro da pasta do caminho /home/transcriptome-pipeline/resultados.
- Certifique-se de que os arquivos de referência de genoma e anotação sejam armazenados dentro da pasta do caminho /home/transcriptome-pipeline/datasets. Esses arquivos ajudarão a suportar todas as análises.
- Certifique-se de que todos os scripts sejam armazenados na pasta do caminho /home/transcriptome-pipeline/scripts e separados por cada passo conforme descrito abaixo.
- Baixe a anotação e o genoma humano.
- Acesse a pasta scripts:
cd /home/transcriptome-pipeline/scripts
- Execute este comando para baixar o genoma humano de referência:
bater downloadGenome.sh
- Para baixar a anotação, execute o comando:
bater downloadAnnotation.sh
- Alterar a anotação ou a versão do genoma de referência.
- Abra downloadAnnotation.sh e downloadGenome.sh para alterar a URL de cada arquivo.
- Copie os arquivos downloadAnnotation.sh e downloadGenome.sh para a área de transferência e edite no sistema operacional local.
cd /home/transcriptome-pipeline/scripts
cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
- Abra a pasta Host Path , que é selecionada para vincular entre host e contêiner Docker na etapa 1.5.4.
- Edite os arquivos usando o software de editor preferido e salve. Finalmente, coloque os arquivos modificados na pasta de script. Execute o comando:
cd /opt/transferdata
cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/scripts
NOTA: Esses arquivos podem ser editados diretamente usando o editor vim ou nano Linux.
- Em seguida, configure a ferramenta fastq-dump com a linha de comando:
vdb-config --interativo
NOTA: Isso permite baixar arquivos de sequenciamento a partir dos dados de exemplo.
- Navegue pela página Ferramentas usando a tecla guia e selecione a opção pasta atual. Navegue até a opção Salvar e clique em OK. Em seguida, saia da ferramenta fastq-dump.
- Inicie o download das leituras do artigo publicado anteriormente7. É necessário o número de adesão da SRA de cada amostra. Obtenha os números da SRA no site da SRA NCBI (Tabela de Materiais).
NOTA: Para analisar os dados do RNA-Seq disponíveis em bancos de dados públicos, siga o passo 1.12. Para analisar os dados privados do RNA-seq, siga o passo 1.13.
- Analisar dados públicos específicos.
- Acesse o site do Centro Nacional de Informações de Biotecnologia (NCBI) e busque palavras-chave para um assunto específico.
- Clique no link Resultado para BioProject na seção Genomas .
- Escolha e clique em um estudo específico. Clique nos Experimentos SRA. Uma nova página é aberta, que mostra todas as amostras disponíveis para este estudo.
- Clique no número de adesão "Enviar para:" acima. Na opção "Escolher destino" selecione a opção Arquivo e Formato , selecione ExecutarInfo. Clique em "Criar arquivo" para exportar todas as informações da biblioteca.
- Salve o arquivo .csv SraRunInfo no caminho Host definido na etapa 1.5.4 e execute o script de download:
cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
cd /home/transcriptome-pipeline/scripts
bater downloadAllLibraries.sh
- Analise dados de sequenciamento privados e inéditos.
- Organize os dados de sequenciamento em uma pasta chamada Reads.
NOTA: Dentro da pasta Leituras , crie uma pasta para cada amostra. Essas pastas devem ter o mesmo nome para cada amostra. Adicione dados de cada amostra dentro de seu diretório. Caso seja um RNA-Seq de ponta emparelhado, cada diretório de amostra deve conter dois arquivos FASTQ, que devem apresentar nomes terminando de acordo com os padrões {sample}_1.fastq.gz e {sample}_2.fastq.gz, sequências para frente e reversa, respectivamente. Por exemplo, uma amostra chamada "Healthy_control" deve ter um diretório com o mesmo nome e arquivos FASTQ chamados Healthy_control_1.fastq.gz e Healthy_control_2.fastq.gz. No entanto, se o sequenciamento da biblioteca for uma estratégia de fim único, apenas um arquivo de leitura deve ser salvo para análise a jusante. Por exemplo, a mesma amostra, "Controle saudável", deve ter um arquivo FASTQ exclusivo chamado Healthy_control.fastq.gz.
- Crie um arquivo fenotípico contendo todos os nomes da amostra: Nomeie a primeira coluna como 'Amostra' e a segunda coluna como 'Classe'. Encha a coluna Amostra com nomes de amostra, que devem ser o mesmo nome para os diretórios amostrais e preencha a coluna Classe com o grupo fenotípico de cada amostra (por exemplo, controle ou infectado). Finalmente, salve um arquivo com o nome "metadados.tsv" e envie-o para o /home/transcriptome-pipeline/data/diretório. Confira os metadados.tsv existentes para entender o formato do arquivo fenotípico.
cp /opt/transferdata/metadata.tsv
/home/transcriptome-pipeline/data/metadata.tsv
- Acesse o diretório Host Path definido na etapa 1.5.4 e copie as novas amostras de diretórios estruturados. Finalmente, mova as amostras de /opt/transferda para o diretório de dados do pipeline.
cp -rf /opt/transferdata/reads/*
/home/transcriptome-pipeline/data/reads/
- Observe que todas as leituras estão armazenadas na pasta /home/transcriptome-pipeline/data/reads.
2. Controle de qualidade dos dados
NOTA: Avalie, graficamente, a probabilidade de erros nas leituras de sequenciamento. Remova todas as sequências técnicas, por exemplo, adaptadores.
- Acesse a qualidade de sequenciamento das bibliotecas com a ferramenta FastQC.
- Para gerar os gráficos de qualidade, execute o programa fastqc. Execute o comando:
bater FastQC.sh
NOTA: Os resultados serão salvos na pasta /home/transcriptome-pipeline/results/FastQC. Uma vez que adaptadores de sequência são usados para preparação e sequenciamento da biblioteca, em alguns casos os fragmentos de sequência de adaptadores podem interferir no processo de mapeamento.
- Remova a sequência do adaptador e as leituras de baixa qualidade. Acesse a pasta Scripts e execute o comando para a ferramenta Trimmomatic:
cd /home/transcriptome-pipeline/scripts
bater trimmomatic.sh
NOTA: Os parâmetros utilizados para o filtro de sequenciamento são: Remover a de baixa qualidade ou 3 bases (abaixo da qualidade 3) (LEADING:3); Remover a baixa qualidade ou 3 bases (abaixo da qualidade 3) (TRAILING:3); Escaneie a leitura com uma janela deslizante de 4 bases, cortando quando a qualidade média por base cair abaixo de 20 (DESLIZANDO:4:20); e Drop lê abaixo as 36 bases de comprimento (MINLEN:36). Esses parâmetros podem ser alterados editando o arquivo de script Trimmomatic.
- Certifique-se de que os resultados sejam salvos na seguinte pasta: /home/transcriptome-pipeline/results/trimreads. Execute o comando:
ls /home/transcriptome-pipeline/results/trimreads
3. Mapeamento e anotação de amostras
NOTA: Após a obtenção das leituras de boa qualidade, estas precisam ser mapeadas para o genoma de referência. Para esta etapa, o mapeador STAR foi usado para mapear as amostras de exemplo. A ferramenta de mapeador STAR requer 32 GB de memória RAM para carregar e executar as leituras e mapeamento do genoma. Para usuários que não possuem 32 GB de memória RAM, leituras já mapeadas podem ser usadas. Nesses casos, pule para o passo 3.3 ou use o mapeador Bowtie2. Esta seção tem scripts para STAR (resultados mostrados em todas as figuras) e Bowtie2 (mapeador necessário de baixa memória).
- Primeiro indexe o genoma de referência para o processo de mapeamento:
- Acesse a pasta Scripts usando a linha de comando:
cd /home/transcriptome-pipeline/scripts
- Para o mapeador STAR, execute:
bater indexGenome.sh
- Para Bowtie mapper, execute:
bater indexGenomeBowtie2.sh
- Execute o seguinte comando para mapear leituras filtradas (obtidas a partir da etapa 2) para o genoma de referência (versão GRCh38). Mappers STAR e Bowtie2 são realizados usando parâmetros padrão.
- Para o mapeador STAR, execute:
mapSTAR.sh bater
- Para Bowtie2 mapper, execute:
bater mapBowtie2.sh
NOTA: Os resultados finais são arquivos BAM (Binary Alignment Map, mapa de alinhamento binário) para cada amostra armazenada em /home/transcriptome-pipeline/results/mapreads.
- Anotar leituras mapeadas usando a ferramenta FeatureCounts para obter contagem bruta para cada gene. Execute os scripts que anotam as leituras.
NOTA: A ferramenta FeatureCounts é responsável por atribuir leituras de sequência mapeadas aos recursos genômicos. Os aspectos mais importantes da anotação do genoma que podem ser alterados após a questão biológica incluem, detecção de isoformes, leituras mapeadas múltiplas e junções exon-exon, correspondentes aos parâmetros, GTF.attrType="gene_name" para gene ou não especificar os parâmetros para o nível de meta-recurso, permiteMultiOverlap=TRUE e juncCounts=TRUE, respectivamente.
- Acesse a pasta scripts usando a linha de comando:
cd /home/transcriptome-pipeline/scripts
- Para anotar as leituras mapeadas para obter contagens brutas por gene, execute a linha de comando:
Anotação de Rscript. R
NOTA: Os parâmetros utilizados para o processo de anotação foram: nome curto de gene de retorno (GTF.attrType="gene_name"); permitir múltiplas sobreposições (permitirMultiOverlap = TRUE); e indicar que a biblioteca é emparelhada (isPairedEnd=TRUE). Para uma estratégia única, use o parâmetro isPairedEnd=FALSE. Os resultados serão salvos na pasta /home/transcriptome-pipeline/countreads.
- Normalizar a expressão genética.
NOTA: A normalização da expressão genética é essencial para comparar resultados entre desfechos (por exemplo, amostras saudáveis e infectadas). A normalização também é necessária para realizar a co-expressão e o grau molecular de análises de perturbação.
- Acesse a pasta Scripts usando a linha de comando:
cd /home/transcriptome-pipeline/scripts
- Normalize a expressão genética. Para isso, execute a linha de comando:
Rscript normaliza as séries. R
NOTA: A expressão da contagem bruta, neste experimento, foi normalizada utilizando os métodos M-values (TMM) e Count Per Million (CPM). Esta etapa visa remover diferenças na expressão genética devido à influência técnica, fazendo a normalização do tamanho da biblioteca. Os resultados serão salvos na pasta /home/transcriptome-pipeline/countreads.
4. Genes expressos diferencialmente e genes co-expressos
- Identifique genes expressos diferencialmente usando o pacote EdgeR de código aberto. Isso envolve encontrar genes cuja expressão é maior ou menor em comparação com o controle.
- Acesse a pasta Scripts usando a linha de comando:
cd /home/transcriptome-pipeline/scripts
- Para identificar o gene expresso diferencialmente, execute o script DEG_edgeR R usando a linha de comando:
Rscript DEG_edgeR.R.
NOTA: Os resultados que contenham os genes expressos diferencialmente serão salvos na pasta /home/transcriptome-pipeline/results/degs. Os dados podem ser transferidos para um computador pessoal.
- Baixe dados do recipiente csblusp/transcriptome.
- Transfira dados processados do /home/transcriptome-pipeline para a pasta /opt/transferdata (computador local).
- Copie todos os arquivos para o computador local executando a linha de comando:
cp -rf /home/transcriptome-pipeline/results /opt/transferdata/pipeline
cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline
NOTA: Agora, vá para o computador local para garantir que todos os resultados, conjuntos de dados e dados estejam disponíveis para download no Caminho do Host.
- Identifique módulos de co-expressão.
- Acesse o site da Ferramenta de Identificação de Módulos de Co-Expressão (CEMiTool) (Tabela de
Materiais). Esta ferramenta identifica módulos de co-expressão a partir de conjuntos de dados de expressão fornecidos pelos usuários. Na página principal, clique em Executar no canto superior direito. Isso abrirá uma nova página para carregar o arquivo de expressão.
- Clique em Escolher Arquivo abaixo da seção Arquivo de expressão e carregue a matriz de expressão genética normalizada 'tmm_expression.tsv' do Caminho do Host.
NOTA: Passo 4.4. não é obrigatório.
- Explore o significado biológico dos módulos de co-expressão.
- Clique em Escolher arquivo na seção Fenotipos de amostra e carregue o arquivo com fenótipos de amostra metadata_cemitool.tsv da etapa de dados de download 4.2.2. para realizar uma análise de enriquecimento de conjunto genético (GSEA).
- Pressione escolher arquivo na seção Interações genéticas para carregar um arquivo com interações genéticas (cemitool-interactions.tsv). É possível usar o arquivo de interações genéticas fornecidas como exemplo pelo webCEMiTool. As interações podem ser interações proteína-proteína, fatores de transcrição e seus genes transcritos, ou vias metabólicas. Esta etapa produz uma rede de interação para cada módulo de co-expressão.
- Clique na seção Escolher arquivo na seção Gene Sets para carregar uma lista de genes relacionados funcionalmente em um arquivo de formato Gene Matrix Transposed (GMT). O arquivo Gene Set permite que a ferramenta realize análises de enriquecimento para cada módulo de co-expressão, ou seja, uma análise de representação excessiva (ORA).
NOTA: Esta lista de genes pode abranger caminhos, termos GO ou genes alvo de miRNA. O pesquisador pode usar os Módulos de Transcrição sanguínea (BTM) como conjunto genético para esta análise. O arquivo BTM (BTM_for_GSEA.gmt).
- Defina parâmetros para a realização de análises de co-expressão e obtenha seus resultados.
- Em seguida, expanda a seção Parâmetro , clicando no sinal de mais para exibir os parâmetros padrão. Se necessário, mude-os. Verifique a caixa Aplicar VST .
- Escreva o e-mail na seção E-mail para receber os resultados como e-mail. Este passo é opcional.
- Pressione o botão Executar CEMiTool .
- Baixe o relatório completo de análise clicando no Relatório Completo de Download no canto superior direito. Ele vai baixar um arquivo comprimido cemitool_results.zip.
- Extrair o conteúdo do cemitool_results.zip com o WinRAR.
NOTA: A pasta com o conteúdo extraído abrange vários arquivos com todos os resultados da análise e seus parâmetros estabelecidos.
5. Determinação do grau molecular de perturbação das amostras
- Versão web do Grau Molecular de Perturbação (MDP).
- Para executar o MDP, acesse o site do MDP (Tabela de Materiais). MDP calcula distância molecular de cada amostra a partir da referência. Clique no botão Executar .
- No link Escolher arquivo , carregue o arquivo de expressão tmm_expression.tsv. Em seguida, carregue o arquivo de dados fenotípico metadata.tsv da etapa de dados do Download 4.2.2. Também é possível enviar um arquivo de anotação de via em formato GMT para calcular o escore de perturbação das vias associadas à doença.
- Uma vez que os dados sejam carregados, defina a coluna Class que contém as informações fenotípicas usadas pelo MDP. Em seguida, defina a classe de controle selecionando o rótulo que corresponde à classe de controle.
NOTA: Existem alguns parâmetros opcionais que afetarão a forma como os escores amostrais são calculados. Se necessário, o usuário é capaz de alterar o método médio estatístico, o desvio padrão e a porcentagem superior dos genes perturbados.
- Depois disso, pressione o botão Executar MDP e os resultados do MDP serão mostrados. O usuário pode baixar os números clicando no Gráfico de Download em cada parcela, bem como a pontuação do MDP no botão Download MDP Score File .
NOTA: Em caso de perguntas sobre como enviar os arquivos ou como o MDP funciona, basta passar pelo Tutorial e Sobre páginas da web.
6. Análise de enriquecimento funcional
- Crie uma lista de DEGs para baixo e outra de DEGs regulamentadas. Os nomes dos genes devem estar de acordo com os símbolos genéticos de Entrez. Cada gene da lista deve ser colocado em uma linha.
- Salve as listas genéticas no formato txt ou tsv.
- Acesse o site do Enrichr (Tabela de Materiais) para realizar a análise funcional.
- Selecione a lista de genes clicando no Arquivo Escolher. Selecione um dos DEGs e pressione o botão Enviar.
- Clique em Caminhos no topo da página web para realizar análises de enriquecimento funcional com a abordagem ORA.
- Escolha um banco de dados de caminhos. O banco de dados de caminhos "Reactome 2016" é amplamente utilizado para obter o significado biológico dos dados humanos.
- Clique no nome do banco de dados da pathway novamente. Selecione Gráfico de barras e verifique se ele está classificado pelo ranking p-value. Se não, clique no gráfico da barra até que ele seja classificado por p-value. Este gráfico de barras inclui as 10 principais vias de acordo com os valores p.
- Pressione o botão Configuração e selecione a cor vermelha para a análise de genes para cima ou cor azul para a análise de genes regulados. Salve o gráfico de barras em vários formatos clicando em svg, png e jpg.
- Selecione Tabela e clique em Exportar entradas para a tabela no canto inferior esquerdo do gráfico da barra para obter os resultados da análise de enriquecimento funcional em um arquivo txt.
NOTA: Este arquivo de resultados de enriquecimento funcional abrange em cada linha o nome de uma via, o número de genes sobrepostos entre a lista DEG submetida e a via, o valor p, valor p ajustado, razão de odds, escore combinado e o símbolo genético dos genes presentes na lista DEG que participam da via.
- Repita os mesmos passos com a lista de outros DEGs.
NOTA: A análise com DEGs não regulados fornece caminhos enriquecidos para genes regulados e a análise com genes up-regulated fornece caminhos enriquecidos para genes up-regulated.