Este protocolo descreve etapas bioinformáticas para investigar a evolução molecular e a expressão dos genes candidatos. Aqui fornecemos instruções minuciosas para que qualquer pessoa com experiência bioinformática mínima possa passar por este protocolo. Este oleoduto pode ser aplicado a qualquer organismo e qualquer família genética.
Uma questão comum ao fazer bioinformática é que os scripts shell falham. Ao tentar este protocolo, certifique-se de ter o software mais atualizado, leia os arquivos de erro e verifique o manual cuidadosamente. Para começar, faça login na conta de cluster do computador em uma janela de aplicativo terminal ou PuTTY.
No terminal, baixe a versão 2.8.1 do SR Toolkit usando o Wget e, em seguida, termine de instalar o programa. Pesquise NCBI para obter o número de adesão sra para as amostras desejadas e, em seguida, obtenha os dados de sequência de RNA na janela do terminal. Obtenha dois arquivos FASTQ para o tipo de arquivos de extremidade emparelhado.
Encontre o genoma de referência on-line se existir. Para obter um conjunto de referência, digite wget na janela do terminal e cole o endereço de link. Se disponível, copie também o arquivo GTF e o arquivo FASTA de proteína para o genoma de referência.
Indexe o genoma, então mapeia leituras e calcula a expressão para cada amostra. Renomeie o arquivo de resultados para algo descritivo e gere uma matriz de todas as contagens. Abra uma janela do navegador de internet e vá para o NCBI GenBank.
Na barra de pesquisa, digite o nome do gene de interesse e o nome de espécies intimamente relacionadas que foram sequenciadas. À esquerda da barra de pesquisa, selecione Proteína e clique em Pesquisar. Extrair as sequências clicando em Enviar e, em seguida, selecione Arquivo.
Em Formato, selecione FASTA e clique em Criar arquivo. Mova o arquivo FASTA de homologues para o cluster do computador usando uma janela de terminal local ou FileZilla. Em seguida, procure genes candidatos usando BLAST+No cluster do computador, faça um banco de dados BLAST a partir do genoma ou proteína traduzida por transcriptome, FASTA.
BLAST as sequências genéticas homólogos do NCBI para o banco de dados da espécie de interesse, em seguida, visualize o arquivo de saída usando mais o comando. Copie iDs genéticos exclusivos da espécie de interesse para um novo arquivo de texto. Extrair as sequências de genes candidatos.
Para confirmar a anotação genética usando o BLAST recíproco, vá para a Ferramenta de Pesquisa de Alinhamento Local BLAST, selecione BLASTP e cole as sequências de candidatos, selecione o banco de dados de sequência de proteínas não redundante e clique em BLAST. Abra MEGA, clique em Alinhar, em seguida, Editar Alinhamento de compilação, selecionar Criar um novo alinhamento e clique em OK. Selecione Proteína. Quando a janela Alinhamento for aberta, clique em Editar.
Clique em Inserir sequências do arquivo e selecione o FASTA com sequências proteicas de genes candidatos e possíveis homólogos. Selecione Todas as sequências. Encontre o símbolo do braço e passe o mouse sobre ele.
Deve dizer alinhar sequências usando algoritmo muscular. Clique no símbolo do braço e clique em Alinhar Proteína para alinhar as sequências Editar parâmetros ou clicar em OK para usar parâmetros padrão. Este protocolo foi aplicado aos tecidos da Hydra vulgaris, que é um invertebrado de água doce que pertence ao filo Cnidaria.
Genes de opsina foram investigados para obter uma visão sobre a evolução dos olhos e a detecção de luz em animais. Sequências para genes relacionados à opsina de H.vulgaris e outras espécies foram extraídas em um arquivo FASTA do NCBI GenBank. Os genes de opsina foram alinhados no MEGA, possibilitando identificar as opsinas hydra que estavam faltando um aminoácido conservado de lisina necessário para ligar uma molécula sensível à luz.
Uma árvore de maior probabilidade foi gerada usando sequências de opsina da Hydra vulgaris e outras espécies. A filogenia sugere que os genes da opsina estão evoluindo por duplicações específicas de linhagem em cnidários, e potencialmente por duplicação em H.vulgaris. Em seguida, foi realizada uma análise de expressão diferencial no edgeR para investigar a expressão absoluta dos genes opsina.
Para determinar se uma ou mais opsinas são reguladas no hipostome, ou cabeça, foram realizadas comparações par-wise de hipostome versus coluna corporal, zona de brotamento, pé e tentáculos foram realizadas. Verificou-se que 1.774 transcrições foram expressas diferencialmente entre o hipostome e a coluna corporal. Os genes que foram regulados em várias comparações foram determinados, e um enriquecimento funcional no Blast2GO foi realizado.
Finalmente, a expressão absoluta dos genes opsin foi investigada em diferentes tecidos durante diferentes estágios de brotação, e durante diferentes pontos de tempo de regeneração. A inspeção visual do alinhamento e da árvore confirmará se os genes candidatos pertencem à família de interesse. Genes que são muito diferentes em sequência ou um grupo fora de tudo o resto, provavelmente fazem parte de uma família genética diferente.
Os resultados deste protocolo podem ser considerados geradores de hipóteses. Este pipeline pode destacar genes candidatos para estudar funcionalmente em estudos futuros. Depois de explorar a expressão de hidra opsina, agora estamos usando técnicas semelhantes para investigar genes relacionados entre espécies, a fim de identificar semelhanças e diferenças de função.