O protocolo descrito aqui fornece instruções detalhadas sobre a análise de regiões genômicas de interesse para o potencial de codificação de proteínas usando filoCSF no navegador de genoma UCSC amigável. O PhloCSF pode identificar efetivamente quadros de leitura abertos conservados com potencial de codificação de micro proteínas em regiões genômicas que atualmente são anotadas como não codificadas. Os métodos descritos aqui são facilmente utilizados e podem ser implementados por pesquisadores de todas as origens sem treinamento prévio ou experiência em bioiformática ou genômica comparativa.
Para começar, abra uma janela do navegador de internet e navegue até o navegador de genoma da Universidade da Califórnia Santa Cruz ou UCSC. Sob o título de nossas ferramentas, selecione a opção track hubs. Nos hubs públicos, o tipo phyloCSF na caixa de termos de pesquisa.
Em seguida, clique no botão de "procurar centros públicos". Conecte-se ao phyloCSF clicando no botão de conexão para o nome do hub phyloCSF. Depois de clicar em conectar, aguarde redirecionar para a página do gateway do navegador do genoma do UCSC.
Para consultar uma espécie diferente, selecione as espécies de interesse sob o título de espécies navegá-lo clicando no ícone apropriado ou digite a espécie na caixa de texto que diz, digite o nome comum da espécie ou o ID de montagem.Usando o menu suspenso, escolha o conjunto para pesquisar sob posição definida, em seguida, digite o símbolo do gene de posição ou termos de pesquisa na posição ou caixa de termo de pesquisa e clique em ir para navegar a um gene de interesse no navegador genoma. Se a pesquisa resultou em várias correspondências, aguarde ser redirecionada para uma página que exija a seleção de uma posição de interesse, clique no gene de interesse apropriado. Depois de navegar para o navegador de genoma do UCSC selecione a ferramenta de alinhamento semelhante à explosão ou blat sob as nossas ferramentas indo para consultar um DNA específico ou sequência de proteínas.
Alternativamente, passe o cursor sobre a guia ferramentas e selecione a opção blat ou siga o link dado. Usando o menu suspenso selecione a espécie, o genoma e a montagem de interesse. Em seguida, defina o tipo de consulta, cole a sequência de interesse na caixa de texto do genoma de pesquisa blat e clique em enviar.
Em seguida, clique no link do navegador sob as ações que vão para navegar até a região genômica de interesse. Escaneie visualmente a área genômica de interesse para pontuar positivamente as regiões de FiloCSF. Use o recurso zoom para ampliar regiões de interesse para examinar características de sequência e procurar os códons de partida e parada.
Para ampliar manualmente a tecla shift e clicar e segurar o botão do mouse enquanto arrasta ao longo da região de interesse. Alternativamente, use o zoom e zoom de botões na parte superior da página para navegar. Aproxime-se até que o nucleotídeo ou a sequência de base esteja visível.
Escaneie visualmente a sequência de marés nucleares perto do início e fim das regiões filoCSF de pontuação positiva para identificar o início punitivo e parar os códons. Passe o cursor do mouse sobre o título de exibição na parte superior da página e clique na opção de conversão de outros genomas e, em seguida, defina o genoma de interesse usando o menu suspenso abaixo do novo título de genoma. Selecione o conjunto genômico de interesse sob o novo título de montagem e clique no botão enviar.
Uma vez que o navegador retorna uma lista de regiões no novo conjunto com semelhança. Clique no link de posição cromossômica para navegar até a região homólogoa de interesse. Siga as estratégias de navegação descritas anteriormente para analisar a sequência.
Para navegar até a página de descrição do gene, clique no gene de interesse na faixa de código de geração no navegador de genoma UCSC. Sob a sequência e links para ferramentas e bancos de dados, clique no link na tabela que lê outras espécies mais rapidamente. Clique nas caixas associadas à espécie de interesse para selecioná-las.
Em seguida, clique em enviar. Copie e cole as sequências que aparecem na parte inferior da página em formato mais rápido em um documento de processamento de texto. Em seguida, abra uma segunda janela de navegador e navegue até a ferramenta de alinhamento de sequência múltipla ômega clustal no site do European Bioinformatics Institute.
Cole os arquivos de sequência na área de transferência na caixa na primeira etapa que lê sequências em qualquer formato suportado. Role até a parte inferior da página e clique em enviar. Observe abaixo os resultados alinhados para símbolos que indicam o grau de conservação de cada aminoácido.
Para ver as propriedades do aminoácido e a cor clique no link de cores do show diretamente acima das sequências para colorir os aminoácidos de acordo com suas propriedades. Em seguida, copie e cole o alinhamento de sequência em um programa de processamento de palavras ou slide show para gerar uma figura ou arquivo de ilustração. Para ver outras saídas da página de resultados ômega clustal, clique na árvore guia das guias ou na árvore genética phylo.
Por fim, clique na guia do visualizador de resultados para obter opções para visualizar as informações de sequência usando jalview ou para acessar links diretos para mview e filogenia simples. Uma análise phyloCSF representativa do gene mitoregulina indica uma região de conservação de alta sequência correspondente a uma micro proteína validada. A sequência completa de codificação de mitoregulina está contida dentro do exon um e pontua muito bem no phyloCSF menos uma faixa.
Um códon de partida conservado pode ser observado no início da região de pontuação positiva no filoCSF menos uma faixa. A região de pontuação positiva no primeiro exon de mitoregulina começa diretamente sobre um códon de início e termina no codon stop. O alinhamento de sequência múltipla da micro proteína mitoregulina para oito espécies diferentes é mostrado aqui.
A análise do longo ar quente de RNA não codificado mostrou uma pontuação negativa em todo o gene em todas as seis faixas indicando uma falta de conservação de sequências e apoiando que o ar quente é corretamente anotado como um RNA não codificador. A análise phyloCSF do mouse um, oito, um, zero, zero, cinco, oito, i 24 rike gene mostrou que um quadro de leitura aberto conservado abrange três exons e a pontuação phyloCSF positiva salta da faixa mais duas na exon um para a faixa de três mais em exon dois, e depois de volta para a faixa mais dois em exon três. A análise phyloCSF do lócus de um gene de atender também foi efetivamente usada para identificar múltiplos quadros de leitura abertos de codificação distintas dentro de uma única molécula de RNA.
É importante notar que, embora um escore positivo de filoCSF seja altamente sugestivo da capacidade de codificação de micro proteínas, esta linha de evidências não pode ficar sozinha e deve ser validada experimentalmente. Uma vez identificado um período de micro proteína, a sequência de aminoácidos pode ser analisada para domínios conservados ou características de sequência para fornecer insights sobre sua função. O PhyloCSF tem sido efetivamente usado para identificar novas micro proteínas em regiões genômicas anteriormente consideradas não codificadas e continuará a ser uma ferramenta útil em futuros estudos de identificação de micro proteínas.