É necessária uma assinatura da JoVE para visualizar este conteúdo. Faça login ou comece sua avaliação gratuita.
Method Article
O protocolo descrito aqui fornece instruções detalhadas sobre como analisar regiões genômicas de interesse para potencial de codificação de microproteínas usando PhyloCSF no Navegador de Genoma UCSC fácil de usar. Além disso, várias ferramentas e recursos são recomendados para investigar mais as características sequenciais das microproteínas identificadas para obter informações sobre suas funções putativas.
O sequenciamento de última geração (NGS) impulsionou o campo da genômica para a frente e produziu sequências de genomas inteiros para inúmeras espécies animais e organismos modelo. No entanto, apesar dessa riqueza de informações sequenciais, esforços abrangentes de anotação genética têm se mostrado desafiadores, especialmente para pequenas proteínas. Notavelmente, os métodos convencionais de anotação de proteínas foram projetados para excluir intencionalmente proteínas putativas codificadas por quadros de leitura aberto curtos (sORFs) com menos de 300 nucleotídeos de comprimento para filtrar o número exponencialmente maior de sORFs não codificadores espúrios em todo o genoma. Como resultado, centenas de pequenas proteínas funcionais chamadas microproteínas (<100 aminoácidos em comprimento) foram incorretamente classificadas como RNAs não codificantes ou negligenciadas inteiramente.
Aqui fornecemos um protocolo detalhado para aproveitar ferramentas bioinformáticas gratuitas e disponíveis publicamente para consultar regiões genômicas para potencial de codificação de microproteínas com base na conservação evolutiva. Especificamente, fornecemos instruções passo a passo sobre como examinar o potencial de conservação e codificação de sequências usando as Frequências de Substituição de Codon Filogenéticas (PhyloCSF) no navegador de genoma da Universidade da Califórnia Santa Cruz (UCSC). Além disso, detalhamos etapas para gerar eficientemente alinhamentos de várias espécies de sequências de microproteínas identificadas para visualizar a conservação da sequência de aminoácidos e recomendar recursos para analisar características de microproteínas, incluindo estruturas de domínio previstas. Essas ferramentas poderosas podem ser usadas para ajudar a identificar sequências putativas de codificação de microproteínas em regiões genômicas não anônicas ou para excluir a presença de uma sequência de codificação conservada com potencial translacional em uma transcrição de interesse não codificada.
A identificação do conjunto completo de elementos de codificação no genoma tem sido um objetivo importante desde o início do Projeto Genoma Humano, e continua sendo um objetivo central para a compreensão dos sistemas biológicos e da etiologia das doenças de base genética 1,2,3,4. Os avanços nas técnicas de NGS levaram à produção de sequências de genomas inteiras para um grande número de organismos, incluindo vertebrados, invertebrados, leveduras e plantas5. Além disso, métodos de sequenciamento transcricional de alto rendimento revelaram ainda a complexidade do transcriptome celular, e identificaram milhares de novas moléculas de RNA com funções de codificação de proteínas e não codificação 6,7. A decodificação dessa vasta quantidade de informações sequenciais é um processo contínuo, e os desafios permanecem com esforços abrangentes de anotação genética8.
O recente desenvolvimento de métodos de criação de perfil translacional, incluindo o perfil ribossomo 9,10 e o sequenciamento poli-ribossomo11, forneceram evidências indicando que centenas de eventos de tradução nãocanônica mapeiam para sORFs não anotados atualmente em todo o genoma, com potencial para gerar pequenas proteínas chamadas microproteínas ou micropeptídeos12,13, 14,15,16, 17. As microproteínas emergiram como uma nova classe de proteínas versáteis anteriormente negligenciadas por métodos de anotação genética padrão devido ao seu pequeno tamanho (<100 aminoácidos) e à falta de características genéticas clássicas de codificação de proteínas 8,12,18,19,20. Microproteínas foram descritas em praticamente todos os organismos, incluindo levedura21,22, moscas 17,23,24 e mamíferos 25,26,27,28, e têm mostrado desempenhar papéis críticos em diversos processos, incluindo desenvolvimento, metabolismo e sinalização de estresse 19,20,29, 30,31,32,33,34. Assim, é imperativo continuar a minerar o genoma para membros adicionais desta classe há muito negligenciada de pequenas proteínas funcionais.
Apesar do reconhecimento generalizado da importância biológica das microproteínas, essa classe de genes permanece muito sub-representada nas anotações do genoma, e sua identificação precisa continua sendo um desafio contínuo que tem dificultado o progresso no campo. Várias ferramentas computacionais e métodos experimentais foram recentemente desenvolvidos para superar as dificuldades associadas à identificação de sequências de codificação de microproteínas (discutidas extensivamente em várias revisões abrangentes 8,35,36,37). Muitos estudos recentes de identificação de microproteínas 38,39,40,41,42,43,44,45,46,47 têm confiado fortemente no uso de um algoritmo chamado PhyloCSF 48,49 , uma poderosa abordagem comparativa de genômica que pode ser aproveitada para distinguir regiões conservadas de codificação de proteínas do genoma daquelas que não são codificadas.
O PhyloCSF compara as frequências de substituição de codon (CSF) usando alinhamentos de nucleotídeos de várias espécies e modelos filogenéticos para detectar assinaturas evolutivas de genes codificadores de proteínas. Esta abordagem empírica baseada em modelos baseia-se na premissa de que as proteínas são conservadas principalmente no nível de aminoácidos em vez da sequência de nucleotídeos. Portanto, substituições sinônimos de codon, que codificam o mesmo aminoácido, ou substituições de codon a aminoácidos com propriedades conservadas (ou seja, carga, hidroofobidade, polaridade) são pontuadas positivamente, enquanto substituições não-sinônimos, incluindo substituições missense e sem sentido, pontuam negativamente. O PhyloCSF é treinado em dados de genoma inteiro e provou ser eficaz na pontuação de porções curtas de uma sequência de codificação (CDS) isoladamente da sequência completa, o que é necessário ao analisar microproteínas ou exons individuais de genes padrão de codificação de proteínas48,49.
Notavelmente, a recente integração dos hubs de trilha PhyloCSF no Navegador de Genoma 49,50,51 da Universidade da Califórnia Santa Cruz (UCSC) permite que pesquisadores de todas as origens acessem facilmente uma interface fácil de usar para consultar regiões genômicas de interesse para o potencial de codificação de proteínas. O protocolo descrito abaixo fornece instruções detalhadas sobre como carregar os hubs de rastrear PhyloCSF no Navegador de Genoma da UCSC e, posteriormente, interrogar regiões genômicas de interesse para sondar regiões de codificação de proteínas de alta confiança (ou a falta delas). Além disso, no caso em que um escore phyloCSF positivo é observado, as etapas são delineadas para analisar melhor o potencial de codificação de microproteínas e gerar eficientemente alinhamentos de várias espécies das sequências de aminoácidos identificadas para ilustrar a conservação da sequência de espécies cruzadas. Por fim, vários recursos e ferramentas adicionais disponíveis ao público são introduzidos na discussão para levantamento de características identificadas de microproteínas, incluindo estruturas de domínio previstas e insights sobre a função putativa de microproteínas.
O protocolo descrito abaixo detalha as etapas para carregar e navegar nas faixas do navegador PhyloCSF no Navegador genoma UCSC (gerado por Mudge et al.49). Para dúvidas gerais sobre o Navegador de Genoma da UCSC, um extenso Guia do Usuário do Navegador genoma pode ser encontrado aqui: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.
1. Carregando o PhyloCSF Track Hub para o navegador de genoma UCSC
2. Navegar para genes de interesse usando identificadores genéticos
3. Navegar para regiões genômicas de interesse usando informações de sequência
4. Identificando sORFs conservados usando dados de faixa PhyloCSF
5. Visualização de regiões homólogas em outros genomas
6. Gerando alinhamentos de sequência de várias espécies para microproteínas de interesse
Aqui usaremos a mitoregulina de microproteína validada (Mtln) como exemplo para demonstrar como um sORF conservado irá gerar uma pontuação PhyloCSF positiva que pode ser facilmente visualizada e analisada no Navegador de Genoma da UCSC. Mitoregulina foi anteriormente anotada como um RNA não codificado (anteriormente iD gene humano LINC00116 e gene do rato ID 150001K16Rik). Os métodos comparativos de genômica e análise de conservação de sequências desempenharam um papel crítico em sua descobe...
O protocolo aqui apresentado fornece instruções detalhadas sobre como interrogar regiões genômicas de interesse para potencial de codificação de microproteínas usando PhyloCSF no Navegador de Genoma UCSCfácil de usar 48,49,50,51. Como detalhado acima, PhyloCSF é um poderoso algoritmo de genômica comparativa que integra modelos filogenéticos e frequências de substituição de codon p...
Os autores declaram que não têm interesses financeiros concorrentes.
Este trabalho foi apoiado por subsídios dos Institutos Nacionais de Saúde (HL-141630 e HL-160569) e da Cincinnati Children's Research Foundation (Trustee Award).
Name | Company | Catalog Number | Comments |
Website | Website Address | Requirements | |
Clustal Omega Multiple Sequence Alignment Tool | https://www.ebi.ac.uk/Tools/msa/clustalo/ | Web browser | Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins) |
COXPRESSdb | https://coxpresdb.jp | Web browser | Provides co-regulated gene relationships to estimate gene functions |
EMBL-EBI Bioinformatics Tools FAQs | https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ | Web browser | Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments |
European Bioinformatics Institute (EMBL-EBI), Tools and Data Resources | https://www.ebi.ac.uk/services/all | Web browser | Comprehensive list of freely available websites, tools and data resources |
Expasy - Swiss Bioinformatics Resource Portal | https://www.expasy.org | Web browser | Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB) |
National Center for Biotechnology Information (NCBI) Conserved Domain Search | https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi | Web browser | Search tool to identify conserved domains within protein or coding nucleotide sequences |
Pfam 35 | http://pfam.xfam.org | Web browser | Protein family (Pfam) database, provides alignments and classification of protein families and domains |
PhyloCSF Track Hub Description | https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q edaCd4ir8aZ65ryaD&db=mm10 &c=chr2&g=hub_109801_ PhyloCSF_smooth | Web browser | Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub |
SignalP 6.0 | https://services.healthtech.dtu.dk/service.php?SignalP-6.0 | Web browser | Predicts the presence of signal peptides and the location of their cleavage sites |
TMHMM - 2.0 | https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 | Web browser | Prediction of transmembrane helices in proteins |
UCSC Genome Browser BLAT Search | https://genome.ucsc.edu/cgi-bin/hgBlat | Web browser | Tool used to find genomic regions using DNA or protein sequence information |
UCSC Genome Browser Gateway | https://genome.ucsc.edu/cgi-bin/hgGateway | Web browser | Direct link to the UCSC Genome Browser Gateway |
UCSC Genome Browser Home | https://genome.ucsc.edu/ | Web browser | Home website for the UCSC Genome Browser |
UCSC Genome Browser Track Data Hubs | https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs | Web browser | Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks |
UCSC Genome Browser User Guide | https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html | Web browser | Comprehensive user guide detailing how to navigate the UCSC Genome Browser |
WoLF PSORT | https://wolfpsort.hgc.jp | Web browser | Protein subcellular localization prediction tool |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados