Entrar

É necessária uma assinatura da JoVE para visualizar este conteúdo. Faça login ou comece sua avaliação gratuita.

Neste Artigo

  • Resumo
  • Resumo
  • Introdução
  • Protocolo
  • Resultados
  • Discussão
  • Divulgações
  • Agradecimentos
  • Materiais
  • Referências
  • Reimpressões e Permissões

Resumo

O protocolo descrito aqui fornece instruções detalhadas sobre como analisar regiões genômicas de interesse para potencial de codificação de microproteínas usando PhyloCSF no Navegador de Genoma UCSC fácil de usar. Além disso, várias ferramentas e recursos são recomendados para investigar mais as características sequenciais das microproteínas identificadas para obter informações sobre suas funções putativas.

Resumo

O sequenciamento de última geração (NGS) impulsionou o campo da genômica para a frente e produziu sequências de genomas inteiros para inúmeras espécies animais e organismos modelo. No entanto, apesar dessa riqueza de informações sequenciais, esforços abrangentes de anotação genética têm se mostrado desafiadores, especialmente para pequenas proteínas. Notavelmente, os métodos convencionais de anotação de proteínas foram projetados para excluir intencionalmente proteínas putativas codificadas por quadros de leitura aberto curtos (sORFs) com menos de 300 nucleotídeos de comprimento para filtrar o número exponencialmente maior de sORFs não codificadores espúrios em todo o genoma. Como resultado, centenas de pequenas proteínas funcionais chamadas microproteínas (<100 aminoácidos em comprimento) foram incorretamente classificadas como RNAs não codificantes ou negligenciadas inteiramente.

Aqui fornecemos um protocolo detalhado para aproveitar ferramentas bioinformáticas gratuitas e disponíveis publicamente para consultar regiões genômicas para potencial de codificação de microproteínas com base na conservação evolutiva. Especificamente, fornecemos instruções passo a passo sobre como examinar o potencial de conservação e codificação de sequências usando as Frequências de Substituição de Codon Filogenéticas (PhyloCSF) no navegador de genoma da Universidade da Califórnia Santa Cruz (UCSC). Além disso, detalhamos etapas para gerar eficientemente alinhamentos de várias espécies de sequências de microproteínas identificadas para visualizar a conservação da sequência de aminoácidos e recomendar recursos para analisar características de microproteínas, incluindo estruturas de domínio previstas. Essas ferramentas poderosas podem ser usadas para ajudar a identificar sequências putativas de codificação de microproteínas em regiões genômicas não anônicas ou para excluir a presença de uma sequência de codificação conservada com potencial translacional em uma transcrição de interesse não codificada.

Introdução

A identificação do conjunto completo de elementos de codificação no genoma tem sido um objetivo importante desde o início do Projeto Genoma Humano, e continua sendo um objetivo central para a compreensão dos sistemas biológicos e da etiologia das doenças de base genética 1,2,3,4. Os avanços nas técnicas de NGS levaram à produção de sequências de genomas inteiras para um grande número de organismos, incluindo vertebrados, invertebrados, leveduras e plantas5. Além disso, métodos de sequenciamento transcricional de alto rendimento revelaram ainda a complexidade do transcriptome celular, e identificaram milhares de novas moléculas de RNA com funções de codificação de proteínas e não codificação 6,7. A decodificação dessa vasta quantidade de informações sequenciais é um processo contínuo, e os desafios permanecem com esforços abrangentes de anotação genética8.

O recente desenvolvimento de métodos de criação de perfil translacional, incluindo o perfil ribossomo 9,10 e o sequenciamento poli-ribossomo11, forneceram evidências indicando que centenas de eventos de tradução nãocanônica mapeiam para sORFs não anotados atualmente em todo o genoma, com potencial para gerar pequenas proteínas chamadas microproteínas ou micropeptídeos12,13, 14,15,16, 17. As microproteínas emergiram como uma nova classe de proteínas versáteis anteriormente negligenciadas por métodos de anotação genética padrão devido ao seu pequeno tamanho (<100 aminoácidos) e à falta de características genéticas clássicas de codificação de proteínas 8,12,18,19,20. Microproteínas foram descritas em praticamente todos os organismos, incluindo levedura21,22, moscas 17,23,24 e mamíferos 25,26,27,28, e têm mostrado desempenhar papéis críticos em diversos processos, incluindo desenvolvimento, metabolismo e sinalização de estresse 19,20,29, 30,31,32,33,34. Assim, é imperativo continuar a minerar o genoma para membros adicionais desta classe há muito negligenciada de pequenas proteínas funcionais.

Apesar do reconhecimento generalizado da importância biológica das microproteínas, essa classe de genes permanece muito sub-representada nas anotações do genoma, e sua identificação precisa continua sendo um desafio contínuo que tem dificultado o progresso no campo. Várias ferramentas computacionais e métodos experimentais foram recentemente desenvolvidos para superar as dificuldades associadas à identificação de sequências de codificação de microproteínas (discutidas extensivamente em várias revisões abrangentes 8,35,36,37). Muitos estudos recentes de identificação de microproteínas 38,39,40,41,42,43,44,45,46,47 têm confiado fortemente no uso de um algoritmo chamado PhyloCSF 48,49 , uma poderosa abordagem comparativa de genômica que pode ser aproveitada para distinguir regiões conservadas de codificação de proteínas do genoma daquelas que não são codificadas.

O PhyloCSF compara as frequências de substituição de codon (CSF) usando alinhamentos de nucleotídeos de várias espécies e modelos filogenéticos para detectar assinaturas evolutivas de genes codificadores de proteínas. Esta abordagem empírica baseada em modelos baseia-se na premissa de que as proteínas são conservadas principalmente no nível de aminoácidos em vez da sequência de nucleotídeos. Portanto, substituições sinônimos de codon, que codificam o mesmo aminoácido, ou substituições de codon a aminoácidos com propriedades conservadas (ou seja, carga, hidroofobidade, polaridade) são pontuadas positivamente, enquanto substituições não-sinônimos, incluindo substituições missense e sem sentido, pontuam negativamente. O PhyloCSF é treinado em dados de genoma inteiro e provou ser eficaz na pontuação de porções curtas de uma sequência de codificação (CDS) isoladamente da sequência completa, o que é necessário ao analisar microproteínas ou exons individuais de genes padrão de codificação de proteínas48,49.

Notavelmente, a recente integração dos hubs de trilha PhyloCSF no Navegador de Genoma 49,50,51 da Universidade da Califórnia Santa Cruz (UCSC) permite que pesquisadores de todas as origens acessem facilmente uma interface fácil de usar para consultar regiões genômicas de interesse para o potencial de codificação de proteínas. O protocolo descrito abaixo fornece instruções detalhadas sobre como carregar os hubs de rastrear PhyloCSF no Navegador de Genoma da UCSC e, posteriormente, interrogar regiões genômicas de interesse para sondar regiões de codificação de proteínas de alta confiança (ou a falta delas). Além disso, no caso em que um escore phyloCSF positivo é observado, as etapas são delineadas para analisar melhor o potencial de codificação de microproteínas e gerar eficientemente alinhamentos de várias espécies das sequências de aminoácidos identificadas para ilustrar a conservação da sequência de espécies cruzadas. Por fim, vários recursos e ferramentas adicionais disponíveis ao público são introduzidos na discussão para levantamento de características identificadas de microproteínas, incluindo estruturas de domínio previstas e insights sobre a função putativa de microproteínas.

Protocolo

O protocolo descrito abaixo detalha as etapas para carregar e navegar nas faixas do navegador PhyloCSF no Navegador genoma UCSC (gerado por Mudge et al.49). Para dúvidas gerais sobre o Navegador de Genoma da UCSC, um extenso Guia do Usuário do Navegador genoma pode ser encontrado aqui: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.

1. Carregando o PhyloCSF Track Hub para o navegador de genoma UCSC

  1. Abra uma janela do navegador de internet e navegue até o Navegador de Genoma do UCSC (https://genome.ucsc.edu/).
  2. Sob o título De ferramentas , selecione a opção Track Hubs .
    NOTA: A opção Track Hubs também pode ser encontrada na guia Meus dados .
  3. Na guia Centros Públicos , digite PhyloCSF na caixa de termos 'Pesquisa' . Clique no botão 'Pesquisar Centros públicos' .
  4. Conecte-se ao PhyloCSF clicando no botão Conectar para o Nome do Hub PhyloCSF (Descrição: potencial de codificação de proteínas evolutivas medida pelo PhyloCSF).
    NOTA: Este Track Hub será carregado para numerosos conjuntos, incluindo humano (hg19 e hg38) e mouse (mm10 e mm39).
  5. Depois de clicar em conectar, aguarde ser redirecionado para a página do Gateway do Navegador de Genoma do UCSC (https://genome.ucsc.edu/cgi-bin/hgGateway).

2. Navegar para genes de interesse usando identificadores genéticos

  1. Selecione a espécie e o conjunto do genoma para consultar. Para consultar uma espécie diferente (por exemplo, mouse), selecione a espécie de interesse sob o título Procurar/Selecionar Espécies clicando no ícone apropriado ou digitar a espécie na caixa de texto que diz: Digite espécie, nome comum ou ID de montagem.
    NOTA: O conjunto está listado diretamente no título "Encontrar posição ". Normalmente, o padrão é a Assembleia Humana (por exemplo, dez de 2009 [GRCh37/hg19]).
  2. Escolha o conjunto para pesquisar no título 'Encontrar posição' usando o menu suspenso.
  3. Digite a posição, o símbolo genético ou os termos de pesquisa na caixa "Posição/Termo de Pesquisa " e clique em Ir para navegar até um gene de interesse no Navegador genoma.
  4. Se a pesquisa resultou em várias correspondências, aguarde ser redirecionada para uma página que exija a seleção de uma posição de interesse. Clique no gene de interesse apropriado.

3. Navegar para regiões genômicas de interesse usando informações de sequência

  1. Navegue até o Navegador de Genoma do UCSC (https://genome.ucsc.edu/) e selecione a Ferramenta de Alinhamento semelhante a BLAST (BLAT) sob as nossas ferramentas que se dirigem para consultar uma sequência específica de DNA ou proteína. Como alternativa, passe o cursor sobre a guia Ferramentas e selecione a opção Blat ou siga este link: https://genome.ucsc.edu/cgi-bin/hgBlat.
  2. Selecione as espécies (Genoma) e a Montagem de interesse usando os menus suspensos.
  3. Defina o tipo Desaída usando o menu suspenso.
  4. Cole a sequência de interesse na caixa de texto BLAT Search Genoma e clique em Enviar.
  5. Clique no link do navegador sob o título ACTIONS para navegar até a região genômica de interesse.

4. Identificando sORFs conservados usando dados de faixa PhyloCSF

  1. Escaneie visualmente a área genômica de interesse para pontuar positivamente as regiões de PhyloCSF (Figura 1).
    NOTA: Para obter uma explicação detalhada de como interpretar visualmente os escores do PhyloCSF no Navegador de Genoma do UCSC, consulte a seção de resultados representativos abaixo.
  2. Use o recurso zoom para ampliar regiões de interesse para examinar características de sequência e procurar códons de início/parada. Para ampliar manualmente, segure a tecla shift e clique e segure o botão do mouse enquanto arrasta ao longo da região de interesse. Alternativamente, use os botões de zoom e zoom na parte superior da página para navegar (1,5x, 3x, 10x ou opções de zoom base estão disponíveis).
    NOTA: Antes de usar os botões de zoom-in/zoom , é necessário reposicionar o gene para que a região de interesse esteja no meio da tela. Para realizar esta ação, clique na imagem e arraste-a para a esquerda ou para a direita para mover a região genômica horizontalmente conforme desejado ou use as setas de movimento na parte superior da página.
  3. Aproxime-se até que a sequência nucleotídeo (base) esteja visível.
    NOTA: A sequência de nucleotídeos aparecerá diretamente acima da pontuação de PhyloCSF suavizada.
  4. Escaneie visualmente a sequência de nucleotídeos perto do início e fim das regiões phyloCSF de pontuação positiva para identificar códons de início putativo (ATG) e parar (TGA/TAA/TAG).
    NOTA: Se o gene de interesse estiver no fio negativo do DNA, os códons de início e parada serão o complemento inverso (ou seja, CAT para o códon inicial e TCA/TTA/CTA para o códon de parada).

5. Visualização de regiões homólogas em outros genomas

  1. Passe o mouse sobre a posição Exibir na parte superior da página e clique na opção Em Outros Genomas (Converter).
  2. Defina o genoma de interesse usando o menu suspenso abaixo do título Novo Genoma .
  3. Selecione o conjunto genômico de interesse usando o menu suspenso no título Nova montagem e clique no botão Enviar .
  4. Uma vez que o navegador retorne uma lista de regiões do novo conjunto com semelhança, clique no link de posição cromossomómero para navegar até a região homólogoa de interesse.
    NOTA: O percentual de bases totais (nucleotídeos) e o vão coberto pela região serão definidos para cada região listada. Quanto maior o percentual de bases correspondentes, maior a conservação para a região de interesse.
  5. Siga as mesmas estratégias de navegação detalhadas na Seção 4 para analisar a sequência.

6. Gerando alinhamentos de sequência de várias espécies para microproteínas de interesse

  1. Clique no gene de interesse na faixa GENCODE no Navegador de Genoma UCSC (indicado na Figura 1A com uma caixa azul) para navegar até a página de descrição do gene.
  2. Em título Sequência e Links para Ferramentas e Bancos de Dados , clique no link na tabela que lê Outras Espécies FASTA.
  3. Clique nas caixas associadas à espécie de interesse para selecioná-las. Clique em Enviar. Copie e cole as sequências que aparecem na parte inferior da página no formato FASTA em um documento de processamento de texto.
  4. Abra uma segunda janela de navegador e navegue até a ferramenta Clustal Omega Multiple Sequence Alignment 52 no site53,54: https://www.ebi.ac.uk/Tools/msa/clustalo/.
  5. Cole os arquivos de sequência que ainda estão na área de transferência na caixa no PASSO 1 que lê sequências em qualquer formato suportado. Role até a parte inferior da página e clique em Enviar. Veja abaixo os resultados alinhados (na fonte preta) para símbolos que indicam o grau de conservação de cada aminoácido (os símbolos são definidos na Tabela 1).
    NOTA: Pode levar vários minutos para gerar o alinhamento.
  6. Para ver as propriedades aminoácidos na cor, clique no link Mostrar cores diretamente acima das sequências para colorir os aminoácidos de acordo com suas propriedades (definidas na Tabela 2).
  7. Copie e cole o alinhamento de sequência em um programa de processamento de palavras ou slideshow para gerar uma figura ou arquivo de ilustração (por exemplo, Figura 2).
    NOTA: Use uma fonte monoespaçada para o alinhamento, como o Courier.
  8. Para ver outras saídas da página de resultados Domô Clustal , clique nas guias apropriadas (ou seja, Árvore Guia ou Árvore Filogenética).
  9. Clique na guia Resultados Para obter opções para visualizar as informações de sequência usando o Jalview, um programa gratuito especializado em edição, visualização e análise de alinhamento de sequência múltipla55, ou para acessar links diretos para MView e Simple Phylogeny56.

Resultados

Aqui usaremos a mitoregulina de microproteína validada (Mtln) como exemplo para demonstrar como um sORF conservado irá gerar uma pontuação PhyloCSF positiva que pode ser facilmente visualizada e analisada no Navegador de Genoma da UCSC. Mitoregulina foi anteriormente anotada como um RNA não codificado (anteriormente iD gene humano LINC00116 e gene do rato ID 150001K16Rik). Os métodos comparativos de genômica e análise de conservação de sequências desempenharam um papel crítico em sua descobe...

Discussão

O protocolo aqui apresentado fornece instruções detalhadas sobre como interrogar regiões genômicas de interesse para potencial de codificação de microproteínas usando PhyloCSF no Navegador de Genoma UCSCfácil de usar 48,49,50,51. Como detalhado acima, PhyloCSF é um poderoso algoritmo de genômica comparativa que integra modelos filogenéticos e frequências de substituição de codon p...

Divulgações

Os autores declaram que não têm interesses financeiros concorrentes.

Agradecimentos

Este trabalho foi apoiado por subsídios dos Institutos Nacionais de Saúde (HL-141630 e HL-160569) e da Cincinnati Children's Research Foundation (Trustee Award).

Materiais

NameCompanyCatalog NumberComments
WebsiteWebsite AddressRequirements
Clustal Omega Multiple Sequence Alignment Toolhttps://www.ebi.ac.uk/Tools/msa/clustalo/Web browserMultiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins)
COXPRESSdbhttps://coxpresdb.jpWeb browserProvides co-regulated gene relationships to estimate gene functions
EMBL-EBI Bioinformatics Tools FAQshttps://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQWeb browserFrequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments
European Bioinformatics Institute (EMBL-EBI),
Tools and Data Resources
https://www.ebi.ac.uk/services/allWeb browserComprehensive list of freely available websites, tools and data resources
Expasy - Swiss Bioinformatics Resource Portalhttps://www.expasy.orgWeb browserSuite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB)
National Center for Biotechnology Information (NCBI)
Conserved Domain Search
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgiWeb browserSearch tool to identify conserved domains within protein or coding nucleotide sequences
Pfam 35http://pfam.xfam.orgWeb browserProtein family (Pfam) database, provides alignments and classification of protein families and domains
PhyloCSF Track Hub Description https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q
edaCd4ir8aZ65ryaD&db=mm10
&c=chr2&g=hub_109801_
PhyloCSF_smooth
Web browserDetailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub
   
   
   
   
   
SignalP 6.0https://services.healthtech.dtu.dk/service.php?SignalP-6.0Web browserPredicts the presence of signal peptides and the location of their cleavage sites
TMHMM - 2.0https://services.healthtech.dtu.dk/service.php?TMHMM-2.0Web browserPrediction of transmembrane helices in proteins
UCSC Genome Browser BLAT Searchhttps://genome.ucsc.edu/cgi-bin/hgBlatWeb browserTool used to find genomic regions using DNA or protein sequence information
UCSC Genome Browser Gatewayhttps://genome.ucsc.edu/cgi-bin/hgGatewayWeb browserDirect link to the UCSC Genome Browser Gateway
UCSC Genome Browser Homehttps://genome.ucsc.edu/Web browserHome website for the UCSC Genome Browser
UCSC Genome Browser Track Data Hubshttps://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubsWeb browserDirect link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks
UCSC Genome Browser User Guidehttps://genome.ucsc.edu/goldenPath/help/hgTracksHelp.htmlWeb browserComprehensive user guide detailing how to navigate the UCSC Genome Browser
WoLF PSORThttps://wolfpsort.hgc.jpWeb browserProtein subcellular localization prediction tool

Referências

  1. Collins, F. S., Morgan, M., Patrinos, A. The human genome project: lessons from large-scale biology. Science. 300 (5617), 286-290 (2003).
  2. Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
  3. Sachidanandam, R., et al. A map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms. Nature. 409 (6822), 928-933 (2001).
  4. Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
  5. Fuentes-Pardo, A. P., Ruzzante, D. E. Whole-genome sequencing approaches for conservation biology: Advantages, limitations and practical recommendations. Molecular Ecology. 26 (20), 5369-5406 (2017).
  6. Carninci, P., et al. The transcriptional landscape of the mammalian genome. Science. 309 (5740), 1559-1563 (2005).
  7. Maeda, N., et al. Transcript annotation in FANTOM3: mouse gene catalog based on physical cDNAs. PLoS Genetics. 2 (4), 62 (2006).
  8. Schlesinger, D., Elsasser, S. J. Revisiting sORFs: overcoming challenges to identify and characterize functional microproteins. The FEBS Journal. 289 (1), 53-74 (2022).
  9. Ingolia, N. T., et al. Ribosome profiling reveals pervasive translation outside of annotated protein-coding genes. Cell Reports. 8 (5), 1365-1379 (2014).
  10. Ingolia, N. T., Ghaemmaghami, S., Newman, J. R., Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science. 324 (5924), 218-223 (2009).
  11. Aspden, J. L., et al. Extensive translation of small Open Reading Frames revealed by Poly-Ribo-Seq. Elife. 3, 03528 (2014).
  12. Andrews, S. J., Rothnagel, J. A. Emerging evidence for functional peptides encoded by short open reading frames. Nature Reviews Genetics. 15 (3), 193-204 (2014).
  13. Mackowiak, S. D., et al. Extensive identification and analysis of conserved small ORFs in animals. Genome Biology. 16 (1), 1-21 (2015).
  14. Ruiz-Orera, J., Messeguer, X., Subirana, J. A., Alba, M. M. Long non-coding RNAs as a source of new peptides. Elife. 3, 03523 (2014).
  15. Basrai, M. A., Hieter, P., Boeke, J. D. Small open reading frames: beautiful needles in the haystack. Genome Research. 7 (8), 768-771 (1997).
  16. Frith, M. C., et al. The abundance of short proteins in the mammalian proteome. PLoS Genetics. 2 (4), 52 (2006).
  17. Ladoukakis, E., Pereira, V., Magny, E. G., Eyre-Walker, A., Couso, J. P. Hundreds of putatively functional small open reading frames in Drosophila. Genome Biology. 12 (11), 118 (2011).
  18. Makarewich, C. A., Olson, E. N. Mining for Micropeptides. Trends in Cell Biology. 27 (9), 685-696 (2017).
  19. Wright, B. W., Yi, Z., Weissman, J. S., Chen, J. The dark proteome: translation from noncanonical open reading frames. Trends in Cell Biology. , (2021).
  20. Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11 (12), 909-916 (2015).
  21. Kastenmayer, J. P., et al. Functional genomics of genes with small open reading frames (sORFs) in S. cerevisiae. Genome Research. 16 (3), 365-373 (2006).
  22. Smith, J. E., et al. Translation of small open reading frames within unannotated RNA transcripts in Saccharomyces cerevisiae. Cell Reports. 7 (6), 1858-1866 (2014).
  23. Lin, M. F., et al. Revisiting the protein-coding gene catalog of Drosophila melanogaster using 12 fly genomes. Genome Research. 17 (12), 1823-1836 (2007).
  24. Magny, E. G., et al. Conserved regulation of cardiac calcium uptake by peptides encoded in small open reading frames. Science. 341 (6150), 1116-1120 (2013).
  25. Bazzini, A. A., et al. Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation. EMBO J. 33 (9), 981-993 (2014).
  26. Ingolia, N. T., Lareau, L. F., Weissman, J. S. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cell. 147 (4), 789-802 (2011).
  27. Ma, J., et al. Discovery of human sORF-encoded polypeptides (SEPs) in cell lines and tissue. J Proteome Res. 13 (3), 1757-1765 (2014).
  28. Slavoff, S. A., et al. Peptidomic discovery of short open reading frame-encoded peptides in human cells. Nature Chemical Biology. 9 (1), 59-64 (2013).
  29. Khitun, A., Ness, T. J., Slavoff, S. A. Small open reading frames and cellular stress responses. Molecular Omics. 15 (2), 108-116 (2019).
  30. Makarewich, C. A. The hidden world of membrane microproteins. Experimental Cell Research. 388 (2), 111853 (2020).
  31. Pueyo, J. I., Magny, E. G., Couso, J. P. New peptides under the s(ORF)ace of the genome. Trends in Biochemical Sciences. 41 (8), 665-678 (2016).
  32. Pauli, A., et al. Toddler: an embryonic signal that promotes cell movement via Apelin receptors. Science. 343 (6172), 1248636 (2014).
  33. Chng, S. C., Ho, L., Tian, J., Reversade, B. ELABELA: a hormone essential for heart development signals via the apelin receptor. Developmental Cell. 27 (6), 672-680 (2013).
  34. Lee, C., et al. The mitochondrial-derived peptide MOTS-c promotes metabolic homeostasis and reduces obesity and insulin resistance. Cell Metabolism. 21 (3), 443-454 (2015).
  35. Pauli, A., Valen, E., Schier, A. F. Identifying (non-)coding RNAs and small peptides: challenges and opportunities. Bioessays. 37 (1), 103-112 (2015).
  36. Plaza, S., Menschaert, G., Payre, F. In search of lost small peptides. Annual Review of Cell and Developmental Biology. 33, 391-416 (2017).
  37. Kiniry, S. J., Michel, A. M., Baranov, P. V. Computational methods for ribosome profiling data analysis. Wiley Interdisciplinary Reviews: RNA. 11 (3), 1577 (2020).
  38. Anderson, D. M., et al. A micropeptide encoded by a putative long noncoding RNA regulates muscle performance. Cell. 160 (4), 595-606 (2015).
  39. Anderson, D. M., et al. Widespread control of calcium signaling by a family of SERCA-inhibiting micropeptides. Science Signaling. 9 (457), (2016).
  40. Makarewich, C. A., et al. MOXI Is a mitochondrial micropeptide that enhances fatty acid beta-oxidation. Cell Reports. 23 (13), 3701-3709 (2018).
  41. Nelson, B. R., et al. A peptide encoded by a transcript annotated as long noncoding RNA enhances SERCA activity in muscle. Science. 351 (6270), 271-275 (2016).
  42. Chu, Q., et al. Regulation of the ER stress response by a mitochondrial microprotein. Nat Commun. 10 (1), 4883 (2019).
  43. Senis, E., et al. TUNAR lncRNA encodes a microprotein that regulates neural differentiation and neurite formation by modulating calcium dynamics. Frontiers in Cell and Developmental Biology. 9, 747667 (2021).
  44. Li, M., et al. A putative long noncoding RNA-encoded micropeptide maintains cellular homeostasis in pancreatic beta cells. Molecular Therapy-Nucleic Acids. 26, 307-320 (2021).
  45. Martinez, T. F., et al. Accurate annotation of human protein-coding small open reading frames. Nature Chemical Biology. 16 (4), 458-468 (2020).
  46. van Heesch, S., et al. The translational landscape of the human heart. Cell. 178 (1), 242-260 (2019).
  47. Makarewich, C. A., et al. The cardiac-enriched microprotein mitolamban regulates mitochondrial respiratory complex assembly and function in mice. Proceedings of the National Academy of Sciences of the United States of America. 119 (6), 2120476119 (2022).
  48. Lin, M. F., Jungreis, I., Kellis, M. PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions. Bioinformatics. 27 (13), 275-282 (2011).
  49. Mudge, J. M., et al. Discovery of high-confidence human protein-coding genes and exons by whole-genome PhyloCSF helps elucidate 118 GWAS loci. Genome Research. 29 (12), 2073-2087 (2019).
  50. Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
  51. Raney, B. J., et al. Track data hubs enable visualization of user-defined genome-wide annotations on the UCSC Genome Browser. Bioinformatics. 30 (7), 1003-1005 (2014).
  52. Sievers, F., et al. scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Molecular Systems Biology. 7 (1), 539 (2011).
  53. Goujon, M., et al. A new bioinformatics analysis tools framework at EMBL-EBI. Nucleic Acids Research. 38 (2), 695-699 (2010).
  54. Harte, N., et al. Public web-based services from the European Bioinformatics Institute. Nucleic Acids Research. 32 (2), 3-9 (2004).
  55. Waterhouse, A. M., Procter, J. B., Martin, D. M., Clamp, M., Barton, G. J. Jalview Version 2-a multiple sequence alignment editor and analysis workbench. Bioinformatics. 25 (9), 1189-1191 (2009).
  56. Madeira, F., et al. The EMBL-EBI search and sequence analysis tools APIs in 2019. Nucleic Acids Research. 47 (1), 636-641 (2019).
  57. Friesen, M., et al. Mitoregulin controls beta-oxidation in human and mouse adipocytes. Stem Cell Reports. 14 (4), 590-602 (2020).
  58. Stein, C. S., et al. Mitoregulin: A lncRNA-Encoded microprotein that supports mitochondrial supercomplexes and respiratory efficiency. Cell Reports. 23 (13), 3710-3720 (2018).
  59. Chugunova, A., et al. LINC00116 codes for a mitochondrial peptide linking respiration and lipid metabolism. Proceedings of the Nationall Academy of Sciences of the United States of America. 116 (11), 4940-4945 (2019).
  60. Lin, Y. F., et al. A novel mitochondrial micropeptide MPM enhances mitochondrial respiratory activity and promotes myogenic differentiation. Cell Death and Disease. 10 (7), 528 (2019).
  61. Wang, L., et al. The micropeptide LEMP plays an evolutionarily conserved role in myogenesis. Cell Death and Disease. 11 (5), 357 (2020).
  62. He, S., Liu, S., Zhu, H. The sequence, structure and evolutionary features of HOTAIR in mammals. BMC Evolutionary Biology. 11 (1), 1-14 (2011).
  63. Rinn, J. L., et al. Functional demarcation of active and silent chromatin domains in human HOX loci by noncoding RNAs. Cell. 129 (7), 1311-1323 (2007).
  64. Bhatta, A., et al. A Mitochondrial micropeptide is required for activation of the Nlrp3 inflammasome. Journal of Immunology. 204 (2), 428-437 (2020).
  65. Zhang, D., et al. Functional prediction and physiological characterization of a novel short trans-membrane protein 1 as a subunit of mitochondrial respiratory complexes. Physiological Genomics. 44 (23), 1133-1140 (2012).
  66. Rathore, A., et al. MIEF1 microprotein regulates mitochondrial translation. Biochemistry. 57 (38), 5564-5575 (2018).
  67. Jungreis, I., Sealfon, R., Kellis, M. SARS-CoV-2 gene content and COVID-19 mutation impact by comparing 44 Sarbecovirus genomes. Nature Communications. 12 (1), 2642 (2021).
  68. Chen, J., et al. Pervasive functional translation of noncanonical human open reading frames. Science. 367 (6482), 1140-1146 (2020).
  69. Ruiz-Orera, J., Verdaguer-Grau, P., Villanueva-Canas, J. L., Messeguer, X., Alba, M. M. Translation of neutrally evolving peptides provides a basis for de novo gene evolution. Nature Ecology and Evolution. 2 (5), 890-896 (2018).
  70. Blevins, W. R., et al. Uncovering de novo gene birth in yeast using deep transcriptomics. Nature Communications. 12 (1), 604 (2021).
  71. Papadopoulos, C., et al. Intergenic ORFs as elementary structural modules of de novo gene birth and protein evolution. Genome Research. , (2021).
  72. Vakirlis, N., Duggan, K. M., McLysaght, A. De novo birth of functional, human-specific microproteins. bioRxiv. , 462744 (2021).
  73. Van Oss, S. B., Carvunis, A. R. De novo gene birth. PLoS Genetics. 15 (5), 1008160 (2019).
  74. Andersson, D. I., Jerlstrom-Hultqvist, J., Nasvall, J. Evolution of new functions de novo and from preexisting genes. Cold Spring Harbor Perspectives in Biology. 7 (6), 017996 (2015).
  75. Ge, Q., et al. Micropeptide ASAP encoded by LINC00467 promotes colorectal cancer progression by directly modulating ATP synthase activity. Journal of Clinical Investigations. 131 (22), (2021).
  76. Sonnhammer, E. L., von Heijne, G., Krogh, A. A hidden Markov model for predicting transmembrane helices in protein sequences. Proceedings. International Conference on Intelligent Syststems for Molecular Biology. 6, 175-182 (1998).
  77. Lu, S., et al. CDD/SPARCLE: the conserved domain database in 2020. Nucleic Acids Research. 48, 265-268 (2020).
  78. Mistry, J., et al. Pfam: The protein families database in 2021. Nucleic Acids Research. 49, 412-419 (2021).
  79. Horton, P., et al. PSORT: protein localization predictor. Nucleic Acids Research. 35 (2), 585-587 (2007).
  80. Obayashi, T., Kagaya, Y., Aoki, Y., Tadaka, S., Kinoshita, K. COXPRESdb v7: a gene coexpression database for 11 animal species supported by 23 coexpression platforms for technical evaluation and evolutionary inference. Nucleic Acids Research. 47, 55-62 (2019).
  81. Teufel, F., et al. SignalP 6.0 predicts all five types of signal peptides using protein language models. Nature Biotechnology. , 01156 (2022).

Reimpressões e Permissões

Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE

Solicitar Permissão

Explore Mais Artigos

BiologiaEdi o 185

This article has been published

Video Coming Soon

JoVE Logo

Privacidade

Termos de uso

Políticas

Pesquisa

Educação

SOBRE A JoVE

Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados