Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.
Method Article
Le protocole décrit ici fournit des instructions détaillées sur la façon d’analyser les régions génomiques d’intérêt pour le potentiel de codage des microprotéines à l’aide de PhyloCSF sur le navigateur de génome convivial UCSC. En outre, plusieurs outils et ressources sont recommandés pour étudier plus avant les caractéristiques de séquence des microprotéines identifiées afin de mieux comprendre leurs fonctions putatives.
Le séquençage de nouvelle génération (NGS) a propulsé le domaine de la génomique vers l’avant et produit des séquences de génome entier pour de nombreuses espèces animales et organismes modèles. Cependant, malgré cette richesse d’informations sur les séquences, les efforts complets d’annotation des gènes se sont avérés difficiles, en particulier pour les petites protéines. Notamment, les méthodes conventionnelles d’annotation des protéines ont été conçues pour exclure intentionnellement les protéines putatives codées par de courts cadres de lecture ouverts (sORF) de moins de 300 nucléotides de longueur afin de filtrer le nombre exponentiellement plus élevé de faux sORF non codants dans tout le génome. En conséquence, des centaines de petites protéines fonctionnelles appelées microprotéines (<100 acides aminés de longueur) ont été classées à tort comme des ARN non codants ou complètement négligées.
Ici, nous fournissons un protocole détaillé pour tirer parti d’outils bioinformatiques gratuits et accessibles au public pour interroger les régions génomiques sur le potentiel de codage des microprotéines basé sur la conservation évolutive. Plus précisément, nous fournissons des instructions étape par étape sur la façon d’examiner la conservation des séquences et le potentiel de codage à l’aide des fréquences de substitution phylogénétique du codon (PhyloCSF) sur le navigateur de génome convivial de l’Université de Californie à Santa Cruz (UCSC). De plus, nous détaillons les étapes pour générer efficacement plusieurs alignements d’espèces de séquences de microprotéines identifiées afin de visualiser la conservation des séquences d’acides aminés et recommandons des ressources pour analyser les caractéristiques des microprotéines, y compris les structures de domaine prédites. Ces outils puissants peuvent être utilisés pour aider à identifier des séquences de codage de microprotéines putatives dans des régions génomiques non canoniques ou pour exclure la présence d’une séquence codante conservée avec un potentiel translationnel dans une transcription d’intérêt non codante.
L’identification de l’ensemble complet des éléments codants dans le génome est un objectif majeur depuis le lancement du projet du génome humain et demeure un objectif central pour la compréhension des systèmes biologiques et l’étiologie des maladies génétiques 1,2,3,4. Les progrès des techniques NGS ont conduit à la production de séquences du génome entier pour un grand nombre d’organismes, y compris les vertébrés, les invertébrés, les levures et les plantes5. De plus, les méthodes de séquençage transcriptionnel à haut débit ont révélé la complexité du transcriptome cellulaire et identifié des milliers de nouvelles molécules d’ARN ayant à la fois des fonctions codant pour les protéines et non codantes 6,7. Le décodage de cette grande quantité d’informations de séquence est un processus continu, et des défis subsistent avec des efforts complets d’annotationde gènes 8.
Le développement récent de méthodes de profilage translationnel, y compris le profilage des ribosomes 9,10 et le séquençage des poly-ribosomes11, a fourni des preuves indiquant que des centaines d’événements de traduction non canoniques correspondent à des SORF actuellement non annotés dans tout le génome, avec le potentiel de générer de petites protéines appelées microprotéines ou micropeptides 12,13,14,15,16, 17. Les microprotéines sont apparues comme une nouvelle classe de protéines polyvalentes auparavant négligées par les méthodes standard d’annotation des gènes en raison de leur petite taille (<100 acides aminés) et de l’absence de caractéristiques génétiques classiquescodant pour les protéines 8,12,18,19,20. Les microprotéines ont été décrites dans pratiquement tous les organismes, y compris la levure21,22, les mouches 17,23,24 et les mammifères 25,26,27,28, et il a été démontré qu’elles jouent un rôle essentiel dans divers processus, y compris le développement, le métabolisme et la signalisation du stress 19,20,29, 30,31,32,33,34. Ainsi, il est impératif de continuer à exploiter le génome pour trouver d’autres membres de cette classe de petites protéines fonctionnelles longtemps négligée.
Malgré la reconnaissance généralisée de l’importance biologique des microprotéines, cette classe de gènes reste largement sous-représentée dans les annotations du génome, et leur identification précise continue d’être un défi permanent qui a entravé les progrès dans le domaine. Divers outils de calcul et méthodes expérimentales ont récemment été mis au point pour surmonter les difficultés associées à l’identification des séquences codant pour les microprotéines (discutés en détail dans plusieurs revues complètes 8,35,36,37). De nombreuses études récentes d’identification des microprotéines 38,39,40,41,42,43,44,45,46,47 se sont fortement appuyées sur l’utilisation d’un tel algorithme appelé PhyloCSF 48,49 , une puissante approche génomique comparative qui peut être exploitée pour distinguer les régions du génome codant pour les protéines conservées de celles qui ne sont pas codantes.
Le PhyloCSF compare les fréquences de substitution des codons (LCR) à l’aide d’alignements de nucléotides multi-espèces et de modèles phylogénétiques pour détecter les signatures évolutives de gènes codant pour les protéines. Cette approche empirique basée sur un modèle repose sur la prémisse que les protéines sont principalement conservées au niveau des acides aminés plutôt qu’à la séquence nucléotidique. Par conséquent, les substitutions de codon synonymes, qui codent le même acide aminé, ou les substitutions de codon aux acides aminés ayant des propriétés conservées (c.-à-d. charge, hydrophobicité, polarité) sont notées positivement, tandis que les substitutions non synonymes, y compris les substitutions fausses et absurdes, obtiennent un score négatif. PhyloCSF est formé sur des données du génome entier et s’est avéré efficace pour marquer de courtes portions d’une séquence codante (CDS) isolée de la séquence complète, ce qui est nécessaire lors de l’analyse de microprotéines ou d’exons individuels de gènes codant pour des protéines standard48,49.
Notamment, l’intégration récente des hubs de suivi PhyloCSF dans le Genome Browser 49,50,51 de l’Université de Californie à Santa Cruz (UCSC) permet aux chercheurs de tous horizons d’accéder facilement à une interface conviviale pour interroger les régions génomiques d’intérêt pour le potentiel de codage des protéines. Le protocole décrit ci-dessous fournit des instructions détaillées sur la façon de charger les hubs de suivi PhyloCSF sur le navigateur de génome UCSC et d’interroger ensuite les régions génomiques d’intérêt pour sonder les régions codant pour les protéines à haute confiance (ou l’absence de celles-ci). De plus, dans le cas où un score PhyloCSF positif est observé, des étapes sont délimitées pour analyser davantage le potentiel codant pour les microprotéines et générer efficacement plusieurs alignements d’espèces des séquences d’acides aminés identifiées afin d’illustrer la conservation des séquences inter-espèces. Enfin, plusieurs ressources et outils supplémentaires accessibles au public sont présentés dans la discussion pour étudier les caractéristiques des microprotéines identifiées, y compris les structures de domaine prédites et les connaissances sur la fonction des microprotéines putatives.
Le protocole décrit ci-dessous détaille les étapes à suivre pour charger et naviguer dans les pistes du navigateur PhyloCSF sur le navigateur du génome UCSC (généré par Mudge et al.49). Pour des questions générales concernant le navigateur de génome UCSC, un guide complet de l’utilisateur de Genome Browser peut être trouvé ici: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.
1. Chargement du PhyloCSF Track Hub dans le navigateur de génome UCSC
2. Naviguer vers les gènes d’intérêt à l’aide d’identificateurs de gènes
3. Naviguer vers les régions génomiques d’intérêt à l’aide d’informations de séquence
4. Identification des SORF conservés à l’aide des données de suivi PhyloCSF
5. Affichage des régions homologues dans d’autres génomes
6. Génération d’alignements de séquences multi-espèces pour les microprotéines d’intérêt
Ici, nous utiliserons la microprotéine mitoréguline validée (Mtln) comme exemple pour démontrer comment un sORF conservé générera un score PhyloCSF positif qui peut être facilement visualisé et analysé sur le navigateur de génome UCSC. La mitoréguline était auparavant annotée en tant qu’ARN non codant (anciennement ID du gène humain LINC00116 et ID du gène de la souris 1500011K16Rik). La génomique comparative et les méthodes d’analyse de conservation des séquences ont joué un rô...
Le protocole présenté ici fournit des instructions détaillées sur la façon d’interroger les régions génomiques d’intérêt pour le potentiel de codage des microprotéines à l’aide de PhyloCSF sur le navigateur de génome convivial UCSC 48,49,50,51. Comme détaillé ci-dessus, PhyloCSF est un puissant algorithme de génomique comparative qui intègre des modèles phylogénétiques ...
Les auteurs déclarent qu’ils n’ont pas d’intérêts financiers concurrents.
Ce travail a été soutenu par des subventions des National Institutes of Health (HL-141630 et HL-160569) et de la Cincinnati Children’s Research Foundation (Trustee Award).
Name | Company | Catalog Number | Comments |
Website | Website Address | Requirements | |
Clustal Omega Multiple Sequence Alignment Tool | https://www.ebi.ac.uk/Tools/msa/clustalo/ | Web browser | Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins) |
COXPRESSdb | https://coxpresdb.jp | Web browser | Provides co-regulated gene relationships to estimate gene functions |
EMBL-EBI Bioinformatics Tools FAQs | https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ | Web browser | Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments |
European Bioinformatics Institute (EMBL-EBI), Tools and Data Resources | https://www.ebi.ac.uk/services/all | Web browser | Comprehensive list of freely available websites, tools and data resources |
Expasy - Swiss Bioinformatics Resource Portal | https://www.expasy.org | Web browser | Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB) |
National Center for Biotechnology Information (NCBI) Conserved Domain Search | https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi | Web browser | Search tool to identify conserved domains within protein or coding nucleotide sequences |
Pfam 35 | http://pfam.xfam.org | Web browser | Protein family (Pfam) database, provides alignments and classification of protein families and domains |
PhyloCSF Track Hub Description | https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q edaCd4ir8aZ65ryaD&db=mm10 &c=chr2&g=hub_109801_ PhyloCSF_smooth | Web browser | Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub |
SignalP 6.0 | https://services.healthtech.dtu.dk/service.php?SignalP-6.0 | Web browser | Predicts the presence of signal peptides and the location of their cleavage sites |
TMHMM - 2.0 | https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 | Web browser | Prediction of transmembrane helices in proteins |
UCSC Genome Browser BLAT Search | https://genome.ucsc.edu/cgi-bin/hgBlat | Web browser | Tool used to find genomic regions using DNA or protein sequence information |
UCSC Genome Browser Gateway | https://genome.ucsc.edu/cgi-bin/hgGateway | Web browser | Direct link to the UCSC Genome Browser Gateway |
UCSC Genome Browser Home | https://genome.ucsc.edu/ | Web browser | Home website for the UCSC Genome Browser |
UCSC Genome Browser Track Data Hubs | https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs | Web browser | Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks |
UCSC Genome Browser User Guide | https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html | Web browser | Comprehensive user guide detailing how to navigate the UCSC Genome Browser |
WoLF PSORT | https://wolfpsort.hgc.jp | Web browser | Protein subcellular localization prediction tool |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon