Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.
Method Article
* Diese Autoren haben gleichermaßen beigetragen
Das hier beschriebene Protokoll enthält detaillierte Anweisungen zur Analyse genomischer Regionen von Interesse auf Mikroprotein-kodierendes Potenzial mit PhyloCSF im benutzerfreundlichen UCSC Genome Browser. Darüber hinaus werden mehrere Werkzeuge und Ressourcen empfohlen, um die Sequenzeigenschaften identifizierter Mikroproteine weiter zu untersuchen und Einblicke in ihre mutmaßlichen Funktionen zu erhalten.
Next-Generation-Sequencing (NGS) hat das Gebiet der Genomik vorangetrieben und ganze Genomsequenzen für zahlreiche Tierarten und Modellorganismen hervorgebracht. Trotz dieser Fülle an Sequenzinformationen haben sich umfassende Genannotationsbemühungen als schwierig erwiesen, insbesondere für kleine Proteine. Insbesondere wurden konventionelle Proteinannotationsmethoden entwickelt, um mutmaßliche Proteine absichtlich auszuschließen, die durch kurze offene Leserahmen (sORFs) mit einer Länge von weniger als 300 Nukleotiden kodiert werden, um die exponentiell höhere Anzahl falscher nichtkodierender sORFs im gesamten Genom herauszufiltern. Infolgedessen wurden Hunderte von funktionellen kleinen Proteinen, die Mikroproteine genannt werden (<100 Aminosäuren lang), fälschlicherweise als nicht-kodierende RNAs klassifiziert oder ganz übersehen.
Hier stellen wir ein detailliertes Protokoll zur Verfügung, um kostenlose, öffentlich verfügbare bioinformatische Werkzeuge zu nutzen, um genomische Regionen nach Mikroprotein-kodierendem Potenzial auf der Grundlage evolutionärer Konservierung abzufragen. Insbesondere bieten wir Schritt-für-Schritt-Anleitungen zur Untersuchung der Sequenzerhaltung und des Kodierungspotenzials mit phylogenetischen Codon-Substitutionsfrequenzen (PhyloCSF) im benutzerfreundlichen Genome Browser der University of California Santa Cruz (UCSC). Darüber hinaus beschreiben wir Schritte zur effizienten Generierung mehrerer Speziesausrichtungen identifizierter Mikroproteinsequenzen, um die Erhaltung der Aminosäuresequenz zu visualisieren, und empfehlen Ressourcen zur Analyse von Mikroproteineigenschaften, einschließlich vorhergesagter Domänenstrukturen. Diese leistungsstarken Werkzeuge können verwendet werden, um mutmaßliche Mikroprotein-kodierende Sequenzen in nicht-kanonischen genomischen Regionen zu identifizieren oder das Vorhandensein einer konservierten kodierenden Sequenz mit translationalem Potenzial in einem nicht-kodierenden Transkript von Interesse auszuschließen.
Die Identifizierung des gesamten Satzes kodierender Elemente im Genom ist seit Beginn des Humangenomprojekts ein wichtiges Ziel und bleibt ein zentrales Ziel für das Verständnis biologischer Systeme und die Ätiologie genetisch bedingter Krankheiten 1,2,3,4. Fortschritte in der NGS-Technik haben zur Produktion ganzer Genomsequenzen für eine große Anzahl von Organismen geführt, darunter Wirbeltiere, Wirbellose, Hefen und Pflanzen5. Darüber hinaus haben transkriptionelle Hochdurchsatz-Sequenzierungsmethoden die Komplexität des zellulären Transkriptoms weiter aufgedeckt und Tausende neuartiger RNA-Moleküle mit proteinkodierenden und nicht-kodierenden Funktionen identifiziert 6,7. Die Entschlüsselung dieser riesigen Menge an Sequenzinformationen ist ein fortlaufender Prozess, und die Herausforderungen bei umfassenden Genannotationsbemühungenbleiben bestehen 8.
Die jüngste Entwicklung translationaler Profilierungsmethoden, einschließlich Ribosomenprofilierung 9,10 und Polyribosomensequenzierung 11, hat Hinweise darauf geliefert, dass Hunderte von nichtkanonischen Translationsereignissen derzeit unannotierten sORFs im gesamten Genom zugeordnet sind, mit dem Potenzial, kleine Proteine zu erzeugen, die Mikroproteine oder Mikropeptide genannt werden 12,13,14,15,16, 17. Mikroproteine haben sich aufgrund ihrer geringen Größe (<100 Aminosäuren) und des Fehlens klassischer proteinkodierender Geneigenschaften 8,12,18,19,20 bisher von Standard-Genannotationsmethoden übersehen. Mikroproteine wurden in praktisch allen Organismen beschrieben, einschließlich Hefe 21,22, Fliegen 17,23,24 und Säugetieren 25,26,27,28, und es wurde gezeigt, dass sie eine entscheidende Rolle in verschiedenen Prozessen spielen, einschließlich Entwicklung, Stoffwechsel und Stresssignalisierung 19,20,29, 30,31,32,33,34. Daher ist es unerlässlich, das Genom weiterhin nach zusätzlichen Mitgliedern dieser lange übersehenen Klasse funktioneller kleiner Proteine zu durchsuchen.
Trotz der weit verbreiteten Anerkennung der biologischen Bedeutung von Mikroproteinen ist diese Klasse von Genen in Genomannotationen nach wie vor stark unterrepräsentiert, und ihre genaue Identifizierung ist nach wie vor eine ständige Herausforderung, die den Fortschritt auf diesem Gebiet behindert hat. Verschiedene Berechnungswerkzeuge und experimentelle Methoden wurden kürzlich entwickelt, um die Schwierigkeiten zu überwinden, die mit der Identifizierung von Mikroprotein-kodierenden Sequenzen verbunden sind (ausführlich diskutiert in mehreren umfassenden Übersichtsarbeiten 8,35,36,37). Viele neuere Mikroprotein-Identifizierungsstudien 38,39,40,41,42,43,44,45,46,47 haben sich stark auf die Verwendung eines solchen Algorithmus namens PhyloCSF verlassen 48,49 , ein leistungsstarker vergleichender Genomikansatz, der genutzt werden kann, um konservierte proteinkodierende Regionen des Genoms von denen zu unterscheiden, die nicht kodierend sind.
PhyloCSF vergleicht Codon-Substitutionshäufigkeiten (CSF) unter Verwendung von Multispezies-Nukleotid-Alignments und phylogenetischen Modellen, um evolutionäre Signaturen von proteinkodierenden Genen nachzuweisen. Dieser empirische modellbasierte Ansatz beruht auf der Prämisse, dass Proteine in erster Linie auf der Aminosäureebene und nicht auf der Nukleotidsequenz konserviert werden. Daher werden synonyme Codon-Substitutionen, die die gleiche Aminosäure kodieren, oder Codon-Substitutionen zu Aminosäuren mit konservierten Eigenschaften (dh Ladung, Hydrophobie, Polarität) positiv bewertet, während nicht-synonyme Substitutionen, einschließlich Missverständnisse und Unsinnssubstitutionen, negativ abschneiden. PhyloCSF wird auf Daten des gesamten Genoms trainiert und hat sich als wirksam erwiesen, um kurze Teile einer kodierenden Sequenz (CDS) isoliert von der vollständigen Sequenz zu bewerten, was bei der Analyse von Mikroproteinen oder einzelnen Exons von Standardprotein-kodierenden Genenerforderlich ist 48,49.
Insbesondere die jüngste Integration der PhyloCSF-Track-Hubs in den Genome Browser 49,50,51 der University of California Santa Cruz (UCSC) ermöglicht es Ermittlern aller Hintergründe, leicht auf eine benutzerfreundliche Oberfläche zuzugreifen, um genomische Regionen von Interesse nach Proteinkodierungspotenzial abzufragen. Das unten beschriebene Protokoll enthält detaillierte Anweisungen zum Laden der PhyloCSF-Track-Hubs im UCSC Genome Browser und zur anschließenden Abfrage genomischer Regionen, die für die Suche nach proteinkodierenden Regionen mit hohem Konfidenzniveau (oder deren Fehlen) von Interesse sind. Darüber hinaus werden in dem Fall, in dem ein positiver PhyloCSF-Score beobachtet wird, Schritte beschrieben, um das mikroproteinkodierende Potenzial weiter zu analysieren und effizient mehrere Speziesausrichtungen der identifizierten Aminosäuresequenzen zu generieren, um die Sequenzerhaltung zwischen den Spezies zu veranschaulichen. Schließlich werden in der Diskussion mehrere zusätzliche öffentlich zugängliche Ressourcen und Werkzeuge vorgestellt, um identifizierte Mikroproteineigenschaften zu untersuchen, einschließlich vorhergesagter Domänenstrukturen und Einblicke in die mutmaßliche Mikroproteinfunktion.
Das unten beschriebene Protokoll beschreibt die Schritte zum Laden und Navigieren in den PhyloCSF-Browserspuren im UCSC Genome Browser (generiert von Mudge et al.49). Für allgemeine Fragen zum UCSC Genome Browser finden Sie hier ein umfangreiches Genome Browser User's Guide: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.
1. Laden des PhyloCSF Track Hubs in den UCSC Genome Browser
2. Navigieren zu interessanten Genen mithilfe von Gen-Identifikatoren
3. Navigieren zu genomischen Regionen von Interesse mithilfe von Sequenzinformationen
4. Identifizierung konservierter sORFs mithilfe von PhyloCSF-Track-Daten
5. Homologe Regionen in anderen Genomen betrachten
6. Generierung von Multispezies-Sequenzausrichtungen für Mikroproteine von Interesse
Hier zeigen wir am Beispiel des validierten Mikroproteins Mitoregulin (Mtln), wie ein konservierter sORF einen positiven PhyloCSF-Score generiert, der im UCSC Genome Browser leicht visualisiert und analysiert werden kann. Mitoregulin wurde zuvor als nicht-kodierende RNA annotiert (früher humane Gen-ID LINC00116 und Maus-Gen-ID 1500011K16Rik). Vergleichende Methoden der Genomik und der Sequenzerhaltungsanalyse spielten eine entscheidende Rolle bei der ersten Entdeckung 40,57,58,59,60,61
Das hier vorgestellte Protokoll enthält detaillierte Anweisungen zur Abfrage genomischer Regionen von Interesse für Mikroprotein-kodierendes Potenzial mit PhyloCSF auf dem benutzerfreundlichen UCSC Genome Browser 48,49,50,51. Wie oben beschrieben, ist PhyloCSF ein leistungsstarker vergleichender Genomik-Algorithmus, der phylogenetische Modelle und Codon-Substitutionsfrequenzen inte...
Die Autoren erklären, dass sie keine konkurrierenden finanziellen Interessen haben.
Diese Arbeit wurde durch Zuschüsse der National Institutes of Health (HL-141630 und HL-160569) und der Cincinnati Children's Research Foundation (Trustee Award) unterstützt.
Name | Company | Catalog Number | Comments |
Website | Website Address | Requirements | |
Clustal Omega Multiple Sequence Alignment Tool | https://www.ebi.ac.uk/Tools/msa/clustalo/ | Web browser | Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins) |
COXPRESSdb | https://coxpresdb.jp | Web browser | Provides co-regulated gene relationships to estimate gene functions |
EMBL-EBI Bioinformatics Tools FAQs | https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ | Web browser | Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments |
European Bioinformatics Institute (EMBL-EBI), Tools and Data Resources | https://www.ebi.ac.uk/services/all | Web browser | Comprehensive list of freely available websites, tools and data resources |
Expasy - Swiss Bioinformatics Resource Portal | https://www.expasy.org | Web browser | Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB) |
National Center for Biotechnology Information (NCBI) Conserved Domain Search | https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi | Web browser | Search tool to identify conserved domains within protein or coding nucleotide sequences |
Pfam 35 | http://pfam.xfam.org | Web browser | Protein family (Pfam) database, provides alignments and classification of protein families and domains |
PhyloCSF Track Hub Description | https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q edaCd4ir8aZ65ryaD&db=mm10 &c=chr2&g=hub_109801_ PhyloCSF_smooth | Web browser | Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub |
SignalP 6.0 | https://services.healthtech.dtu.dk/service.php?SignalP-6.0 | Web browser | Predicts the presence of signal peptides and the location of their cleavage sites |
TMHMM - 2.0 | https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 | Web browser | Prediction of transmembrane helices in proteins |
UCSC Genome Browser BLAT Search | https://genome.ucsc.edu/cgi-bin/hgBlat | Web browser | Tool used to find genomic regions using DNA or protein sequence information |
UCSC Genome Browser Gateway | https://genome.ucsc.edu/cgi-bin/hgGateway | Web browser | Direct link to the UCSC Genome Browser Gateway |
UCSC Genome Browser Home | https://genome.ucsc.edu/ | Web browser | Home website for the UCSC Genome Browser |
UCSC Genome Browser Track Data Hubs | https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs | Web browser | Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks |
UCSC Genome Browser User Guide | https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html | Web browser | Comprehensive user guide detailing how to navigate the UCSC Genome Browser |
WoLF PSORT | https://wolfpsort.hgc.jp | Web browser | Protein subcellular localization prediction tool |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten