Bu içeriği görüntülemek için JoVE aboneliği gereklidir. Oturum açın veya ücretsiz deneme sürümünü başlatın.
Method Article
Burada açıklanan protokol, kullanıcı dostu UCSC Genom Tarayıcısında PhyloCSF kullanarak mikroprotein kodlama potansiyeli için ilgilenilen genomik bölgelerin nasıl analiz edileceğine dair ayrıntılı talimatlar sağlar. Ek olarak, varsayılan işlevleri hakkında fikir edinmek için tanımlanmış mikroproteinlerin dizi özelliklerini daha fazla araştırmak için çeşitli araçlar ve kaynaklar önerilmektedir.
Yeni nesil dizileme (NGS), genomik alanını ileriye taşıdı ve çok sayıda hayvan türü ve model organizma için tüm genom dizileri üretti. Bununla birlikte, bu dizi bilgisinin zenginliğine rağmen, kapsamlı gen ek açıklama çabalarının, özellikle küçük proteinler için zorlayıcı olduğu kanıtlanmıştır. Özellikle, geleneksel protein ek açıklama yöntemleri, genom boyunca katlanarak daha fazla sayıda sahte kodlamayan sORF'yi filtrelemek için 300 nükleotitten daha kısa açık okuma çerçeveleri (sORF'ler) tarafından kodlanan varsayılan proteinleri kasıtlı olarak dışlamak için tasarlanmıştır. Sonuç olarak, mikroproteinler (<100 amino asit uzunluğunda) olarak adlandırılan yüzlerce fonksiyonel küçük protein, yanlış kodlamayan RNA'lar olarak sınıflandırılmış veya tamamen göz ardı edilmiştir.
Burada, evrimsel korumaya dayalı mikroprotein kodlama potansiyeli için genomik bölgeleri sorgulamak üzere ücretsiz, halka açık biyoinformatik araçlardan yararlanmak için ayrıntılı bir protokol sunuyoruz. Özellikle, kullanıcı dostu California Santa Cruz Üniversitesi (UCSC) Genom Tarayıcısında Filogenetik Kodon İkame Frekansları (PhyloCSF) kullanarak dizi korunumu ve kodlama potansiyelinin nasıl inceleneceğine dair adım adım talimatlar sunuyoruz. Ek olarak, amino asit dizisi korumasını görselleştirmek için tanımlanmış mikroprotein dizilerinin çoklu tür hizalamalarını verimli bir şekilde oluşturmak için adımları detaylandırıyoruz ve tahmin edilen etki alanı yapıları da dahil olmak üzere mikroprotein özelliklerini analiz etmek için kaynaklar öneriyoruz. Bu güçlü araçlar, kanonik olmayan genomik bölgelerdeki varsayılan mikroprotein kodlama dizilerini tanımlamaya yardımcı olmak veya ilgilenilen kodlamayan bir transkriptte translasyonel potansiyele sahip korunmuş bir kodlama dizisinin varlığını dışlamak için kullanılabilir.
Genomdaki tüm kodlama elemanlarının tanımlanması, İnsan Genomu Projesi'nin başlatılmasından bu yana ana hedef olmuştur ve biyolojik sistemlerin ve genetik temelli hastalıkların etiyolojisinin anlaşılmasına yönelik merkezi bir hedef olmaya devam etmektedir 1,2,3,4. NGS tekniklerindeki ilerlemeler, omurgalılar, omurgasızlar, maya ve bitkiler de dahil olmak üzere çok sayıda organizma için tüm genom dizilerinin üretilmesine yol açmıştır5. Ek olarak, yüksek verimli transkripsiyonel dizileme yöntemleri, hücresel transkriptomun karmaşıklığını daha da ortaya çıkarmış ve hem protein kodlayan hem de kodlamayan işlevlere sahip binlerce yeni RNA molekülünü tanımlamıştır 6,7. Bu büyük miktardaki dizi bilgisinin kodunun çözülmesi devam eden bir süreçtir ve kapsamlı gen ek açıklama çabaları ile zorluklar devam etmektedir8.
Ribozom profillemesi 9,10 ve poli-ribozom dizilimi 11 de dahil olmak üzere translasyonelprofilleme yöntemlerinin son zamanlarda geliştirilmesi, yüzlerce kanonik olmayan çeviri olayının, mikroproteinler veya mikropeptitler 12,13,14,15,16 olarak adlandırılan küçük proteinler üretme potansiyeline sahip, genom boyunca şu anda açıklamasız sORF'lerle eşleştiğini gösteren kanıtlar sağlamıştır. 17. Mikroproteinler, küçük boyutları (<100 amino asit) ve klasik protein kodlayan gen özelliklerinin eksikliği nedeniyle standart gen ek açıklama yöntemleri tarafından daha önce göz ardı edilen çok yönlü proteinlerin yeni bir sınıfı olarak ortaya çıkmıştır 8,12,18,19,20. Mikroproteinler, maya21,22, sinekler 17,23,24 ve memeliler 25,26,27,28 dahil olmak üzere hemen hemen tüm organizmalarda tanımlanmıştır ve gelişim, metabolizma ve stres sinyalizasyonu dahil olmak üzere çeşitli süreçlerde kritik roller oynadığı gösterilmiştir19,20,29, 30,31,32,33,34. Bu nedenle, uzun zamandır göz ardı edilen bu fonksiyonel küçük protein sınıfının ek üyeleri için genom madenciliğine devam etmek zorunludur.
Mikroproteinlerin biyolojik öneminin yaygın olarak tanınmasına rağmen, bu gen sınıfı genom ek açıklamalarında çok az temsil edilmeye devam etmektedir ve doğru tanımlamaları, alandaki ilerlemeyi engelleyen devam eden bir zorluk olmaya devam etmektedir. Mikroprotein kodlama dizilerinin tanımlanmasıyla ilgili zorlukların üstesinden gelmek için son zamanlarda çeşitli hesaplama araçları ve deneysel yöntemler geliştirilmiştir (birkaç kapsamlı derlemede kapsamlı bir şekilde tartışılmıştır 8,35,36,37). Birçok yeni mikroprotein tanımlama çalışması 38,39,40,41,42,43,44,45,46,47, PhyloCSF 48,49 adı verilen böyle bir algoritmanın kullanımına büyük ölçüde güvenmiştir. , genomun korunmuş protein kodlayan bölgelerini kodlamayanlardan ayırt etmek için kullanılabilecek güçlü bir karşılaştırmalı genomik yaklaşım.
PhyloCSF, protein kodlayan genlerin evrimsel imzalarını tespit etmek için çok türlü nükleotid hizalamalarını ve filogenetik modelleri kullanarak kodon ikame frekanslarını (CSF) karşılaştırır. Bu ampirik model tabanlı yaklaşım, proteinlerin öncelikle nükleotid dizisinden ziyade amino asit seviyesinde korunduğu öncülüne dayanır. Bu nedenle, aynı amino asidi kodlayan eş anlamlı kodon ikameleri veya korunmuş özelliklere (yani yük, hidrofobiklik, polarite) sahip amino asitlere kodon ikameleri pozitif olarak puanlanırken, yanlış ve saçma sapan ikameler de dahil olmak üzere eş anlamlı olmayan ikameler negatif puan alır. PhyloCSF, tüm genom verileri üzerinde eğitilmiştir ve mikroproteinleri veya standart protein kodlayan genlerin bireysel ekzonlarını analiz ederken gerekli olan tam diziden izole edilmiş bir kodlama dizisinin (CDS) kısa bölümlerinin puanlanmasında etkili olduğu kanıtlanmıştır48,49.
Özellikle, California Santa Cruz Üniversitesi (UCSC) Genom Tarayıcısı 49,50,51'deki PhyloCSF izleme merkezlerinin yakın zamanda entegrasyonu, tüm geçmişlerden araştırmacıların, protein kodlama potansiyeli için ilgilenilen genomik bölgeleri sorgulamak için kullanıcı dostu bir arayüze kolayca erişmelerini sağlar. Aşağıda özetlenen protokol, PhyloCSF izleme merkezlerinin UCSC Genom Tarayıcısına nasıl yükleneceği ve daha sonra yüksek güvenilirlikli protein kodlama bölgelerini (veya bunların eksikliğini) araştırmak için ilgili genomik bölgelerin nasıl sorgulanacağı konusunda ayrıntılı talimatlar sağlar. Ek olarak, pozitif bir PhyloCSF skorunun gözlenmesi durumunda, mikroprotein kodlama potansiyelini daha fazla analiz etmek ve türler arası dizi korumasını göstermek için tanımlanmış amino asit dizilerinin çoklu tür hizalamalarını verimli bir şekilde üretmek için adımlar tanımlanmıştır. Son olarak, tartışmada, öngörülen etki alanı yapıları ve varsayılan mikroprotein fonksiyonuna ilişkin içgörü de dahil olmak üzere, tanımlanmış mikroprotein özelliklerini araştırmak için halka açık birkaç ek kaynak ve araç tanıtılmıştır.
Aşağıda özetlenen protokol, UCSC Genom Tarayıcısına (Mudge ve ark.49 tarafından oluşturulan) PhyloCSF tarayıcı izlerini yükleme ve gezinme adımlarını ayrıntılarıyla açıklamaktadır. UCSC Genom Tarayıcısı ile ilgili genel sorular için, kapsamlı bir Genom Tarayıcısı Kullanım Kılavuzu burada bulunabilir: https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html.
1. PhyloCSF İzleme Hub'ını UCSC Genom Tarayıcısına Yükleme
2. Gen Tanımlayıcıları kullanarak ilgilenilen genlere gitme
3. Dizi bilgilerini kullanarak ilgilenilen genomik bölgelere gitme
4. PhyloCSF İzleme Verileri kullanarak korunmuş sORF'lerin tanımlanması
5. Diğer genomlardaki homolog bölgelerin görüntülenmesi
6. İlgilenilen mikroproteinler için çok türlü dizi hizalamalarının oluşturulması
Burada, korunmuş bir sORF'nin UCSC Genom Tarayıcısında kolayca görselleştirilebilen ve analiz edilebilen pozitif bir PhyloCSF skorunu nasıl üreteceğini göstermek için doğrulanmış mikroprotein mitoregulini (Mtln) örnek olarak kullanacağız. Mitoregulin daha önce kodlamayan bir RNA (eski adıyla insan gen kimliği LINC00116 ve fare gen kimliği 1500011K16Rik) olarak açıklanmıştı. Karşılaştırmalı genomik ve dizi koruma analizi yöntemleri, ilk keşfinde kritik bir rol oynamışt?...
Burada sunulan protokol, kullanıcı dostu UCSC Genom Tarayıcısı48,49,50,51'de PhyloCSF kullanarak mikroprotein kodlama potansiyeli için ilgilenilen genomik bölgelerin nasıl sorgulanacağına dair ayrıntılı talimatlar sunmaktadır. Yukarıda ayrıntılı olarak açıklandığı gibi, PhyloCSF, protein kodlayan genlerin tipik48,49
Yazarlar, rekabet eden finansal çıkarları olmadığını beyan ederler.
Bu çalışma, Ulusal Sağlık Enstitüleri (HL-141630 ve HL-160569) ve Cincinnati Çocuk Araştırma Vakfı (Mütevelli Ödülü) tarafından desteklenmiştir.
Name | Company | Catalog Number | Comments |
Website | Website Address | Requirements | |
Clustal Omega Multiple Sequence Alignment Tool | https://www.ebi.ac.uk/Tools/msa/clustalo/ | Web browser | Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins) |
COXPRESSdb | https://coxpresdb.jp | Web browser | Provides co-regulated gene relationships to estimate gene functions |
EMBL-EBI Bioinformatics Tools FAQs | https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ | Web browser | Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments |
European Bioinformatics Institute (EMBL-EBI), Tools and Data Resources | https://www.ebi.ac.uk/services/all | Web browser | Comprehensive list of freely available websites, tools and data resources |
Expasy - Swiss Bioinformatics Resource Portal | https://www.expasy.org | Web browser | Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB) |
National Center for Biotechnology Information (NCBI) Conserved Domain Search | https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi | Web browser | Search tool to identify conserved domains within protein or coding nucleotide sequences |
Pfam 35 | http://pfam.xfam.org | Web browser | Protein family (Pfam) database, provides alignments and classification of protein families and domains |
PhyloCSF Track Hub Description | https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q edaCd4ir8aZ65ryaD&db=mm10 &c=chr2&g=hub_109801_ PhyloCSF_smooth | Web browser | Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub |
SignalP 6.0 | https://services.healthtech.dtu.dk/service.php?SignalP-6.0 | Web browser | Predicts the presence of signal peptides and the location of their cleavage sites |
TMHMM - 2.0 | https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 | Web browser | Prediction of transmembrane helices in proteins |
UCSC Genome Browser BLAT Search | https://genome.ucsc.edu/cgi-bin/hgBlat | Web browser | Tool used to find genomic regions using DNA or protein sequence information |
UCSC Genome Browser Gateway | https://genome.ucsc.edu/cgi-bin/hgGateway | Web browser | Direct link to the UCSC Genome Browser Gateway |
UCSC Genome Browser Home | https://genome.ucsc.edu/ | Web browser | Home website for the UCSC Genome Browser |
UCSC Genome Browser Track Data Hubs | https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs | Web browser | Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks |
UCSC Genome Browser User Guide | https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html | Web browser | Comprehensive user guide detailing how to navigate the UCSC Genome Browser |
WoLF PSORT | https://wolfpsort.hgc.jp | Web browser | Protein subcellular localization prediction tool |
Bu JoVE makalesinin metnini veya resimlerini yeniden kullanma izni talebi
Izin talebiThis article has been published
Video Coming Soon
JoVE Hakkında
Telif Hakkı © 2020 MyJove Corporation. Tüm hakları saklıdır