需要订阅 JoVE 才能查看此. 登录或开始免费试用。
Method Article
这里描述的协议提供了有关如何在用户友好的UCSC基因组浏览器上使用PhyloCSF分析微蛋白编码潜力的感兴趣基因组区域的详细说明。此外,建议使用几种工具和资源来进一步研究已鉴定的微蛋白的序列特征,以深入了解其假定的功能。
下一代测序(NGS)推动了基因组学领域的发展,并为许多动物物种和模式生物产生了全基因组序列。然而,尽管有如此丰富的序列信息,但全面的基因注释工作已被证明具有挑战性,特别是对于小蛋白质。值得注意的是,传统的蛋白质注释方法被设计成有意排除由长度小于300个核苷酸的短开放阅读框(sORFs)编码的推定蛋白质,以过滤掉整个基因组中呈指数级增长的虚假非编码SORF。结果,数百种称为微蛋白的功能性小蛋白质(长度<100个氨基酸)被错误地归类为非编码RNA或完全被忽略。
在这里,我们提供了一个详细的协议,以利用免费的,公开可用的生物信息学工具,根据进化保护来查询基因组区域的微蛋白编码潜力。具体而言,我们提供了有关如何在用户友好的加州大学圣克鲁兹分校(UCSC)基因组浏览器上使用系统发育密码子替换频率(PhyloCSF)检查序列保存和编码潜力的分步说明。此外,我们还详细介绍了有效生成已鉴定微蛋白序列的多个物种比对的步骤,以可视化氨基酸序列保存,并推荐分析微蛋白特征的资源,包括预测的结构域结构。这些强大的工具可用于帮助鉴定非正统基因组区域中的推定微蛋白编码序列,或排除在感兴趣的非编码转录本中存在具有翻译潜力的保守编码序列。
自人类基因组计划启动以来,基因组中全套编码元件的鉴定一直是一个主要目标,并且仍然是了解生物系统和基于遗传的疾病的病因学的中心目标1,2,3,4。NGS技术的进步导致为大量生物体(包括脊椎动物,无脊椎动物,酵母和植物)生成全基因组序列5.此外,高通量转录测序方法进一步揭示了细胞转录组的复杂性,并鉴定了数千种具有蛋白质编码和非编码功能的新型RNA分子6,7。解码如此大量的序列信息是一个持续的过程,全面的基因注释工作仍然存在挑战8.
最近开发的翻译分析方法,包括核糖体分析9,10和多核糖体测序11,已经提供了证据,表明数百个非规范翻译事件映射到整个基因组中当前未注释的SORFs,有可能产生称为微蛋白或微肽的小蛋白质12,13,14,15,16,17. 微蛋白已成为一类新颖的多功能蛋白质,由于其体积小(<100个氨基酸)和缺乏经典的蛋白质编码基因特征而被标准基因注释方法所忽视8,12,18,19,20。微蛋白已经在几乎所有生物体中都有描述,包括酵母21,22,苍蝇17,23,24和哺乳动物25,26,27,28,并且已被证明在各种过程中起关键作用,包括发育,代谢和应激信号传导19,20,29,30,31,32,33,34.因此,必须继续为这一类长期被忽视的功能小蛋白质的其他成员挖掘基因组。
尽管人们普遍认识到微蛋白的生物学重要性,但这类基因在基因组注释中仍然远远不足,它们的准确鉴定仍然是一个持续的挑战,阻碍了该领域的进展。最近开发了各种计算工具和实验方法来克服与识别微蛋白编码序列相关的困难(在几个综合综述8,35,36,37中广泛讨论)。最近的许多微蛋白鉴定研究38,39,40,41,42,43,44,45,46,47都严重依赖使用一种称为PhyloCSF48,49的算法。,一种强大的比较基因组学方法,可用于区分基因组的保守蛋白质编码区域和非编码区域。
PhyloCSF使用多物种核苷酸比对和系统发育模型来比较密码子取代频率(CSF),以检测蛋白质编码基因的进化特征。这种基于经验模型的方法依赖于这样一个前提,即蛋白质主要在氨基酸水平而不是核苷酸序列上是保守的。因此,编码相同氨基酸的同义词密码子取代或对具有保守性质(即电荷,疏水性,极性)的氨基酸的密码子取代被评分为正,而非同义取代,包括错义和无意义取代,得分为负数。PhyloCSF在全基因组数据上进行训练,并已被证明在分离于完整序列的编码序列(CDS)的短部分方面是有效的,这在分析微蛋白或标准蛋白质编码基因的单个外显子48,49时是必需的。
值得注意的是,最近在加州大学圣克鲁兹分校(UCSC)基因组浏览器49,50,51中集成了PhyloCSF跟踪中心,使所有背景的研究人员都可以轻松访问用户友好的界面,以查询感兴趣的基因组区域,以获得蛋白质编码潜力。下面概述的协议提供了有关如何在UCSC基因组浏览器上加载PhyloCSF跟踪中心并随后询问感兴趣的基因组区域以探测高置信度蛋白质编码区域(或缺乏高置信度蛋白质编码区域)的详细说明。此外,在观察到阳性PhyloCSF评分的情况下,描述步骤以进一步分析微蛋白编码潜力并有效地生成已鉴定氨基酸序列的多个物种比对,以说明跨物种序列守恒。最后,在讨论中引入了几个额外的公开资源和工具,以调查已鉴定的微蛋白特征,包括预测的结构域结构和对假定微蛋白功能的见解。
下面概述的协议详细介绍了在UCSC基因组浏览器(由Mudge等人生成)上加载和导航PhyloCSF浏览器轨道的步骤。有关UCSC基因组浏览器的一般问题,可以在此处找到广泛的基因组浏览器用户指南:https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html。
1. 将系统级社群跟踪中心加载到 UCSC 基因组浏览器
2. 使用基因标识符导航到感兴趣的基因
3. 使用序列信息导航到感兴趣的基因组区域
4. 使用系统级数跟踪数据识别保守的随机对冲量程
5. 观察其他基因组中的同源区域
6. 为感兴趣的微蛋白生成多物种序列比对
在这里,我们将使用经过验证的微蛋白米托雷古林(Mtln)作为示例,以演示保守的sORF将如何产生阳性的PhyloCSF评分,该评分可以在UCSC基因组浏览器上轻松可视化和分析。米托瑞古林以前被注释为非编码RNA(以前是人类基因ID LINC00116和小鼠基因ID 1500011K16Rik)。比较基因组学和序列保存分析方法在其初步发现40、57、58、...
这里介绍的协议提供了有关如何在用户友好的UCSC基因组浏览器48,49,50,51上使用PhyloCSF询问感兴趣的基因组区域以识别微蛋白编码潜力的详细说明。如上所述,PhyloCSF是一种强大的比较基因组学算法,它集成了系统发育模型和密码子替换频率,以识别蛋白质编码基因48,
作者声明他们没有竞争的经济利益。
这项工作得到了美国国立卫生研究院(HL-141630和HL-160569)和辛辛那提儿童研究基金会(受托人奖)的资助。
Name | Company | Catalog Number | Comments |
Website | Website Address | Requirements | |
Clustal Omega Multiple Sequence Alignment Tool | https://www.ebi.ac.uk/Tools/msa/clustalo/ | Web browser | Multiple sequence alignment program for the efficient alignment of FASTA sequences (i.e. for cross-species comparison of identified microproteins) |
COXPRESSdb | https://coxpresdb.jp | Web browser | Provides co-regulated gene relationships to estimate gene functions |
EMBL-EBI Bioinformatics Tools FAQs | https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Bioinformatics+Tools+FAQ | Web browser | Frequently Asked Questions (FAQs) for EMBL-EBI tools. Includes the color coding key for protein sequence alignments |
European Bioinformatics Institute (EMBL-EBI), Tools and Data Resources | https://www.ebi.ac.uk/services/all | Web browser | Comprehensive list of freely available websites, tools and data resources |
Expasy - Swiss Bioinformatics Resource Portal | https://www.expasy.org | Web browser | Suite of bioinformatic tools and resources for protein sequence analysis that is maintained by the Swiss Institute of Bioinformatics (SIB) |
National Center for Biotechnology Information (NCBI) Conserved Domain Search | https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi | Web browser | Search tool to identify conserved domains within protein or coding nucleotide sequences |
Pfam 35 | http://pfam.xfam.org | Web browser | Protein family (Pfam) database, provides alignments and classification of protein families and domains |
PhyloCSF Track Hub Description | https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1267045267_TEc99h2oW5Q edaCd4ir8aZ65ryaD&db=mm10 &c=chr2&g=hub_109801_ PhyloCSF_smooth | Web browser | Detailed description of the Smoothed PhyloCSF tracks and PhyloCSF Track Hub |
SignalP 6.0 | https://services.healthtech.dtu.dk/service.php?SignalP-6.0 | Web browser | Predicts the presence of signal peptides and the location of their cleavage sites |
TMHMM - 2.0 | https://services.healthtech.dtu.dk/service.php?TMHMM-2.0 | Web browser | Prediction of transmembrane helices in proteins |
UCSC Genome Browser BLAT Search | https://genome.ucsc.edu/cgi-bin/hgBlat | Web browser | Tool used to find genomic regions using DNA or protein sequence information |
UCSC Genome Browser Gateway | https://genome.ucsc.edu/cgi-bin/hgGateway | Web browser | Direct link to the UCSC Genome Browser Gateway |
UCSC Genome Browser Home | https://genome.ucsc.edu/ | Web browser | Home website for the UCSC Genome Browser |
UCSC Genome Browser Track Data Hubs | https://genome.ucsc.edu/cgi-bin/hgHubConnect#publicHubs | Web browser | Direct link to Track Data Hubs/Public Hubs database to search for and load the PhyloCSF Tracks |
UCSC Genome Browser User Guide | https://genome.ucsc.edu/goldenPath/help/hgTracksHelp.html | Web browser | Comprehensive user guide detailing how to navigate the UCSC Genome Browser |
WoLF PSORT | https://wolfpsort.hgc.jp | Web browser | Protein subcellular localization prediction tool |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。