JoVE Logo

登录

需要订阅 JoVE 才能查看此. 登录或开始免费试用。

本文内容

  • 摘要
  • 摘要
  • 引言
  • 研究方案
  • 结果
  • 讨论
  • 披露声明
  • 致谢
  • 材料
  • 参考文献
  • 转载和许可

摘要

本议定书的目标是制定一个基准不同蛋白质缺乏连贯一致的命名和分类标准的组中。此引用有助于分析和小组讨论作为一个整体,可采用除规定名称。

摘要

研究了在不同的实验室使用不同生物体的相关的蛋白可能缺乏统一的制度的命名和分类,制作困难,讨论组作为一个整体并放置到适当的上下文的新序列。发展优先重要序列特征的引用有关的结构和 (或) 活动可用于除规定名称向不同的蛋白质组中添加一些相干。本文使用的半胱氨酸稳定 α 螺旋 (CS-α β) 超家族作为一个例子显示如何在电子表格软件中生成的引用可以澄清现有蛋白超家族成员之间的关系,以及促进新的加法序列。它还演示如何引用可以帮助完善中常用的软件,系统发育分析的有效性的影响生成的序列比对。引用的使用可能会对于蛋白质组包含高度不同的序列,从广泛的类群,具有各种功能,不充分的分子分析捕捉到最有帮助。

引言

蛋白质的名称应该反映是特征及与其他蛋白质的关系。不幸的是,名称通常会发现当时被分配,并且,随着研究的继续,较大范围的理解可能更改。如果蛋白质被独立地识别由多个实验室,变化在命名或被认为是明确分配名称时的特点和充足地不再区分蛋白质的名称,这会导致多个名称从别人。

无脊椎动物防御提供很好的例子,变性的命名和分类。第一次的无脊椎动物防御宗从昆虫,和名称"昆虫防御素",提出了基于感知的同源性为哺乳动物防御素12。长期防御素仍然使用,即使它是现在很清楚那无脊椎动物及哺乳动物防御素不共享一个共同的祖先34。根据物种,"防御"无脊椎动物可能有六个或八个半胱氨酸 (即形成三个或四个二硫键) 和各种抗菌活性。防止局势进一步复杂化,具有相同特征的蛋白质称为防御素是不总是"防御,"如最近发现的 cremycins 从秀丽 remanei5。此外,无脊椎动物大防御素是更有可能进化有关脊椎动物 β-防御素比到其他无脊椎动物防御6。尽管这样,研究人员有时依赖名称"防御"确定哪些序列应列入分析时。

结构的研究揭示昆虫防御素与蝎子毒素7,之间的相似性和 CS-α β 折叠随后成立作为昆虫防御8的定义结构特征。这折叠结构蛋白质分类 (SCOP) 数据库中9,目前包括五个家庭定义蝎子毒素样 (CS-α β) 超家族: 昆虫防御素、 短链蝎毒素、 长链蝎毒素,MGD 1 (从软体动物) 和植物防御素。这个家族是最近描述的独联体防御4和蛋白酶基因 3D 数据库1011超 3.30.30.10 家族的代名词。从繁多的无脊椎动物类群、 植物和真菌显示的名称包含这折叠的蛋白质显然无关的半胱氨酸数量的抗菌活性或键合模式、 进化历史12的研究。

缺乏一致性和明确的标准,使它具有挑战性进行命名和分类在这个家族中的新发现序列。比较此超家族蛋白的主要障碍是半胱氨酸的编号对每个单独序列 (每个序列中的第一个半胱氨酸是 C1),没有办法解释的结构的作用。这意味着只有序列与相同数量的半胱氨酸可以进行比较。还有小序列保守性非半胱氨酸形成 CS-α β 折叠,使线路及系统发育分析困难。通过开发划分结构功能优先级编号系统,可以更轻松地比较和对齐家族序列。保守的特点,以及那些定义分组,可以快速,可视化和新序列可以更轻松地放入适当的上下文。

本文使用一个电子表格软件 (Excel) 来生成参考编号系统的 CS-α β 超家族。它显示如何这澄清序列之间的比较,并将其应用于新的 CS-α β 序列确定从缓步动物。使用 CS-α β 超家族作为一个例子,是写议定书 》 提供指导,当使用序列的兴趣;然而,它不是要具体到这个家族或富含半胱氨酸序列。此方法可能会最有用的蛋白质,有独立研究在不同类群和 (或) 有小的整体序列同源性,与离散性的特征,不可能很容易识别的分子分析软件组。此方法要求一些先验的决定,有关重要的功能,所以它将有限的公共事业,如果没有重要的特点,确定了。主要的目标是展示如何可以实现一个简单的可视化的序列关系。这然后可以用于通知序列比对和分析,但如果对齐方式和分析的主要目标,条形码方法会有更多的容量,为自动化13个合适的选择。当前方法的线性形式,显示每个肽的特点,所以它不会有助于直接可视化的三维结构。

研究方案

1.确定定义功能的蛋白质组的

  1. 咨询以前的出版物,以确定是否有必要考虑组的一部分的功能方面达成共识。注意到的任何不一致之处或意见研究团体之间的分歧,包括可能有助于区分另一个亚组的特点。
  2. 如果以往文献不能解决最大特色,使用序列作为起点来识别保守的特点被认为集团代表。

2。收集有关序列

  1. 如果已编写审核,包括分析序列,所代表的集团,包括这些序列中的原始数据集。检索序列使用加入数字文献中引用和保存标准序列编辑程序中 (例如, EditSeq Lasergene 套房或的众多可供一个免费在线)。
  2. 如果问题组已定义在一个结构的数据库,包括数据库列出作为组的一部分使用加入数字提供了在数据库中检索序列的序列并保存在标准序列编辑程序,如上。
    注: 例如,分类在 CS-α β (蝎子毒素样) 超家族 SCOP 数据库中的序列可以在这里找到: http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.h.c.h.html.
  3. 执行基本本地对齐方式搜索工具 (BLAST) 14 检索公共、 在线数据库可用通过国家中心为生物技术信息中心 (NCBI) 找到可能不在文献中包含的序列或结构数据库。因为大部分完成结果、 使用这两种蛋白质爆炸 (blastp) 和翻译爆炸与蛋白 (tblastn) 查询程序;这些都可在: https://blast.ncbi.nlm.nih.gov/Blast.cgi.
    1. 使用序列已知作为查询序列是感兴趣的组的一部分。复制和粘贴在顶部,搜索框中的序列或提供基因加入号码或 gi 标识符,如果可用。
    2. 从下拉菜单中选择的数据库。选择非冗余蛋白质序列 (nr) 为 blastp 和表达序列标签为 tblastn.
    3. 搜索结果体内设置键入有机体或分类单元的名称,从打字时出现的列表中选择的特定类群。若要添加其他有机体或类群中排除,请单击 " + " 按钮和另一个字段将出现。排除任何不需要的罗汗松在有机体框中键入的有机体或分类单元的名称,从同时键入,并检查显示的列表中选择 " 排除 " 右侧框。
    4. 通过单击访问附加参数 " 算法参数 " 附近的页的底部。保留默认值除非有理由要改变一个参数。
    5. 单击
    6. " 高炉 " 按钮以运行分析; 它可能需要一些时间来显示结果。一般情况下,检索命中与预期值 (或 e-值) 的 "-05 " 或更好的与标准序列编辑程序中保存。
      1. 如果所有点击数高于此阈值,重新运行搜索与日益增多的靶序列 (在算法参数部分) 以获得所有相关序列。
  4. 如有必要,修剪序列以排除不相关的信息 (例如, CS-α β 折叠仅适用于成熟肽)。识别信号肽和 pro 肽去除使用道具 15 (可用在线),或为更复杂的信号肽预测 16 SignalP (可在线)。

3。在电子表格中基于重要特征,确定了生成引用

  1. 标识的组的最大特色。例如,使用 CS-α β 折叠明确建立由昆虫防御素 Phormia terraenovae ( 图 1) 8 A 的解决方案结构。
    1. 这折叠包括一个小的主题,称为半胱氨酸稳定螺旋 (CSH) 17; 确定这一主题的 CXXXC (其中 X 是任何氨基酸) 上游形成两个二硫键 CXC ( 图 1、 固体粉红色线条)。
      注: 要完成 CS-α β 母题,第三个二硫键形成从额外半胱氨酸,摆在每个半场 CSH 图案 ( 图 1,点缀粉色线) 面前。
  2. 输入这些到电子表格中定义的功能。请参见 图 2
    1. 使用列的保守的功能,并表示这些功能之间的空格。保持足够宽,以便容纳数字并确保他们有一个一致的宽度的列。设置宽度使用 " 格式 |列宽度 " 功能 ( 图 2,粉红色的箭头)。
    2. 序列名称中使用行。
    3. 当序列具有的特点,填写框中使用的填充函数 ( 图 2,粉红色广场)。功能部件之间的间距,之间的框中输入氨基酸数目并保持空缺。例如,利用昆虫防御素序列给出了包括六个半胱氨酸、 定义间距以及 C5 和 C6 之间 C2 和 C3 的引用。
  3. 添加代表此前已建立的序列作为基于结构数据库和文学组的成员。
    注: 例如,前面的文献和 SCOP 数据库确定列入几个群体: 昆虫防御素、 短链蝎毒素、 长链蝎毒素 MGD 1、 植物防御素、 ABFs 线虫、 果蝇, 从 drosomycins 和macins。文学也标识可能代表 18 本家族的祖先的只有四个半胱氨酸与细菌的序列。添加这些序列增加半胱氨酸在六至十参考但保持重要的结构特征 ( 图 3) 的对齐方式。
    1. 若要添加一项功能,很容易定义序列 (例如,额外的半胱氨酸) 的一个子群,使用 " 插入 " 功能 ( 图 3,粉红色的箭头)。
    2. 如果有的功能缺失从一个给定的序列,将填充框和结合代表介入氨基酸盒子。如有必要,合并单元格使用合并及居中功能 ( 图 3,粉红色的盒子)。
  4. 继续将序列添加到的组,以更好地了解每个组的大家族中的变化。总结的群体特征,以便利比较 ( 图 4)。
    1. 氨基酸之间主要特征数目变化时,使用连字符来指示一个范围,如 6-12 (6 至 12 氨基酸) 和一个斜杠,表明不是 / 或者,如 7/10 (7 或 10 氨基酸)。
    2. 选择注释的序列可能有关,但不会经常发生,在引用中包括的功能的方式。例如,由于半胱氨酸是重要在这个家族中,标签附加半胱氨酸 ( 图 4,粉红色框)。
  5. 添加 newly 确定序列到电子表格中使用既定的序列作为指南。例如,从缓步动物 (黄色) 添加序列显示缓步序列分为几个不同的家族 ( 图 5 显示摘要而不是每个层序空间用于行)。
  6. 通过重新排列行 ( 图 6) 显示分类组内的变异。

4。使用改进的氨基酸排列的引用

注: 有很多的程序,可以用于多序列比对,但这个示范将使用分子进化遗传分析 (MEGA6) 19 因为它是可供免费下载。

  1. 下载并安装软件。
  2. 通过选择开始新的对准线在巨型 " 编辑/生成对齐 " 下对齐选项卡选择 " 创建一个新的路线 " 在框中出现,请单击 " OK。 " 然后选择 " 蛋白质。 "
  3. 选择 " 从文件插入序列 " 在 " 编辑 " 菜单导入序列。
    注意: 序列将需要在 FASTA 格式导入到大型。默认情况下,使用反映不同氨基酸类型的背景颜色,但此选项可以关闭下 " 显示 " 菜单。
  4. 一旦输入所有序列,请单击伸缩臂图标,然后 " 对齐蛋白 " 来对齐序列使用肌肉算法 20
    注: ClustalW 也是可用的。
    1. 如果一个消息,说什么已经选定的持久性有机污染物和要求来选择所有,单击 " OK。 "
    2. 注: 这将打开一个窗口,允许一个人能改变一些参数,但他们,才应该更改理由这样做。这种分析使用子集序列分析在先前的纸 12.
  5. 检查对齐方式的基础的重要特征; 请注意,上面的序列的顶部栏将显示的任何列氨基酸在哪里完全保守 (*)。请参阅 图 7。请参阅初始对准显示只有三个四个保守半胱氨酸 ( 图 7,粉红色框);俯视列中,AlCRP 序列是明确未对齐 ( 图 7,粉红色的箭头)。
  6. 要摆脱我的大差距和保守的 C,突出显示的短划线和新闻 " 删除 " 的关键。不突出任何氨基酸,或他们将同时删除。
  7. 移动到右边的氨基酸,突出显示,按空间栏
    1. 注 AlCRP 现在已经对齐结构半胱氨酸和 C 最后的 CXXXC 主题守恒整个对齐 ( 图 8)。调整对齐方式,有必要优先序列的最重要特点。

5。比较组确定使用从系统发育分析结果与参考

  1. 从初步的路线,确定哪些序列应包含在系统发育分析; 对于少量的序列,这一步可能是不必要的。
    1. 保留对齐文件包含所有的序列,但系统发育分析,将删除冗余序列 ( 图 9,粉红色框显示对的冗余序列)。
    2. 如果数据集包含大量的序列,运行初步分析和选择代表从群体总是形成分支。
  2. 确定最佳的氨基酸替代模式。
    1. 出口巨型格式 (在数据选项卡) 中的对齐方式。
    2. 转到模型菜单并选择 " 找到最佳 DNA/蛋白质模型。 " 选择刚刚保存的文件并打开它; 这将打开一个窗口,可以更改某些参数。
    3. 使用默认参数,除非有理由去改变它们。单击 " 计算 " 开始分析。
  3. 运行的最大似然 (ML) 分析在巨型。
    1. 选择 " 构建/测试最大似然树 " 从发展史上菜单。
    2. 选择确定的模型是最适合的数据从步 5.2 (输出就能替代模型,最好 " 率网站 " 参数)。
    3. 选择 1,000 引导复制以获得对树的支持措施。
    4. 单击
    5. " 计算 " 运行分析;巨型有 " 树资源管理器 " 可视化树。
  4. MrBayes 开放源码软件 21 运行贝叶斯分析。
    注: MrBayes 手册是也可从本网站。这只提供基本步骤并不是进行贝叶斯系统发育分析的综合指南。
    1. 将巨型对齐在波普 (Nexus) 格式导出到 MrBayes 程序相同的文件夹中。
    2. 开放 MrBayes 和类型 " exe 文件名 " (例如, " exe Alignment.nex ")。
    3. 指定的模型和分析参数。选择在步骤 5.2 中指定的任一模型或选择 " 混合 " 设置,会尝试各种型号和报告在树上与最好的后验概率模型的频率 (prset aamodelpr = 混合)。类型 " showmodel " 报告当前的模型设置和 " 帮助 mcmc " 显示当前参数设置,与每个的简要说明。
    4. 设置的数代使用 " mcmcp ngen = " 命令 (100 万是典型)。
    5. 型 " mcmc " 开始分析。
    6. 代数目已完成时,程序会要求要添加更多的后代。如果分裂频率平均标准偏差均小于 0.1,键入 no。如果它是高于 0.1,分析应该再继续下去,或一些参数应改变 (见手册 》)。
    7. 使用 " sumt " 命令以生成树文件。
    8. 完成分析并生成共识树之后,可以在忐忑不安中查看树 (可在线)。
  5. 比较,树木可以看到是否方法生成一致的结果。
    注意: 一些序列并不提供大量的信息: 树可能不是很好的解决和分公司,可能有极少的支持 ( 图 10)。
  6. 把确定使用引用来看看是否系统发育分析支持这些群体的群体树木比作。

结果

序列在文献报道的 CS-α β 超家族中的组如图 4所示。半胱氨酸配对的基础,每个序列的编号表明五个基本组 (表 1,中间列)。第一小组有六个半胱氨酸,从三个二硫键债券,包括昆虫、 蛛形纲动物、 软体动物、 线虫、 真菌从序列。组 2、 3 和 4 已形成四个二硫键的 8 半胱氨酸。第二组包括昆虫、 蜘蛛纲动物和植物序列;第 3 组包括蛛形?...

讨论

命名组内的蛋白质标准应该是明确的但事实并非总是如此。在许多实验室使用各种各样的生物,导致在不同系统中的术语,以及不同程度的表征,研究了有 CS-α β 折叠的序列。企图强加一个完全新的命名法是不合理的会导致大量的混乱时以前文献。参考编号系统可以蛋白质名称用于澄清其与家族的特征。

组蛋白的明确标准的命名和分类将不可能受益于生成参考在电子表格中?...

披露声明

作者没有透露。

致谢

正在缓步动物抗菌肽的研究得到了校内资金来自美国中西部大学研究办公室和赞助程序 (ORSP)。ORSP 没有任何作用,研究设计、 数据收集、 分析、 解释或手稿的准备。

材料

NameCompanyCatalog NumberComments
BLAST webpagehttps://blast.ncbi.nlm.nih.gov/Blast.cgi
EditSeq (Lasergene suite)DNASTARhttps://www.dnastar.com/t-allproducts.aspx
Excel 2013Microsoft
FigTree http://tree.bio.ed.ac.uk/software/figtree/
MEGAwww.megasoftware.net
MrBayeshttp://mrbayes.sourceforge.net/
SCOP databasehttp://scop.mrc-lmb.cam.ac.uk/scop/

参考文献

  1. Matsuyama, K., Natori, S. Purification of Three Antibacterial Proteins from the Culture Medium of NIH-Sape-4, an Embryonic Cell Line of Sarcophaga peregrina. J Biol Chem. 263 (32), 17112-17116 (1988).
  2. Lambert, J., et al. Insect immunity: Isolation from immune blood of the dipteran Phormia terranovae. of two insect antibacterial peptides with sequence homology to rabbit lung macrophage bactericidal peptides. PNAS. 86 (262-266), (1989).
  3. Dimarcq, J. -. L., Bulet, P., Hetru, C., Hoffmann, J. Cysteine-rich antimicrobial peptides in invertebrates. Biopolymers. 47, 465-477 (1998).
  4. Shafee, T. M. A., Lay, F. T., Hulett, M. D., Anderson, M. A. The Defensins Consist of Two Independent, Convergent Protein Superfamilies. Mol Biol Evol. 33 (9), 2345-2356 (2016).
  5. Zhu, S., Gao, B. Nematode-derived drosomycin-type antifungal peptdies provide evidence for plant-to-ecdysozoan horizontal transfer of a disease resistance gene. Nat Commun. 5, (2014).
  6. Zhu, S., Gao, B. Evolutionary origin of b-defensins. Dev. Comp. Immunol. 39, 79-84 (2013).
  7. Bonmatin, J. -. M., et al. Two-dimensional 1H NMR study of recombinant insect defensin A in water: Resonance assignments, secondary structure and global folding. J Biomol NMR. 2 (3), 235-256 (1992).
  8. Cornet, B., et al. Refined three-dimensional solution structure of insect defensin A. Structure. 3 (5), 435-448 (1995).
  9. Murzin, A. G., Brenner, S. E., Hubbard, T., Chothia, C. SCOP: a structural classification of proteins database for the investigations of sequences and structures. J Mol Biol. 247, 536-540 (1995).
  10. Sillitoe, I., et al. CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 43, 376-381 (2015).
  11. Lam, S. D., et al. Gene3D: expanding the utility of domain assignments. Nucleic Acids Res. 44, 404-409 (2016).
  12. Tarr, D. E. K. Establishing a reference array for the CS-ab superfamily of defensive peptides. BMC Res Notes. 9, 490 (2016).
  13. Shafee, T. M. A., Robinson, A. J., van der Weerden, N., Anderson, M. A. Structural homology guided alignment of cysteine rich proteins. SpringerPlus. 5 (27), (2016).
  14. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic Local Alignment Search Tool. J Mol Biol. 215 (3), 403-410 (1990).
  15. Duckert, P., Brunak, S., Blom, N. Prediction of proprotein convertase cleavage sites. Protein Eng Des Sel. 17 (1), 107-112 (2004).
  16. Petersen, T. N., Brunak, S., von Heijne, G., Nielsen, H. SignalP 4.0:discriminating signal peptides from transmembrane regions. Nat Methods. 8, 785-786 (2011).
  17. Kobayashi, Y., et al. The cysteine-stabilized a-helix: A common structural motif of ion-channel blocking neurotoxic peptides. Biopolymers. 31, 1213-1220 (1991).
  18. Gao, B., del Carmen Rodriguez, M., Lanz-Mendoza, H., Zhu, S. AdDLP, a bacterial defensin-like peptide, exhibits anti-Plasmodium. activity. Biochem Biophys Res Commun. 387, 393-398 (2009).
  19. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis. Mol Biol Evol. 30 (12), 2725-2729 (2013).
  20. Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  21. Ronquist, F., Huelsenbeck, J. P. MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics. 19 (12), 1572-1574 (2003).
  22. Altschul, S. F., et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25 (17), 3389-3402 (1997).
  23. Zhang, Z., et al. Protein sequence similarity searches using patterns as seeds. Nucleic Acids Res. 26 (17), 3986-3990 (1998).

转载和许可

请求许可使用此 JoVE 文章的文本或图形

请求许可

探索更多文章

126 CS

This article has been published

Video Coming Soon

JoVE Logo

政策

使用条款

隐私

科研

教育

关于 JoVE

版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。