非计算机专业人员使用深度学习对元数据的生物序列进行分类的虚拟计算机平台

Please note that all translations are automatically generated. Click here for the English version.

3.9K Views

•

09:34 min

•

September 25th, 2021

DOI :

10.3791/62250-v

September 25th, 2021

•

Zhencheng Fang¹^,², Hongwei Zhou¹^,³

¹Microbiome Medicine Center, Department of Laboratory Medicine, Zhujiang Hospital, Southern Medical University, ²Center for Quantitative Biology, Peking University, ³State Key Laboratory of Organ Failure Research, Southern Medical University

副本

在许多元基因组数据分析中，预计会执行多种生物序列分类任务，如物种分类、基因功能分类和线宿主分类。由于元基因组数据包含大量的诺沃物种和基因，许多研究需要高性能的分类生物。生物学家在为特定任务找到合适的序列分类和符号工具时经常遇到挑战，而且由于缺乏必要的数学和计算知识，往往无法自行构建相应的生物体。

深度学习技术最近成为热门话题，在许多分类任务中显示出很强的优势。迄今为止，许多高度包装的深度学习包，这使得生物学家能够根据自己的需要，在没有深入了解生物体细节的情况下构建深度学习框架。在本教程中，我们为构建一个易于使用的序列分类深度学习框架提供了指导，而无需足够的数学知识或编程技能。

以下视频显示如何使用虚拟计算机执行生物序列分类。用户需要从教程主页下载虚拟机文件，然后下载虚拟框软件。虚拟计算机被压缩为七十个文件。

使用当前压缩软件（如 WinRar、Winzip 和 7-Zip）轻松解压 70 个文件。我们使用 7-Zip 解压虚拟计算机。减压可能需要一些时间。

请稍等一会儿。减压后，用户需要安装虚拟盒软件。创建文件夹以安装虚拟框。

创建虚拟框安装包。选择自己创建的文件夹。然后，通过单击每个步骤中的下一个按钮来安装 VirutalBox 软件。

安装可能需要一些时间，请等待一段时间。打开虚拟框软件。创建新按钮以创建虚拟计算机。

输入自己指定的虚拟机名。选择 Linux 作为类型框架中的操作系统。在版本框架中选择 Ubuntu 并单击下一个按钮。

如果可能，将更大的内存分配给虚拟计算机。请使用现有的硬盘文件选择。选择从教程主页下载的虚拟计算机文件。

然后单击创建按钮。单击启动按钮打开虚拟计算机。启动虚拟计算机可能需要一段时间。

请等待下一步。然后，用户需要在物理主机和虚拟机器中创建共享文件夹来交换文件。在物理主机中，创建名为共享主机的共享文件夹，并在虚拟机的桌面上创建一个共享文件夹，VM.In 虚拟机器的手动条形块创建一个共享文件夹，然后连续单击设备、共享文件夹、共享文件夹设置。

单击右上角的按钮。在自己创建的物理主机中选择共享文件夹。选择自动安装选项。

单击"确定"按钮。然后重新启动虚拟计算机。重新启动虚拟计算机可能需要一段时间。

请等待下一步。单击虚拟机器桌面并打开终端的右键。将以下命令键入终端。

数独、空间密钥、安装、空间密钥、条形 T、空间密钥、vboxsf、空间密钥、共享主机、空间密钥、点斜线、桌面、斜线、共享 VM. 当提示密码时，输入一个并点击输入密钥。以更快的格式复制所有四个序列文件，以便培训和测试过程到物理主机的共享主机文件夹。这样，所有文件也将发生在虚拟计算机的共享 VM 文件夹中。

然后将共享的 VM 文件夹中的文件复制到虚拟计算机的深度学习文件夹中。单击右键并打开终端并键入以下命令以执行一个热编码。点斜线，一个热编码，指定用于训练和测试的文件。

并指定序列类型。然后键入以下命令以启动趋势过程。Python 空间密钥，训练点 P Y. 然后趋势过程将开始。

此过程可能需要几个小时或几天的时间，具体取决于您的数据集大小。当过程完成时，测试数据的预测结果将存在于预测点 CSV 文件中。在我们之前的工作中，我们使用类似于本教程的方法，为元基因组数据开发了一系列序列分类工具。

例如，我们开发了一个工具，旨在从运行数据中识别完整和部分的前列腺病毒病毒蛋白。以及一种旨在识别元基因组数据中细菌染色体DNA片段中的噬菌体DNA片段的工具。使用本教程脚本的工具的性能显示在图 a 和 b 中。

总之，本教程为生物学家和生物体设计初学者提供了如何构建一个易于使用的深层学习框架，用于元基因组数据中的生物序列分类。本教程旨在提供对深度学习的直观理解，并解决初学者在开始深度学习包和为有机体编写代码方面经常遇到的挑战。对于一些简单的分类任务，用户可以使用我们的框架执行分类任务。

摘要

探索更多视频

此视频中的章节

0:07

Introduction

1:35

The Installation of the Virtual Machine

4:11

Create Shared Folders and Prepare the Files for the Training Set and Test Set

6:55

Digitize the Biological Sequences Using “One‐Shot” Encoding Form

7:27

Train and Test the Artificial Neural Network

8:12

Result

8:52

Conclusion

相关视频

article

青贮的宏基因组学分析

18.1K Views

article

利用CyVerse资源

9.2K Views

article

的转录分析

17.3K Views

article

间歇酵母 2-混合筛序列数据的信息化分析

7.1K Views

article

细菌种群中分层基因型和辅助基因组位点的启发式挖掘

2.0K Views

article

实用指南系统发育的非专家

35.2K Views

article

实验和生物信息学议定书光周期滞育的亚洲虎蚊的RNA序列分析，

13.2K Views

article

从复杂的动物相关样品测序宏基因组和Metatranscriptomes:净化不纯

37.2K Views

article

使用两步PCR和下一代16S rRNA基因测序进行微生物群分析

27.7K Views

article

使用RNA-seq研究分子进化和基因表达的生物信息学管道

9.4K Views

版权所属 © 2025 MyJoVE 公司版权所有，本公司不涉及任何医疗业务和医疗服务。