在许多元基因组数据分析中,预计会执行多种生物序列分类任务,如物种分类、基因功能分类和线宿主分类。由于元基因组数据包含大量的诺沃物种和基因,许多研究需要高性能的分类生物。生物学家在为特定任务找到合适的序列分类和符号工具时经常遇到挑战,而且由于缺乏必要的数学和计算知识,往往无法自行构建相应的生物体。
深度学习技术最近成为热门话题,在许多分类任务中显示出很强的优势。迄今为止,许多高度包装的深度学习包,这使得生物学家能够根据自己的需要,在没有深入了解生物体细节的情况下构建深度学习框架。在本教程中,我们为构建一个易于使用的序列分类深度学习框架提供了指导,而无需足够的数学知识或编程技能。
以下视频显示如何使用虚拟计算机执行生物序列分类。用户需要从教程主页下载虚拟机文件,然后下载虚拟框软件。虚拟计算机被压缩为七十个文件。
使用当前压缩软件(如 WinRar、Winzip 和 7-Zip)轻松解压 70 个文件。我们使用 7-Zip 解压虚拟计算机。减压可能需要一些时间。
请稍等一会儿。减压后,用户需要安装虚拟盒软件。创建文件夹以安装虚拟框。
创建虚拟框安装包。选择自己创建的文件夹。然后,通过单击每个步骤中的下一个按钮来安装 VirutalBox 软件。
安装可能需要一些时间,请等待一段时间。打开虚拟框软件。创建新按钮以创建虚拟计算机。
输入自己指定的虚拟机名。选择 Linux 作为类型框架中的操作系统。在版本框架中选择 Ubuntu 并单击下一个按钮。
如果可能,将更大的内存分配给虚拟计算机。请使用现有的硬盘文件选择。选择从教程主页下载的虚拟计算机文件。
然后单击创建按钮。单击启动按钮打开虚拟计算机。启动虚拟计算机可能需要一段时间。
请等待下一步。然后,用户需要在物理主机和虚拟机器中创建共享文件夹来交换文件。在物理主机中,创建名为共享主机的共享文件夹,并在虚拟机的桌面上创建一个共享文件夹,VM.In 虚拟机器的手动条形块创建一个共享文件夹,然后连续单击设备、共享文件夹、共享文件夹设置。
单击右上角的按钮。在自己创建的物理主机中选择共享文件夹。选择自动安装选项。
单击"确定"按钮。然后重新启动虚拟计算机。重新启动虚拟计算机可能需要一段时间。
请等待下一步。单击虚拟机器桌面并打开终端的右键。将以下命令键入终端。
数独、空间密钥、安装、空间密钥、条形 T、空间密钥、vboxsf、空间密钥、共享主机、空间密钥、点斜线、桌面、斜线、共享 VM. 当提示密码时,输入一个并点击输入密钥。以更快的格式复制所有四个序列文件,以便培训和测试过程到物理主机的共享主机文件夹。这样,所有文件也将发生在虚拟计算机的共享 VM 文件夹中。
然后将共享的 VM 文件夹中的文件复制到虚拟计算机的深度学习文件夹中。单击右键并打开终端并键入以下命令以执行一个热编码。点斜线,一个热编码,指定用于训练和测试的文件。
并指定序列类型。然后键入以下命令以启动趋势过程。Python 空间密钥, 训练点 P Y. 然后趋势过程将开始。
此过程可能需要几个小时或几天的时间,具体取决于您的数据集大小。当过程完成时,测试数据的预测结果将存在于预测点 CSV 文件中。在我们之前的工作中,我们使用类似于本教程的方法,为元基因组数据开发了一系列序列分类工具。
例如,我们开发了一个工具,旨在从运行数据中识别完整和部分的前列腺病毒病毒蛋白。以及一种旨在识别元基因组数据中细菌染色体DNA片段中的噬菌体DNA片段的工具。使用本教程脚本的工具的性能显示在图 a 和 b 中。
总之,本教程为生物学家和生物体设计初学者提供了如何构建一个易于使用的深层学习框架,用于元基因组数据中的生物序列分类。本教程旨在提供对深度学习的直观理解,并解决初学者在开始深度学习包和为有机体编写代码方面经常遇到的挑战。对于一些简单的分类任务,用户可以使用我们的框架执行分类任务。