Различные задачи классификации биологических последовательностей, такие как классификация видов, классификация функций генов и классификация проволочных хозяев, являются ожидаемыми процессами во многих анализах метагеномных данных. Поскольку метагеномные данные содержат большое количество видов и генов Novo, во многих исследованиях необходимы высокоэффективные классификационные организмы. Биологи часто сталкиваются с проблемами в поиске подходящих инструментов классификации последовательностей и нотации для конкретной задачи и часто не могут самостоятельно построить соответствующий организм из-за отсутствия необходимых математических и вычислительных знаний.
Методы глубокого обучения в последнее время стали популярной темой и показывают сильное преимущество во многих задачах классификации. На сегодняшний день разработано много высоко упакованных пакетов глубокого обучения, которые позволяют биологам строить структуры глубокого обучения в соответствии с их собственными потребностями без глубокого знания деталей организма. В этом учебнике мы предоставляем руководство по созданию простой в использовании платформы глубокого обучения для классификации последовательностей без необходимости достаточных математических знаний или навыков программирования.
В следующем видео показано, как использовать виртуальную машину для выполнения классификации биологических последовательностей. Пользователям необходимо загрузить файл виртуальной машины с домашней страницы учебника, а затем загрузить программное обеспечение VirtualBox. Виртуальная машина сжимается в виде семьдесят файлов.
Семьдесят файлов можно легко распаковал с помощью текущего программного обеспечения для сжатия, такого как WinRar, Winzip и 7-Zip. Мы распаковали виртуальную машину с помощью 7-Zip. Декомпрессия может занять некоторое время.
Пожалуйста, подождите некоторое время. После распаковки пользователям необходимо установить программное обеспечение VirtualBox. Создайте папку для установки VirtualBox.
Создайте установочный пакет VirtualBox. Выберите папку, созданную вами. Затем установите программное обеспечение VirutalBox, нажав следующую кнопку на каждом шаге.
Установка может занять некоторое время, пожалуйста, подождите некоторое время. Откройте программное обеспечение VirtualBox. Создайте новую кнопку для создания виртуальной машины.
Введите имя виртуальной машины, указанное вами в рамке имени. Выберите Linux в качестве операционной системы в рамке типа. Выберите Ubuntu в рамке версии и нажмите кнопку «Далее».
Если возможно, выделите виртуальной машине больший объем памяти. Верно использовать существующий выбор файла жесткого диска. Выберите файл виртуальной машины, загруженный с домашней страницы учебника.
Затем нажмите кнопку создать. Нажмите кнопку Пуск, чтобы открыть виртуальную машину. Запуск виртуальной машины может занять некоторое время.
Пожалуйста, подождите минутку, прежде чем сделать следующий шаг. Затем пользователям необходимо создать общую папку как на физических узлах, так и на виртуальной машине для обмена файлами. На физическом узле создайте общую папку с именем общий узел, а на рабочем столе виртуальной машины создайте общую папку с именем shared VM.In ручной панели виртуальной машины, последовательно щелкните Устройства, общие папки, параметры общих папок.
Нажмите кнопку в правом верхнем углу. Выберите общую папку на физическом узле, созданную вами. Выберите опцию автоматического монтирования.
Нажмите кнопку ОК. Затем перезапустите виртуальную машину. Перезапуск виртуальной машины может занять некоторое время.
Пожалуйста, подождите минутку, прежде чем сделать следующий шаг. Щелкните правой кнопкой мыши на рабочем столе виртуальной машины и откройте терминал. Введите следующую команду в терминал.
Sudo, клавиша пробела, монтирование, клавиша пробела, панель T, клавиша пробела, vboxsf, клавиша пробела, общий хост, клавиша пробела, косая черта, рабочий стол, косая черта, общая виртуальная машина.При появлении запроса на ввод пароля введите один и коснитесь клавиши ввода. Скопируйте все четыре файла последовательностей в более быстром формате для процесса обучения и тестирования в общую папку узла физического хоста. Таким образом, все файлы также будут поместиться в общей папке виртуальной машины виртуальной машины.
Затем скопируйте файлы из общей папки виртуальной машины в папку глубокого обучения виртуальной машины. Щелкните правой кнопкой мыши, откройте терминал и введите следующую команду, чтобы выполнить одно горячее кодирование. Dot slash, одна горячая кодировка, укажите файлы для обучения и тестирования.
И укажите тип последовательности. Затем введите следующую команду, чтобы начать процесс тренда. Python space key, train dot P Y.Затем начнется процесс тренда.
Этот процесс может занять несколько часов или несколько дней, в зависимости от размера набора данных. После завершения процесса результат прогноза тестовых данных присутствует в CSV-файле predict dot. В нашей предыдущей работе мы разработали серию инструментов классификации последовательностей для метагеномных данных, используя подход, аналогичный этому учебнику.
Например, мы разработали инструмент, направленный на идентификацию полных и частичных белков вируса прокариота по данным запуска. И инструмент, направленный на идентификацию фрагментов ФАГОВ ДНК из фрагментов ДНК бактериальных хромосом в метогеномных данных. Производительность инструментов, использующих скрипт данного учебника, показана на рисунке a и b.
В заключение, этот учебник предоставляет обзор для начинающих биологов и проектов организмов о том, как построить простую в использовании структуру глубокого обучения для классификации биологических последовательностей в метогеномных данных. Этот учебник направлен на обеспечение интуитивного понимания глубокого обучения и решение проблемы, с которой новички часто испытывают трудности при запуске пакета глубокого обучения и написании кода для организма. Для некоторых простых задач классификации пользователи могут использовать нашу платформу для выполнения задачи классификации.