Uma variedade de tarefas de classificação de sequência biológica, como classificação de espécies, classificação da função genética e classificação do hospedeiro de fio são processos esperados em muitas análises de dados metagenômicos. Uma vez que os dados metagenômicos contêm um grande número de espécies e genes Novo, organismos de classificação de alto desempenho são necessários em muitos estudos. Os biólogos muitas vezes encontram desafios em encontrar ferramentas adequadas de classificação e notação de sequência para uma tarefa específica e muitas vezes não são capazes de construir um organismo correspondente por conta própria devido à falta do conhecimento matemático e computacional necessário.
Técnicas de aprendizagem profunda tornaram-se recentemente um tópico popular e mostram forte vantagem em muitas tarefas de classificação. Até o momento, muitos pacotes de aprendizagem profunda altamente embalados, que possibilitam aos biólogos construir estruturas de aprendizagem profunda, de acordo com suas próprias necessidades sem conhecimento aprofundado dos detalhes do organismo foram desenvolvidos. Neste tutorial, fornecemos uma diretriz para a construção de uma estrutura de aprendizagem profunda fácil de usar para classificação de sequências sem a necessidade de conhecimentos matemáticos suficientes ou habilidades de programação.
O vídeo a seguir mostra como usar a máquina virtual para realizar a classificação de sequência biológica. Os usuários precisam baixar o arquivo da máquina virtual na página inicial do tutorial e, em seguida, baixar o software VirtualBox. A máquina virtual é compactada como um arquivo de setenta.
O arquivo setenta pode ser facilmente descomprimido usando um software de compressão atual, como WinRar, Winzip e 7-Zip. Descompactamos a máquina virtual usando 7-Zip. A descompressão pode levar algum tempo.
Por favor, espere um pouco. Após a descompressão, os usuários precisam instalar o software VirtualBox. Crie uma pasta para instalar o VirtualBox.
Crie um pacote de instalação do VirtualBox. Selecione a pasta criada por você mesmo. Em seguida, instale o software VirutalBox clicando no próximo botão em cada etapa.
A instalação pode levar algum tempo, por favor, espere um pouco. Abra o software VirtualBox. Crie um novo botão para criar uma máquina virtual.
Digite o nome da máquina virtual especificado por você mesmo no quadro de nome. Selecione Linux como o sistema operacional no quadro de tipos. Selecione Ubuntu no quadro de versão e clique no próximo botão.
Se possível, aloque uma quantidade maior de memória para a máquina virtual. É verdade o uso de uma seleção de arquivos em disco rígido existente. Selecione o arquivo da máquina virtual baixado na página inicial do tutorial.
E então clique no botão criar. Clique em um botão iniciar para abrir a máquina virtual. Ligar a máquina virtual pode demorar um pouco.
Por favor, espere um pouco antes do próximo passo. Em seguida, os usuários precisam criar pasta compartilhada tanto em hosts físicos quanto em máquina virtual para trocar arquivos. Em seu host físico, crie uma pasta compartilhada chamada host compartilhado e na área de trabalho da máquina virtual, crie uma pasta compartilhada chamada compartilhada VM.In barra manual da máquina virtual, clique em dispositivos, pastas compartilhadas, configurações de pastas compartilhadas sucessivamente.
Clique no botão no canto superior direito. Selecione a pasta compartilhada no host físico criado por você mesmo. Selecione a opção de montagem automática.
Clique no botão OK. Em seguida, reinicie a máquina virtual. Reiniciar a máquina virtual pode levar algum tempo.
Por favor, espere um pouco antes do próximo passo. Clique com o botão direito do mouse na área de trabalho da máquina virtual e abra o terminal. Digite o seguinte comando para o terminal.
Sudo, chave espacial, suporte, chave espacial, barra T, chave espacial, vboxsf, chave espacial, host compartilhado, chave espacial, ponto barra, desktop, barra, VM compartilhado.Quando solicitado para uma senha, digite um e toque na tecla enter. Copie todos os quatro arquivos de sequência em formato mais rápido para o processo de treinamento e teste para a pasta de host compartilhada do host físico. Desta forma, todos os arquivos também ocorrerão na pasta VM compartilhada da máquina virtual.
Em seguida, copie os arquivos na pasta VM compartilhada para a pasta de deep learning da máquina virtual. Clique no clique direito e abra o terminal e digite o seguinte comando para executar a codificação quente. Barra de ponto, uma codificação quente, especificar os arquivos para treinamento e teste.
E especifique o tipo de sequência. Em seguida, digite o seguinte comando para iniciar o processo de tendência. Chave espacial Python, ponto de trem P Y.Em seguida, o processo de tendência começará.
Esse processo pode levar algumas horas ou alguns dias, dependendo do tamanho do conjunto de dados. Quando o processo é concluído, o resultado predito dos dados do teste está presente no arquivo de ponto de previsão CSV. Em nosso trabalho anterior, desenvolvemos uma série de ferramentas de classificação de sequência para dados metagenômicos, usando uma abordagem semelhante a este tutorial.
Por exemplo, desenvolvemos uma ferramenta destinada a identificar as proteínas de virion completas e parciais do vírus procariote a partir de dados executados. E uma ferramenta visava identificar fragmentos de DNA de phage de fragmentos de DNA de cromossomos bacterianos em dados metogenômicos. O desempenho das ferramentas usando o script deste tutorial é mostrado nas figuras a e b.
Em conclusão, este tutorial fornece uma visão geral para biólogos e organismos projetam iniciantes sobre como construir uma estrutura de aprendizagem profunda fácil de usar para classificação de sequência biológica em dados metogenômicos. Este tutorial tem como objetivo fornecer uma compreensão intuitiva do aprendizado profundo e enfrentar o desafio que os iniciantes muitas vezes têm dificuldade em iniciar o pacote de aprendizagem profunda e escrever o código para o organismo. Para algumas tarefas simples de classificação, os usuários podem usar nossa estrutura para executar a tarefa de classificação.