Une variété de tâches de classification de séquences biologiques, telles que la classification des espèces, la classification de la fonction des gènes et la classification des hôtes filaires sont des processus attendus dans de nombreuses analyses de données métagénomiques. Étant donné que les données métagénomiques contiennent un grand nombre d’espèces et de gènes Novo, des organismes de classification très performants sont nécessaires dans de nombreuses études. Les biologistes ont souvent du mal à trouver des outils de classification et de notation de séquences appropriés pour une tâche spécifique et ne sont souvent pas en mesure de construire eux-mêmes un organisme correspondant en raison d’un manque de connaissances mathématiques et informatiques nécessaires.
Les techniques d’apprentissage profond sont récemment devenues un sujet populaire et présentent un avantage important dans de nombreuses tâches de classification. À ce jour, de nombreux packages d’apprentissage profond hautement packagés, qui permettent aux biologistes de construire des cadres d’apprentissage profond, en fonction de leurs propres besoins sans connaissance approfondie des détails de l’organisme, ont été développés. Dans ce didacticiel, nous fournissons une ligne directrice pour construire un cadre d’apprentissage profond facile à utiliser pour la classification des séquences sans avoir besoin de connaissances mathématiques ou de compétences en programmation suffisantes.
La vidéo suivante montre comment utiliser la machine virtuelle pour effectuer la classification des séquences biologiques. Les utilisateurs doivent télécharger le fichier de machine virtuelle à partir de la page d’accueil du didacticiel, puis télécharger le logiciel VirtualBox. La machine virtuelle est compressée sous la forme d’un fichier soixante-dix.
Le fichier soixante-dix peut facilement être décompressé à l’aide d’un logiciel de compression actuel, tel que WinRar, Winzip et 7-Zip. Nous avons décompressé la machine virtuelle à l’aide de 7-Zip. La décompression peut prendre un certain temps.
Veuillez patienter un moment. Après la décompression, les utilisateurs doivent installer le logiciel VirtualBox. Créez un dossier pour installer la VirtualBox.
Créez un package d’installation VirtualBox. Sélectionnez le dossier créé par vous-même. Installez ensuite le logiciel VirutalBox en cliquant sur le bouton suivant à chaque étape.
L’installation peut prendre un certain temps, veuillez patienter un moment. Ouvrez le logiciel VirtualBox. Créez un nouveau bouton pour créer une machine virtuelle.
Entrez le nom de la machine virtuelle que vous avez spécifié dans le cadre de nom. Sélectionnez Linux comme système d’exploitation dans le cadre de type. Sélectionnez Ubuntu dans le cadre de la version et cliquez sur le bouton suivant.
Si possible, allouez une plus grande quantité de mémoire à la machine virtuelle. True l’utilisation d’une sélection de fichier de disque dur existante. Sélectionnez le fichier de machine virtuelle téléchargé à partir de la page d’accueil du didacticiel.
Et puis cliquez sur le bouton Créer. Cliquez sur un bouton démarrer pour ouvrir la machine virtuelle. Le démarrage de la machine virtuelle peut prendre un certain temps.
Veuillez patienter un instant avant l’étape suivante. Ensuite, les utilisateurs doivent créer un dossier partagé dans les hôtes physiques et la machine virtuelle pour échanger des fichiers. Dans votre hôte physique, créez un dossier partagé nommé hôte partagé et sur le bureau de la machine virtuelle, créez un dossier partagé nommé partagé VM.In la barre manuelle de la machine virtuelle, cliquez successivement sur périphériques, dossiers partagés, paramètres de dossier partagé.
Cliquez sur le bouton dans le coin supérieur droit. Sélectionnez le dossier partagé dans l’hôte physique créé par vous-même. Sélectionnez l’option de montage automatique.
Cliquez sur le bouton OK. Redémarrez ensuite la machine virtuelle. Le redémarrage de la machine virtuelle peut prendre un certain temps.
Veuillez patienter un instant avant l’étape suivante. Cliquez avec le bouton droit de la souris sur le bureau de la machine virtuelle et ouvrez le terminal. Tapez la commande suivante sur le terminal.
Sudo, clé d’espace, montage, clé d’espace, barre T, clé d’espace, vboxsf, clé d’espace, hôte partagé, clé d’espace, barre oblique, bureau, barre oblique, machine virtuelle partagée.Lorsque vous êtes invité à entrer un mot de passe, entrez-en un et appuyez sur la touche Entrée. Copiez les quatre fichiers de séquence dans un format plus rapide pour le processus de formation et de test dans le dossier hôte partagé de l’hôte physique. De cette façon, tous les fichiers se produiront également dans le dossier vm partagé de la machine virtuelle.
Copiez ensuite les fichiers du dossier de la machine virtuelle partagée dans le dossier d’apprentissage profond de la machine virtuelle. Cliquez avec le bouton droit de la souris et ouvrez le terminal et tapez la commande suivante pour effectuer le codage à chaud. La barre oblique de point, un codage à chaud, spécifiez les fichiers pour la formation et les tests.
Et spécifiez le type de séquence. Tapez ensuite la commande suivante pour démarrer le processus de tendance. Python space key, train dot P Y.Ensuite, le processus de tendance commencera.
Ce processus peut prendre quelques heures ou quelques jours, selon la taille de votre ensemble de données. Lorsque le processus est terminé, le résultat de prédiction des données de test est présent dans le fichier CSV de points de prédiction. Dans nos travaux précédents, nous avons développé une série d’outils de classification de séquences pour une donnée métagénomique, en utilisant une approche similaire à ce tutoriel.
Par exemple, nous avons développé un outil visant à identifier les protéines virion complètes et partielles du virus procaryote à partir des données de course. Et un outil visant à identifier les fragments d’ADN de phage à partir de fragments d’ADN chromosomique bactérien dans les données ménogénomiques. Les performances des outils utilisant le script de ce didacticiel sont illustrées dans les figures a et b.
En conclusion, ce tutoriel fournit un aperçu pour les biologistes et les débutants en conception d’organismes sur la façon de construire un cadre d’apprentissage profond facile à utiliser pour la classification des séquences biologiques dans les données métagénomiques. Ce tutoriel vise à fournir une compréhension intuitive de l’apprentissage profond et à relever le défi que les débutants ont souvent du mal à démarrer le package d’apprentissage profond et à écrire le code pour l’organisme. Pour certaines tâches de classification simples, les utilisateurs peuvent utiliser notre cadre pour effectuer la tâche de classification.