Eine virtuelle Maschinenplattform für Nicht-Computer-Profis zur Verwendung von Deep Learning zur Klassifizierung biologischer Sequenzen metagenomischer Daten

Please note that all translations are automatically generated. Click here for the English version.

3.9K Views

•

09:34 min

•

September 25th, 2021

DOI :

10.3791/62250-v

September 25th, 2021

•

Zhencheng Fang¹^,², Hongwei Zhou¹^,³

¹Microbiome Medicine Center, Department of Laboratory Medicine, Zhujiang Hospital, Southern Medical University, ²Center for Quantitative Biology, Peking University, ³State Key Laboratory of Organ Failure Research, Southern Medical University

Transkript

Eine Vielzahl von Biologischen Sequenzklassifizierungsaufgaben, wie z. B. Die Klassifizierung von Arten, die Klassifikation der Genfunktion und die Klassifizierung des Drahtwirts, sind erwartete Prozesse in vielen metagenomischen Datenanalysen. Da metagenomische Daten eine große Anzahl von Novo-Arten und -Genen enthalten, werden in vielen Studien leistungsfähige Klassifikationsorganismen benötigt. Biologen stehen oft vor der Herausforderung, geeignete Sequenzklassifikations- und Notationswerkzeuge für eine bestimmte Aufgabenstellung zu finden und sind oft nicht in der Lage, einen entsprechenden Organismus selbst zu konstruieren, weil ihnen die notwendigen mathematischen und rechnerischen Kenntnisse fehlen.

Deep-Learning-Techniken sind in letzter Zeit zu einem beliebten Thema geworden und zeigen bei vielen Klassifizierungsaufgaben einen starken Vorteil. Bis heute wurden viele hochgepackte Deep-Learning-Pakete entwickelt, die es Biologen ermöglichen, Deep-Learning-Frameworks nach ihren eigenen Bedürfnissen zu konstruieren, ohne die Details des Organismus eingehend zu wissen. In diesem Tutorial stellen wir eine Richtlinie für die Erstellung eines einfach zu bedienenden Deep-Learning-Frameworks für die Sequenzklassifizierung bereit, ohne dass ausreichende mathematische Kenntnisse oder Programmierkenntnisse erforderlich sind.

Das folgende Video zeigt, wie sie die virtuelle Maschine zum Ausführen der biologischen Sequenzklassifizierung verwenden. Benutzer müssen die Datei der virtuellen Maschine von der Startseite des Lernprogramms herunterladen und dann die VirtualBox-Software herunterladen. Die virtuelle Maschine wird als siebzig Dateien komprimiert.

Die siebzig Dateien können problemlos mit einer aktuellen Komprimierungssoftware wie WinRar, Winzip und 7-Zip dekomprimiert werden. Wir haben die virtuelle Maschine mit 7-Zip dekomprimiert. Die Dekompression kann einige Zeit dauern.

Bitte warten Sie eine Weile. Nach der Dekomprimierung müssen Benutzer die VirtualBox-Software installieren. Erstellen Sie einen Ordner, um die VirtualBox zu installieren.

Erstellen Sie ein VirtualBox-Installationspaket. Wählen Sie den selbst erstellten Ordner aus. Installieren Sie dann die VirutalBox-Software, indem Sie in jedem Schritt auf die Schaltfläche Weiter klicken.

Die Installation kann einige Zeit dauern, bitte warten Sie eine Weile. Öffnen Sie die VirtualBox-Software. Erstellen Sie eine neue Schaltfläche, um eine virtuelle Maschine zu erstellen.

Geben Sie den von Ihnen selbst angegebenen Namen der virtuellen Maschine in den Namensrahmen ein. Wählen Sie Linux als Betriebssystem im Typframe aus. Wählen Sie Ubuntu im Versionsrahmen aus und klicken Sie auf die Schaltfläche Weiter.

Weisen Sie der virtuellen Maschine nach Möglichkeit eine größere Menge an Arbeitsspeicher zu. True, die eine vorhandene Festplattendateiauswahl verwenden. Wählen Sie die Datei der virtuellen Maschine aus, die von der Startseite des Lernprogramms heruntergeladen wurde.

Klicken Sie dann auf die Schaltfläche Erstellen. Klicken Sie auf eine Startschaltfläche, um die virtuelle Maschine zu öffnen. Das Starten der virtuellen Maschine kann eine Weile dauern.

Bitte warten Sie einen Moment vor dem nächsten Schritt. Dann müssen Benutzer einen freigegebenen Ordner sowohl auf physischen Hosts als auch auf virtuellen Computern erstellen, um Dateien auszutauschen. Erstellen Sie auf Ihrem physischen Host einen freigegebenen Ordner mit dem Namen Shared Host und erstellen Sie auf dem Desktop der virtuellen Maschine einen freigegebenen Ordner mit dem Namen Shared VM.In der manuellen Leiste der virtuellen Maschine, klicken Sie nacheinander auf Geräte, freigegebene Ordner und Einstellungen für freigegebene Ordner.

Klicken Sie auf die Schaltfläche in der oberen rechten Ecke. Wählen Sie den freigegebenen Ordner auf dem physischen Host aus, der von Ihnen selbst erstellt wurde. Wählen Sie die Option für die automatische Einhänge aus.

Klicken Sie auf die Schaltfläche OK. Starten Sie dann die virtuelle Maschine neu. Der Neustart der virtuellen Maschine kann eine Weile dauern.

Bitte warten Sie einen Moment vor dem nächsten Schritt. Klicken Sie mit der rechten Maustaste auf den Desktop der virtuellen Maschine und öffnen Sie das Terminal. Geben Sie den folgenden Befehl in das Terminal ein.

Sudo, Leertaste, Mount, Leertaste, Leiste T, Leertaste, vboxsf, Leertaste, Gemeinsamer Host, Leertaste, Punktstrich, Desktop, Schrägstrich, freigegebene VM.Wenn Sie zur Eingabe eines Kennworts aufgefordert werden, geben Sie eines ein und tippen Sie auf die Eingabetaste. Kopieren Sie alle vier Sequenzdateien in einem schnelleren Format für den Trainings- und Testprozess in den freigegebenen Hostordner des physischen Hosts. Auf diese Weise werden alle Dateien auch im freigegebenen VM-Ordner der virtuellen Maschine angezeigt.

Kopieren Sie dann die Dateien im freigegebenen VM-Ordner in den Deep-Learning-Ordner der virtuellen Maschine. Klicken Sie mit der rechten Maustaste, öffnen Sie das Terminal und geben Sie den folgenden Befehl ein, um die eine Hot-Codierung durchzuführen. Punktstrich, eine Hot-Codierung, geben Sie die Dateien für Training und Test an.

Und geben Sie den Sequenztyp an. Geben Sie dann den folgenden Befehl ein, um den Trending-Prozess zu starten. Python-Leertaste, Zugpunkt P Y.Dann beginnt der Trending-Prozess.

Dieser Vorgang kann je nach Größe Ihres Datensatzes einige Stunden oder einige Tage dauern. Wenn der Prozess abgeschlossen ist, ist das Vorhersageergebnis der Testdaten in der CSV-Datei mit dem Vorhersagepunkt vorhanden. In unserer früheren Arbeit haben wir eine Reihe von Sequenzklassifizierungswerkzeugen für metagenomische Daten entwickelt, wobei wir einen ähnlichen Ansatz wie dieses Tutorial verwendet haben.

Zum Beispiel haben wir ein Tool entwickelt, das darauf abzielt, die vollständigen und partiellen Prokaryotenvirus-Virionproteine aus Laufdaten zu identifizieren. Und ein Werkzeug, das darauf abzielte, Phagen-DNA-Fragmente aus bakteriellen Chromosomen-DNA-Fragmenten in metogenomischen Daten zu identifizieren. Die Leistung der Tools, die das Skript dieses Lernprogramms verwenden, ist in den Abbildungen a und b dargestellt.

Zusammenfassend bietet dieses Tutorial einen Überblick für Biologen und Organismendesign-Anfänger, wie man ein einfach zu bedienendes Deep-Learning-Framework für die biologische Sequenzklassifizierung in metogenomischen Daten erstellt. Dieses Tutorial zielt darauf ab, ein intuitives Verständnis von Deep Learning zu vermitteln und die Herausforderung anzugehen, dass Anfänger oft Schwierigkeiten haben, das Deep-Learning-Paket zu starten und den Code für den Organismus zu schreiben. Für einige einfache Klassifizierungsaufgaben können Benutzer unser Framework verwenden, um die Klassifizierungsaufgabe auszuführen.

Zusammenfassung

Weitere Videos entdecken

Sequenzklassifikation

K nstliche Intelligenz

Algorithmendesign

Kapitel in diesem Video

0:07

Introduction

1:35

The Installation of the Virtual Machine

4:11

Create Shared Folders and Prepare the Files for the Training Set and Test Set

6:55

Digitize the Biological Sequences Using “One‐Shot” Encoding Form

7:27

Train and Test the Artificial Neural Network

8:12

Result

8:52

Conclusion

Ähnliche Videos

article

Metagenomanalyse von Silage

18.1K Views

article

Nutzung von CyVerse Resources für

9.2K Views

article

Transkriptom-Analyse von

17.3K Views

article

Informatischen Analyse von Sequenzdaten von Batch-Hefe-2-Hybrid-Bildschirme

7.1K Views

article

Heuristisches Mining von hierarchischen Genotypen und akzessorischen Genomloci in Bakterienpopulationen

2.0K Views

article

A Practical Guide to Phylogenetics für Nichtexperten

35.2K Views

article

Eine experimentelle und Bioinformatik-Protokoll für die RNA-seq Analysen der Photoperiodische Diapause in den asiatischen Tigermücke,

13.2K Views

article

Reinigung der Unreine: Sequencing Metagenomen und Metatranscriptomes von Complex Tierassoziierte Proben

37.2K Views

article

Mikrobiota-Analyse mit zweistufiger PCR- und 16S-rRNA-Gensequenzierung der nächsten Generation

27.7K Views

article

Eine Bioinformatik-Pipeline zur Untersuchung der molekularen Evolution und Genexpression mit RNA-seq

9.4K Views

Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten