Eine Vielzahl von Biologischen Sequenzklassifizierungsaufgaben, wie z. B. Die Klassifizierung von Arten, die Klassifikation der Genfunktion und die Klassifizierung des Drahtwirts, sind erwartete Prozesse in vielen metagenomischen Datenanalysen. Da metagenomische Daten eine große Anzahl von Novo-Arten und -Genen enthalten, werden in vielen Studien leistungsfähige Klassifikationsorganismen benötigt. Biologen stehen oft vor der Herausforderung, geeignete Sequenzklassifikations- und Notationswerkzeuge für eine bestimmte Aufgabenstellung zu finden und sind oft nicht in der Lage, einen entsprechenden Organismus selbst zu konstruieren, weil ihnen die notwendigen mathematischen und rechnerischen Kenntnisse fehlen.
Deep-Learning-Techniken sind in letzter Zeit zu einem beliebten Thema geworden und zeigen bei vielen Klassifizierungsaufgaben einen starken Vorteil. Bis heute wurden viele hochgepackte Deep-Learning-Pakete entwickelt, die es Biologen ermöglichen, Deep-Learning-Frameworks nach ihren eigenen Bedürfnissen zu konstruieren, ohne die Details des Organismus eingehend zu wissen. In diesem Tutorial stellen wir eine Richtlinie für die Erstellung eines einfach zu bedienenden Deep-Learning-Frameworks für die Sequenzklassifizierung bereit, ohne dass ausreichende mathematische Kenntnisse oder Programmierkenntnisse erforderlich sind.
Das folgende Video zeigt, wie sie die virtuelle Maschine zum Ausführen der biologischen Sequenzklassifizierung verwenden. Benutzer müssen die Datei der virtuellen Maschine von der Startseite des Lernprogramms herunterladen und dann die VirtualBox-Software herunterladen. Die virtuelle Maschine wird als siebzig Dateien komprimiert.
Die siebzig Dateien können problemlos mit einer aktuellen Komprimierungssoftware wie WinRar, Winzip und 7-Zip dekomprimiert werden. Wir haben die virtuelle Maschine mit 7-Zip dekomprimiert. Die Dekompression kann einige Zeit dauern.
Bitte warten Sie eine Weile. Nach der Dekomprimierung müssen Benutzer die VirtualBox-Software installieren. Erstellen Sie einen Ordner, um die VirtualBox zu installieren.
Erstellen Sie ein VirtualBox-Installationspaket. Wählen Sie den selbst erstellten Ordner aus. Installieren Sie dann die VirutalBox-Software, indem Sie in jedem Schritt auf die Schaltfläche Weiter klicken.
Die Installation kann einige Zeit dauern, bitte warten Sie eine Weile. Öffnen Sie die VirtualBox-Software. Erstellen Sie eine neue Schaltfläche, um eine virtuelle Maschine zu erstellen.
Geben Sie den von Ihnen selbst angegebenen Namen der virtuellen Maschine in den Namensrahmen ein. Wählen Sie Linux als Betriebssystem im Typframe aus. Wählen Sie Ubuntu im Versionsrahmen aus und klicken Sie auf die Schaltfläche Weiter.
Weisen Sie der virtuellen Maschine nach Möglichkeit eine größere Menge an Arbeitsspeicher zu. True, die eine vorhandene Festplattendateiauswahl verwenden. Wählen Sie die Datei der virtuellen Maschine aus, die von der Startseite des Lernprogramms heruntergeladen wurde.
Klicken Sie dann auf die Schaltfläche Erstellen. Klicken Sie auf eine Startschaltfläche, um die virtuelle Maschine zu öffnen. Das Starten der virtuellen Maschine kann eine Weile dauern.
Bitte warten Sie einen Moment vor dem nächsten Schritt. Dann müssen Benutzer einen freigegebenen Ordner sowohl auf physischen Hosts als auch auf virtuellen Computern erstellen, um Dateien auszutauschen. Erstellen Sie auf Ihrem physischen Host einen freigegebenen Ordner mit dem Namen Shared Host und erstellen Sie auf dem Desktop der virtuellen Maschine einen freigegebenen Ordner mit dem Namen Shared VM.In der manuellen Leiste der virtuellen Maschine, klicken Sie nacheinander auf Geräte, freigegebene Ordner und Einstellungen für freigegebene Ordner.
Klicken Sie auf die Schaltfläche in der oberen rechten Ecke. Wählen Sie den freigegebenen Ordner auf dem physischen Host aus, der von Ihnen selbst erstellt wurde. Wählen Sie die Option für die automatische Einhänge aus.
Klicken Sie auf die Schaltfläche OK. Starten Sie dann die virtuelle Maschine neu. Der Neustart der virtuellen Maschine kann eine Weile dauern.
Bitte warten Sie einen Moment vor dem nächsten Schritt. Klicken Sie mit der rechten Maustaste auf den Desktop der virtuellen Maschine und öffnen Sie das Terminal. Geben Sie den folgenden Befehl in das Terminal ein.
Sudo, Leertaste, Mount, Leertaste, Leiste T, Leertaste, vboxsf, Leertaste, Gemeinsamer Host, Leertaste, Punktstrich, Desktop, Schrägstrich, freigegebene VM.Wenn Sie zur Eingabe eines Kennworts aufgefordert werden, geben Sie eines ein und tippen Sie auf die Eingabetaste. Kopieren Sie alle vier Sequenzdateien in einem schnelleren Format für den Trainings- und Testprozess in den freigegebenen Hostordner des physischen Hosts. Auf diese Weise werden alle Dateien auch im freigegebenen VM-Ordner der virtuellen Maschine angezeigt.
Kopieren Sie dann die Dateien im freigegebenen VM-Ordner in den Deep-Learning-Ordner der virtuellen Maschine. Klicken Sie mit der rechten Maustaste, öffnen Sie das Terminal und geben Sie den folgenden Befehl ein, um die eine Hot-Codierung durchzuführen. Punktstrich, eine Hot-Codierung, geben Sie die Dateien für Training und Test an.
Und geben Sie den Sequenztyp an. Geben Sie dann den folgenden Befehl ein, um den Trending-Prozess zu starten. Python-Leertaste, Zugpunkt P Y.Dann beginnt der Trending-Prozess.
Dieser Vorgang kann je nach Größe Ihres Datensatzes einige Stunden oder einige Tage dauern. Wenn der Prozess abgeschlossen ist, ist das Vorhersageergebnis der Testdaten in der CSV-Datei mit dem Vorhersagepunkt vorhanden. In unserer früheren Arbeit haben wir eine Reihe von Sequenzklassifizierungswerkzeugen für metagenomische Daten entwickelt, wobei wir einen ähnlichen Ansatz wie dieses Tutorial verwendet haben.
Zum Beispiel haben wir ein Tool entwickelt, das darauf abzielt, die vollständigen und partiellen Prokaryotenvirus-Virionproteine aus Laufdaten zu identifizieren. Und ein Werkzeug, das darauf abzielte, Phagen-DNA-Fragmente aus bakteriellen Chromosomen-DNA-Fragmenten in metogenomischen Daten zu identifizieren. Die Leistung der Tools, die das Skript dieses Lernprogramms verwenden, ist in den Abbildungen a und b dargestellt.
Zusammenfassend bietet dieses Tutorial einen Überblick für Biologen und Organismendesign-Anfänger, wie man ein einfach zu bedienendes Deep-Learning-Framework für die biologische Sequenzklassifizierung in metogenomischen Daten erstellt. Dieses Tutorial zielt darauf ab, ein intuitives Verständnis von Deep Learning zu vermitteln und die Herausforderung anzugehen, dass Anfänger oft Schwierigkeiten haben, das Deep-Learning-Paket zu starten und den Code für den Organismus zu schreiben. Für einige einfache Klassifizierungsaufgaben können Benutzer unser Framework verwenden, um die Klassifizierungsaufgabe auszuführen.