Una varietà di compiti di classificazione delle sequenze biologiche, come la classificazione delle specie, la classificazione della funzione genica e la classificazione dell'ospite del filo sono processi attesi in molte analisi di dati metagenomici. Poiché i dati metagenomici contengono un gran numero di specie e geni Novo, in molti studi sono necessari organismi di classificazione ad alte prestazioni. I biologi spesso incontrano difficoltà nel trovare strumenti adatti per la classificazione delle sequenze e la notazione per un compito specifico e spesso non sono in grado di costruire un organismo corrispondente da soli a causa della mancanza delle necessarie conoscenze matematiche e computazionali.
Le tecniche di deep learning sono recentemente diventate un argomento popolare e mostrano un forte vantaggio in molte attività di classificazione. Ad oggi, sono stati sviluppati molti pacchetti di deep learning altamente confezionati, che consentono ai biologi di costruire framework di deep learning, in base alle proprie esigenze senza una conoscenza approfondita dei dettagli dell'organismo. In questo tutorial, forniamo una linea guida per la costruzione di un framework di deep learning facile da usare per la classificazione delle sequenze senza la necessità di sufficienti conoscenze matematiche o abilità di programmazione.
Nel video seguente viene illustrato come utilizzare la macchina virtuale per eseguire la classificazione delle sequenze biologiche. Gli utenti devono scaricare il file della macchina virtuale dalla home page del tutorial e quindi scaricare il software VirtualBox. La macchina virtuale viene compressa come settanta file.
Il file settanta può essere facilmente decompresso utilizzando un software di compressione corrente, come WinRar, Winzip e 7-Zip. Abbiamo decompresso la macchina virtuale usando 7-Zip. La decompressione potrebbe richiedere del tempo.
Si prega di attendere qualche tempo. Dopo la decompressione gli utenti devono installare il software VirtualBox. Creare una cartella per installare VirtualBox.
Creare un pacchetto di installazione di VirtualBox. Seleziona la cartella creata da te stesso. Quindi installare il software VirutalBox facendo clic sul pulsante Successivo in ogni passaggio.
L'installazione potrebbe richiedere del tempo, si prega di attendere qualche tempo. Aprire il software VirtualBox. Creare un nuovo pulsante per creare una macchina virtuale.
Immettere il nome della macchina virtuale specificato da soli nel frame del nome. Selezionare Linux come sistema operativo nel frame del tipo. Seleziona Ubuntu nel frame della versione e fai clic sul pulsante Avanti.
Se possibile, allocare una maggiore quantità di memoria alla macchina virtuale. True l'opzione Utilizza una selezione di file del disco rigido esistente. Selezionare il file della macchina virtuale scaricato dalla home page dell'esercitazione.
E quindi fare clic sul pulsante Crea. Fare clic su un pulsante Start per aprire la macchina virtuale. L'avvio della macchina virtuale potrebbe richiedere del tempo.
Si prega di attendere un momento prima del passaggio successivo. Quindi gli utenti devono creare una cartella condivisa sia negli host fisici che nella macchina virtuale per scambiare file. Nell'host fisico, creare una cartella condivisa denominata host condiviso e sul desktop della macchina virtuale, creare una cartella condivisa denominata shared VM.In barra manuale della macchina virtuale, fare clic su dispositivi, cartelle condivise, impostazioni cartella condivisa successivamente.
Fai clic sul pulsante nell'angolo in alto a destra. Selezionare la cartella condivisa nell'host fisico creato da te. Selezionare l'opzione di montaggio automatico.
Fare clic sul pulsante OK. Quindi riavviare la macchina virtuale. Il riavvio della macchina virtuale potrebbe richiedere del tempo.
Si prega di attendere un momento prima del passaggio successivo. Fare clic con il pulsante destro del mouse sul desktop della macchina virtuale e aprire il terminale. Digitare il seguente comando per il terminale.
Sudo, chiave spaziale, mount, space key, bar T, space key, vboxsf, space key, shared host, space key, dot slash, desktop, slash, shared VM.Quando viene richiesta una password, immetterne una e toccare la chiave invio. Copiare tutti e quattro i file di sequenza in formato più rapido per il processo di training e test nella cartella host condivisa dell'host fisico. In questo modo, tutti i file si verificheranno anche nella cartella VM condivisa della macchina virtuale.
Quindi copiare i file nella cartella VM condivisa nella cartella deep learning della macchina virtuale. Fare clic con il pulsante destro del mouse e aprire il terminale e digitare il seguente comando per eseguire l'unica codifica a caldo. Dot slash, una codifica a caldo, specifica i file per l'addestramento e il test.
E specificare il tipo di sequenza. Quindi digitare il comando seguente per avviare il processo di tendenza. Chiave spaziale Python, punto di treno P Y.Quindi inizierà il processo di tendenza.
Questo processo potrebbe richiedere alcune ore o alcuni giorni, a seconda delle dimensioni del set di dati. Al termine del processo, il risultato predittivo dei dati di test è presente nel file CSV del punto di previsione. Nel nostro lavoro precedente, abbiamo sviluppato una serie di strumenti di classificazione delle sequenze per un dato metagenomico, utilizzando un approccio simile a questo tutorial.
Ad esempio, abbiamo sviluppato uno strumento volto a identificare le proteine virioni complete e parziali del virus del procariota dai dati di esecuzione. E uno strumento mirava a identificare frammenti di DNA fagico da frammenti di DNA cromosomico batterico in dati metogenomici. Le prestazioni degli strumenti che utilizzano lo script di questo tutorial sono mostrate nelle figure a e b.
In conclusione, questo tutorial fornisce una panoramica per i biologi e i principianti della progettazione di organismi su come costruire un framework di deep learning facile da usare per la classificazione delle sequenze biologiche nei dati metogenomici. Questo tutorial mira a fornire una comprensione intuitiva del deep learning e ad affrontare la sfida che i principianti hanno spesso difficoltà ad avviare il pacchetto di deep learning e scrivere il codice per l'organismo. Per alcune semplici attività di classificazione, gli utenti possono utilizzare il nostro framework per eseguire l'attività di classificazione.