È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.
Questo tutorial descrive un metodo semplice per costruire un algoritmo di deep learning per eseguire la classificazione di sequenze a 2 classi di dati metagenomici.
Una varietà di compiti di classificazione delle sequenze biologiche, come la classificazione delle specie, la classificazione della funzione genica e la classificazione dell'ospite virale, sono processi attesi in molte analisi di dati metagenomici. Poiché i dati metagenomici contengono un gran numero di nuove specie e geni, in molti studi sono necessari algoritmi di classificazione ad alte prestazioni. I biologi incontrano spesso difficoltà nel trovare strumenti adatti per la classificazione delle sequenze e l'annotazione per un compito specifico e spesso non sono in grado di costruire un algoritmo corrispondente da soli a causa della mancanza delle necessarie conoscenze matematiche e computazionali. Le tecniche di deep learning sono recentemente diventate un argomento popolare e mostrano forti vantaggi in molte attività di classificazione. Ad oggi, sono stati sviluppati molti pacchetti di deep learning altamente confezionati, che consentono ai biologi di costruire framework di deep learning in base alle proprie esigenze senza una conoscenza approfondita dei dettagli dell'algoritmo. In questo tutorial, forniamo una linea guida per la costruzione di un framework di deep learning facile da usare per la classificazione delle sequenze senza la necessità di sufficienti conoscenze matematiche o abilità di programmazione. Tutto il codice è ottimizzato in una macchina virtuale in modo che gli utenti possano eseguire direttamente il codice utilizzando i propri dati.
La tecnica di sequenziamento metagenomico bypassa il processo di isolamento del ceppo e sequenzia direttamente il DNA totale in un campione ambientale. Pertanto, i dati metagenomici contengono DNA di diversi organismi e la maggior parte delle sequenze biologiche provengono da nuovi organismi che non sono presenti nel database corrente. Secondo diversi scopi di ricerca, i biologi devono classificare queste sequenze da diverse prospettive, come la classificazione tassonomica1, la classificazione virus-batteri 2 ,3,4,la classificazione cromosoma-plasmide ....
1. L'installazione della macchina virtuale
Nel nostro lavoro precedente, abbiamo sviluppato una serie di strumenti di classificazione delle sequenze per i dati metagenomici utilizzando un approccio simile a questo tutorial3,11,12. Ad esempio, abbiamo depositato i file di sequenza del sottoinsieme del set di addestramento e del set di test dal nostro precedente lavoro3,11 nella macchina virtuale.
Questo tutorial fornisce una panoramica per biologi e principianti nella progettazione di algoritmi su come costruire un framework di deep learning facile da usare per la classificazione delle sequenze biologiche nei dati metagenomici. Questo tutorial mira a fornire una comprensione intuitiva del deep learning e ad affrontare la sfida che i principianti spesso hanno difficoltà a installare il pacchetto di deep learning e a scrivere il codice per l'algoritmo. Per alcune semplici attività di classificazione, gli utenti p.......
Gli autori dichiarano che non ci sono conflitti di interesse.
Questa indagine è stata sostenuta finanziariamente dalla National Natural Science Foundation of China (81925026, 82002201, 81800746, 82102508).
....Name | Company | Catalog Number | Comments |
PC or server | NA | NA | Suggested memory: >6GB |
VirtualBox software | NA | NA | Link: https://www.virtualbox.org |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon