種分類、遺伝子機能分類、およびワイヤーホスト分類などの様々な生物学的配列分類タスクは、多くのメタゲノムデータ分析において期待されるプロセスである。メタゲノムデータにはノボ種や遺伝子が多数含まれているため、多くの研究で高い成績の分類生物が必要とされています。生物学者は、特定のタスクに適した配列分類と表記ツールを見つける際にしばしば挑戦に遭遇し、多くの場合、必要な数学的および計算的知識の欠如のために、自分で対応する生物を構築することができない。
ディープラーニングのテクニックは最近、人気のトピックとなり、多くの分類タスクで強い優位性を示しています。現在までに、生物の詳細を深く知らずに独自のニーズに応じて、生物学者がディープラーニングフレームワークを構築することを可能にする多くの高度にパッケージ化されたディープラーニングパッケージが開発されています。このチュートリアルでは、十分な数学的知識やプログラミングスキルを必要とせずに、シーケンス分類のための使いやすいディープラーニングフレームワークを構築するためのガイドラインを提供します。
次のビデオでは、仮想マシンを使用して生物学的シーケンス分類を実行する方法を示します。ユーザーは、チュートリアルのホームページから仮想マシンファイルをダウンロードし、VirtualBoxソフトウェアをダウンロードする必要があります。仮想マシンは 70 ファイルとして圧縮されます。
70ファイルは、WinRar、Winzip、7-Zipなどの現在の圧縮ソフトウェアを使用して簡単に解凍することができます。7-Zipを使用して仮想マシンを解凍しました。減圧には時間がかかる場合があります。
しばらくお待ちください。解凍後、ユーザーはVirtualBoxソフトウェアをインストールする必要があります。仮想ボックスをインストールするフォルダーを作成します。
仮想ボックスのインストール パッケージを作成します。自分で作成したフォルダを選択します。次に、各ステップの次のボタンをクリックして、VirutalBoxソフトウェアをインストールします。
インストールには時間がかかる場合がありますので、しばらくお待ちください。バーチャルボックスソフトウェアを開きます。新しいボタンを作成して仮想マシンを作成します。
名前フレームに、自分で指定した仮想マシン名を入力します。タイプフレームでオペレーティングシステムとして Linux を選択します。バージョンフレームでUbuntuを選択し、次のボタンをクリックします。
可能であれば、仮想マシンに大量のメモリを割り当てます。True は、既存のハード ディスク ファイルの選択を使用します。チュートリアルのホームページからダウンロードした仮想マシンファイルを選択します。
次に、[作成] ボタンをクリックします。開始ボタンをクリックして、仮想マシンを開きます。仮想マシンの起動にはしばらく時間がかかる場合があります。
次のステップの前にしばらくお待ちください。次に、ユーザーはファイルを交換するために、物理ホストと仮想マシンの両方に共有フォルダを作成する必要があります。物理ホストで、共有ホストという名前の共有フォルダーを作成し、仮想マシンのデスクトップ上に共有フォルダーを作成 VM.In 仮想マシンの手動バーを作成し、デバイス、共有フォルダー、共有フォルダーの設定を連続的にクリックします。
右上隅のボタンをクリックします。自分で作成した物理ホストの共有フォルダを選択します。自動マウントオプションを選択します。
[OK]ボタンをクリックします。次に、仮想マシンを再起動します。仮想マシンの再起動にはしばらく時間がかかる場合があります。
次のステップの前にしばらくお待ちください。仮想マシンのデスクトップ上で右クリックし、ターミナルを開きます。ターミナルに次のコマンドを入力します。
Sudo、スペースキー、マウント、スペースキー、バーT、スペースキー、vboxsf、スペースキー、共有ホスト、スペースキー、ドットスラッシュ、デスクトップ、スラッシュ、共有VM.パスワードを入力し、入力キーをタップします。トレーニングおよびテストプロセスの 4 つのシーケンス ファイルすべてを、物理ホストの共有ホスト フォルダに高速にコピーします。このようにして、すべてのファイルは仮想マシンの共有 VM フォルダーにも発生します。
次に、共有 VM フォルダー内のファイルを仮想マシンのディープ ラーニング フォルダーにコピーします。右クリックしてターミナルを開き、次のコマンドを入力してホットエンコードを実行します。ドットスラッシュ(1つのホットエンコーディング)は、トレーニングとテスト用のファイルを指定します。
そして、シーケンスの種類を指定します。次に、次のコマンドを入力して、トレンド分析プロセスを開始します。Pythonスペースキー、列車ドットP Y.その後、トレンドプロセスが開始されます。
この処理は、データ セットのサイズによっては数時間または数日かかる場合があります。プロセスが終了すると、テストデータの予測結果が予測ドットCSVファイルに存在します。前の研究では、このチュートリアルと同様のアプローチを使用して、メタゲノムデータの一連のシーケンス分類ツールを開発しました。
例えば、実行データから完全かつ部分的な原核生物ウイルスウイルスタンパク質を同定するためのツールを開発しました。そして、メトゲノムデータの細菌染色体DNA断片からファージDNA断片を同定することを目的としたツール。このチュートリアルのスクリプトを使用したツールのパフォーマンスを図 a および b に示します。
結論として、このチュートリアルでは、メトゲノムデータにおける生物学的配列分類のための使いやすいディープラーニングフレームワークを構築する方法について、生物学者や生物の設計初心者のための概要を提供します。このチュートリアルでは、ディープラーニングの直感的な理解を提供し、初心者がディープラーニングパッケージを開始し、生物のためのコードを書くことが困難であることが多い課題に対処することを目的としています。一部の簡単な分類タスクでは、ユーザーは、分類タスクを実行するのには、フレームワークを使用できます。