종 분류, 유전자 기능 분류 및 와이어 숙주 분류와 같은 다양한 생물학적 서열 분류 작업은 많은 메나게놈 데이터 분석에서 예상되는 과정이 다수 이다. 메막뇨 데이터는 많은 수의 노보 종과 유전자를 포함하고 있기 때문에, 고성능 분류 유기체는 많은 연구 결과에서 필요합니다. 생물학자는 종종 특정 작업에 적합한 서열 분류 및 표기 도구 찾기에 어려움을 겪고 있으며 필요한 수학 및 계산 지식이 부족하여 해당 유기체를 스스로 구성할 수 없습니다.
딥 러닝 기술은 최근 인기있는 주제가되었으며 많은 분류 작업에서 강력한 이점을 보여줍니다. 현재까지 많은 고도로 포장된 딥 러닝 패키지로 생물학자들이 유기체 세부 사항에 대한 심층적 지식 없이 자신의 필요에 따라 딥 러닝 프레임워크를 구축할 수 있게 되었습니다. 이 자습서에서는 충분한 수학적 지식이나 프로그래밍 기술 없이 시퀀스 분류를 위해 쉽게 사용할 수 있는 딥 러닝 프레임워크를 구성하는 지침을 제공합니다.
다음 비디오는 가상 컴퓨터를 사용하여 생물학적 서열 분류를 수행하는 방법을 보여 주습니다. 사용자는 튜토리얼 홈페이지에서 가상 머신 파일을 다운로드한 다음 VirtualBox 소프트웨어를 다운로드해야 합니다. 가상 시스템은 70개의 파일로 압축됩니다.
70 개의 파일은 WinRar, Winzip 및 7 Zip과 같은 전류 압축 소프트웨어를 사용하여 쉽게 압축 해제 할 수 있습니다. 우리는 7-Zip을 사용하여 가상 머신의 압축을 풀었다. 감압에는 다소 시간이 걸릴 수 있습니다.
잠시 기다려 주십시오. 압축 을 해제 한 후 사용자는 버추얼 박스 소프트웨어를 설치해야합니다. 버추얼박스를 설치하는 폴더를 만듭니다.
버추얼박스 설치 패키지를 만듭니다. 직접 만든 폴더를 선택합니다. 그런 다음 각 단계의 다음 단추를 클릭하여 VirutalBox 소프트웨어를 설치합니다.
설치시간이 좀 걸릴 수 있으므로 잠시 기다려 주십시오. 버추얼박스 소프트웨어를 엽니다. 가상 컴퓨터를 만들 새 단추를 만듭니다.
이름 프레임에 직접 지정한 가상 컴퓨터 이름을 입력합니다. 유형 프레임에서 운영 체제로 Linux를 선택합니다. 버전 프레임에서 우분투를 선택하고 다음 단추를 클릭합니다.
가능하면 가상 시스템에 더 많은 양의 메모리를 할당합니다. 실제 사용 기존 하드 디스크 파일 선택입니다. 튜토리얼 홈페이지에서 다운로드한 가상 머신 파일을 선택합니다.
그런 다음 만들기 단추를 클릭합니다. 시작 버튼을 클릭하여 가상 컴퓨터를 엽니다. 가상 컴퓨터를 시작하는 데 시간이 걸릴 수 있습니다.
다음 단계 전에 잠시 기다려주십시오. 그런 다음 사용자는 파일을 교환하려면 실제 호스트와 가상 컴퓨터 모두에서 공유 폴더를 만들어야 합니다. 실제 호스트에서 공유 호스트라는 공유 폴더와 가상 컴퓨터의 바탕 화면에 공유 된 폴더를 만들고 가상 시스템의 수동 막대를 VM.In 클릭하고 장치, 공유 폴더, 공유 폴더 설정을 연속적으로 공유합니다.
오른쪽 상단 모서리에 있는 단추를 클릭합니다. 직접 만든 실제 호스트에서 공유 폴더를 선택합니다. 자동 마운트 옵션을 선택합니다.
확인 버튼을 클릭합니다. 그런 다음 가상 컴퓨터를 다시 시작합니다. 가상 컴퓨터를 다시 시작하는 데 시간이 걸릴 수 있습니다.
다음 단계 전에 잠시 기다려주십시오. 가상 시스템의 바탕 화면을 마우스 오른쪽 단추로 클릭하고 터미널을 엽니다. 터미널에 다음 명령을 입력합니다.
Sudo, 공간 키, 마운트, 공간 키, 바 T, 공간 키, vboxsf, 공간 키, 공유 호스트, 공간 키, 도트 슬래시, 데스크톱, 슬래시, 공유 VM.암호에 대한 메시지가 표시되면 하나를 입력하고 입력 키를 누릅니다. 교육 및 테스트 프로세스를 위해 네 개의 시퀀스 파일을 모두 더 빠른 형식으로 복사하여 실제 호스트의 공유 호스트 폴더에 복사합니다. 이러한 방식으로 모든 파일은 가상 시스템의 공유 VM 폴더에서도 발생합니다.
그런 다음 공유 VM 폴더의 파일을 가상 시스템의 딥 러닝 폴더에 복사합니다. 오른쪽 단추를 클릭하고 터미널을 열고 다음 명령을 입력하여 핫 인코딩을 수행합니다. 핫 인코딩 중 하나인 도트 슬래시는 교육 및 테스트를 위한 파일을 지정합니다.
그리고 시퀀스 유형을 지정합니다. 그런 다음 다음 명령을 입력하여 추세 프로세스를 시작합니다. 파이썬 공간 키, 기차 도트 P Y.다음 추세 과정이 시작됩니다.
이 프로세스는 데이터 집합 크기에 따라 몇 시간 또는 며칠이 걸릴 수 있습니다. 프로세스가 완료되면 테스트 데이터의 예측 결과가 예측 점 CSV 파일에 있습니다. 이전 작업에서는 이 자습서와 유사한 접근 방식을 사용하여 메타게놈 데이터에 대한 일련의 시퀀스 분류 도구를 개발했습니다.
예를 들어, 우리는 실행 데이터에서 완전하고 부분적인 원핵 바이러스 비리온 단백질을 식별하는 것을 목표로 하는 도구를 개발했습니다. 그리고 메토게놈 데이터의 세균성 염색체 DNA 단편에서 파지 DNA 단편을 확인하는 것을 목표로 하는 공구. 이 자습서의 스크립트를 사용하는 도구의 성능은 그림 a와 b에 표시됩니다.
결론적으로, 이 튜토리얼은 생물학자와 유기체 설계 초보자가 메토게놈 데이터에서 생물학적 서열 분류를 위한 심층 학습 프레임워크를 쉽게 사용하는 방법에 대한 개요를 제공합니다. 이 튜토리얼은 딥 러닝에 대한 직관적인 이해를 제공하고 초보자가 종종 딥 러닝 패키지를 시작하고 유기체에 대한 코드를 작성하는 데 어려움이 있는 과제를 해결하는 것을 목표로 합니다. 몇 가지 간단한 분류 작업의 경우 사용자는 프레임워크를 사용하여 분류 작업을 수행할 수 있습니다.