마찬가지로 효과적인 이진 분류 공연으로 여러 바이오 마커 하위 집합 선택

Please note that all translations are AI generated. Click here for the English version.

7.4K Views

•

07:35 min

•

October 11th, 2018

DOI :

10.3791/57738-v

October 11th, 2018

•

Xin Feng¹, Shaofei Wang¹, Quewang Liu¹, Han Li², Jiamei Liu², Cheng Xu², Weifeng Yang², Yayun Shu², Weiwei Zheng¹, Bingxin Yu³, Mingran Qi⁴, Wenyang Zhou¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²College of Software, Jilin University, ³Ultrasonography Department, China-Japan Union Hospital of Jilin University, ⁴Department of Pathogenobiology, College of Basic Medical Science, Jilin University

필기록

이 측정은 여러 솔루션을 생성하는 것에 관하여 생물 의학 탐지 필드에 있는 중요한 질문에 대답하는 것을 도울 수 있습니다. 이 기술의 주요 장점은 여러 기능의 검출에 생물 의학 연구원을 지원하기위한 사용자 친화적 인 그래픽 사용자 인터페이스를 제공한다는 것입니다. 먼저 데이터 매트릭스 및 클래스 레이블을 소프트웨어에 로드합니다.

로드 데이터 행렬을 클릭하여 사용자에게 지정된 데이터 메트릭 파일을 선택하고 클래스 레이블을 로드하여 해당 클래스 레이블 파일을 선택합니다. 상위 순위 기능 수의 클래스 레이블을 확인하려면 적절한 드롭다운 박스에서 양수 및 음수 클래스의 이름을 선택하고 기능 하위 집합의 포괄적인 화면을 위해 상단 X 드롭 다운 박스의 상위 상위 기능 수로 10을 선택합니다. 다양한 성능에 대한 시스템 파라미터를 조정하려면 선택한 익스트림 러닝 머신 분류기에 대한 정확도 균형 조정 상자로 성능 측정 정확도를 선택합니다.

그런 다음 성능 컷오프 입력 상자에서 지정된 성능 측정에 대해 0.7의 컷오프 값을 선택합니다. 파이프라인을 실행하려면 성능 측정의 기본 값이 차단되면 분석하고 0.7을 선택합니다. 그리고, 10 최고의 기능 하위 집합의 기본 번호로.

그런 다음 소프트웨어에서 감지한 기능을 수집하고 해석합니다. 소프트웨어에서 감지한 최상의 분류 성능으로 하위 집합의 상위 10개 기능의 3D 분산 플롯을 생성하려면 F1, F2 및 F3 축으로 세 가지 기능의 순위를 사용하여 피처 하위 집합의 세 가지 기능을 분석하고 정렬합니다. 성능 차단 값을 0.7로 변경하고 분석을 클릭하여 성능 차단 성능 측정 값보다 크거나 동일한 피쳐 하위 집합의 3D 분산 플롯을 생성합니다.

그런 다음 3D 튜닝을 클릭하여 3D 분산 플롯의 시야각을 수동으로 튜닝할 새 창을 열고 감지된 피쳐 하위 집합의 중복성을 줄입니다. DNA 및 단백질 서열 수준에서 유전자에 알리려면, 데이비드 데이터베이스 웹 페이지를 열고 유전자 ID 변환 링크를 클릭하여 준비된 데이터 세트의 제1 바이오마커 하위 집합의 기능 ID를 입력합니다. 유전자 목록 링크를 클릭하고 제출 목록을 클릭하여 관심 있는 주석을 검색하고 유전자 목록을 표시하여 유전자 기호 목록을 가져옵니다.

다음으로 GeneCard 데이터베이스 웹 페이지를 열고 관심 유전자의 이름을 데이터베이스 쿼리 입력 상자에 입력하여 이 유전자의 주석을 찾습니다. 남자 데이터베이스에 있는 온라인 Mendelian 상속을 열고 데이터베이스에서 이 유전자의 주석을 찾아서 유전자를 찾아보십시오. 인코딩된 단백질에 주석을 추가하려면 UniProt 지식 기반 데이터베이스 페이지를 열고 이 데이터베이스에서 유전자의 주석을 검색합니다.

그룹 기반 예측 시스템 또는 GPS 웹 서버를 열고, UniProt 지식 기반 데이터베이스로부터 바이오마커 유전자에 의해 인코딩된 단백질 서열을 회수하고 온라인 GPS 도구를 사용하여 전환 후 변형 잔기를 예측한다. 단백질-단백질 상호 작용에 신고하고 기능이 풍부한 모듈이 풍부하게 작용하기 위해 문자열 웹 서버 페이지를 열고 문자열 데이터베이스를 사용하여 관심 유전자에 대한 리프트를 검색하여 오케스트레이션된 특성을 찾습니다. 추가 분석을 위해 감지된 바이오마커 하위 집합을 내보내려면 테이블을 내보내고 파일을 저장하기 위한 적절한 텍스트 형식을 선택합니다.

그런 다음 시각화 플롯을 개별 이미지 파일로 내보내고 각 플롯 아래에 저장을 클릭하고 각 파일을 저장하기 위한 적절한 이미지 형식을 선택합니다. 이 대표적인 실험에서는 두 개의 데이터 집합을 CSV 파일로 포맷하고 입증된 대로 소프트웨어에 로드되었습니다. 첫 번째 데이터 세트에서는 12, 625개의 기능 및 개별 클래스 레이블이 있는 128개의 샘플이 95개의 음수 샘플과 33개의 양수 샘플을 포함하는 최종 데이터 Matrix로 로드되었습니다.

두 번째 어려운 데이터 집합에도 유사한 작업이 수행되었습니다. 피처 이름에서 사용자 별 키워드를 검색하면 각 데이터 집합에 대한 피처의 히스토그램이 표시됩니다. 각 데이터 세트에 대한 파이프라인 알고리즘을 실행한 후 120개의 적격 바이오마커 서브세트가 검출되어 데이터 세트를 쉽게 구별할 수 있으며, 57개의 트리플트 바이오마커 서브세트는 100% 정확도를 보여 주었다.

그러나 어려운 데이터 집합에 대해 검출된 76개의 바이오마커 서브셋만. 그리고 바이오마커가 표현형특이적임을 시사하는 낮은 바이오마커 서브셋 정확도로 바이오마커 검출의 또 다른 주요 과제이다. 이 절차를 사용하는 동안 향후 선택 문제에여러 가지 솔루션이 있다는 것을 기억하는 것이 중요합니다.

SIM의 성능 최다 를 읽어보십시오. 개발 후, 이 기술은 생물 의학 연구원이 여러 솔루션으로 생물 의학 검출을 탐구할 수 있는 길을 열었습니다.

요약

더 많은 비디오 탐색

140

OMIC

이 비디오의 챕터

0:04

Title

0:33

Dataset Preparation

1:48

Interactive Visualized Results Production