JoVE 비디오를 활용하시려면 도서관을 통한 기관 구독이 필요합니다. 전체 비디오를 보시려면 로그인하거나 무료 트라이얼을 시작하세요.
Method Article
기존 알고리즘 바이오 마커 검출 데이터 집합에 대 한 하나의 솔루션을 생성합니다. 이 프로토콜의 여러 마찬가지로 효과적인 솔루션의 존재 및 고 생물 의학 연구원 제안된 과제에 대 한 데이터 세트를 조사 수 있도록 사용자 친화적인 소프트웨어를 제공. 컴퓨터 과학자 들은 팬 들은이 기능에 그들의 바이오 마커 검출 알고리즘의 정보를 제공할 수도 있습니다.
바이오 마커 검출 높은 처리량 'omics' 연구자에 대 한 생물 더 중요 한 질문 중 하나 이며 특정된 데이터 집합에 대 한 최적화 된 성능 측정 한 biomarker 하위 집합을 생성 하는 거의 모든 기존 바이오 마커 검출 알고리즘 . 그러나, 최근 연구도 동일 또는 유사 하 게 효과적 분류 공연 여러 바이오 마커 하위 집합의 존재 증명. 이 프로토콜은 이진 분류 공연, 사용자 정의 자르기 보다 더 하위 집합 바이오 마커 검출을 위한 간단 하 고 간단한 방법론을 선물 한다. 데이터 준비 및 로드, 초기 정보 요약, 매개 변수 조정, 바이오 마커 검사, 결과 시각화 및 해석, 바이오 마커 유전자 주석, 및에 결과 및 시각화 수출의 프로토콜 구성 출판 품질입니다. 제안 된 바이오 마커 전략 스크리닝 직관적 이며 바이오 마커 검출 알고리즘 개발에 대 한 일반적인 규칙을 보여 줍니다. 사용자 친화적인 그래픽 사용자 인터페이스 (GUI) 프로그래밍 언어 파이썬, 생물 의학 연구원은 그들의 결과에 직접 액세스할 수 있도록 사용 하 여 개발 되었다. 소스 코드와 kSolutionVis의 설명서는 http://www.healthinformaticslab.org/supp/resources.php에서 다운로드할 수 있습니다.
하나는 가장 일반적으로 이진 분류 조사 하 고 도전적인 데이터 마이닝, 생물 의학 영역에서 문제 샘플 가장 정확한 차별 전원1, 의 두 그룹에 대 한 훈련 분류 모델을 구축 하는 2 , 3 , 4 , 5 , 6 , 그러나 7., 생물 의학 분야에서 생성 하는 큰 데이터는 고유의 "큰 p 작은 n" 패러다임, 기능의 일반적으로 샘플6,,89의 수 보다 훨씬 더 큰 숫자와 함께. 따라서, 생물 의학 연구원 overfitting 문제8,9를 피하기 위해 분류 알고리즘을 활용 하기 전에 기능 치수를 줄일 필요가 있다. 진단 바이오 마커는 건강 한 컨트롤 샘플10,11에서 특정된 질환의 환자를 분리 검색 기능의 하위 집합으로 정의 됩니다. 환자는 일반적으로 긍정적인 샘플으로 정의 되며 건강 한 컨트롤 부정적인 샘플12로 정의 됩니다.
최근 연구는 생물 의학 데이터 집합5에 대 한 동일 또는 유사 하 게 효과적인 분류 공연 하나 이상의 솔루션 존재 제안 했다. 거의 모든 기능 선택 알고리즘은 동일한 데이터 집합에 대 한 하나의 솔루션을 생산 하는 결정적 알고리즘입니다. 유전자 알고리즘을 동시에 비슷한 공연, 여러 솔루션을 생성할 수 있습니다 하지만 그들은 여전히 주어진된 데이터 집합13,14에 대 한 출력으로 최고의 피트 니스 기능을 하나의 솔루션을 선택 하려고 합니다.
기능 선택 알고리즘 필터 또는 래퍼12대략 그룹화 될 수 있습니다. 상위-k 특징 이진 클래스 레이블 기능 가정에 따라 그들의 중요 한 개인 협회에 의해 선정은 서로15,,1617의 독립적인 필터 알고리즘 선택 . 이 가정은 거의 모든 실제 데이터 집합에 대 한 진정한 보유 하지 않습니다, 비록 추론 필터 규칙에서 잘 수행 많은 경우, 예를 들어, mRMR (최소 중복 및 최대 관련성) 알고리즘, Wilcoxon 테스트 기반 기능 필터링 (WRank) 알고리즘, 및 ROC (수신기 작동 특성) 플롯 (ROCRank)를 필터링 알고리즘을 기반 으로합니다. mRMR, 그것은 훨씬 더 작은 문제, 각각의 두 개의 변수를 포함, 최대 종속성 기능 선택 알고리즘 비교의 시리즈와 조합 추정 문제에 근접 하기 때문에 효율적인 필터 알고리즘은 고 따라서 더 강력한18,19는 없음을 공동 확률을 사용 합니다. 그러나, mRMR 수로 관련성, 증가 시킬 수 있으며 따라서 개별적으로 쓸모 있지만 결합 하는 경우에 유용 일부 기능 조합을 그리 워 기능 간의 상호 작용을 측정 하지 않습니다 일부 기능의 유용성 과소 평가. WRank 알고리즘을 어떻게 구별 기능 샘플, 두 클래스 사이의 이며 outliers20,21의 견고성에 대 한 알려져 있다 비패라메트릭 점수를 계산 합니다. 또한, ROCRank 알고리즘은 얼마나 중요 한 특정 기능 영역 ROC에서 곡선 (AUC)은 조사 이진 분류 성능22,23평가 합니다.
다른 한편으로, 래퍼 기능 하위 집합, 반복적으로 추론 규칙에 의해 생성 된 미리 정의 된 분류자의 성능을 평가 하 고 최고의 성능을 측정24기능 하위 집합을 만듭니다. 래퍼는 일반적으로 분류 성능에서 필터를 능가 하지만 느린25을 실행 됩니다. 임의 숲 정례화 (RRF)26,27 알고리즘 각 무작위 포리스트 노드, 누구의 기능 중요성 점수 Gini 색인에 의해 평가에서 학습 데이터의 하위 집합에서 기능을 평가 하 여 욕심이 규칙을 사용 하는 예를 들어 . 새로운 기능에 대 한 선택의 정보 이득 선택 기능을 개선 되지 않으면 처벌 될 것 이다. Microarrays (PAM)28,29 알고리즘 또한 래퍼 알고리즘에 대 한 예측 분석 클래스 레이블의 각 한 중심을 계산 하 고 전체 향해 진 중심을 축소 하는 기능을 선택 하는 또한, 클래스 중심입니다. 팸은 외곽 특징에 대 한 강력한입니다.
상위 분류 성능 가진 여러 솔루션은 어떤 주어진 데이터 집합 필요할 수 있습니다. 첫째, 결정적 알고리즘의 최적화 목표는 반드시 생물 학적 샘플에 적합 하지 않습니다는 수학 공식, 예를 들어, 최소 오류 속도30에 의해 정의 됩니다. 둘째, dataset 여러 비슷한 또는 심지어 동일 공연으로 크게 다른 솔루션을 할 수 있습니다. 거의 모든 기존 기능 선택 알고리즘 무작위로 출력31이러한 솔루션 중 하나를 선택 합니다.
이 연구는 어떤 주어진된 이진 분류 데이터 집합에 대 한 비슷한 공연을 여러 기능 선택 솔루션을 생성 하기 위한 정보 분석 프로토콜을 소개 합니다. 가장 생물 의학 연구원 informatic 기술 또는 컴퓨터 코딩에 익숙하지 않은 고려 하면, 사용 하기 쉬운 그래픽 사용자 인터페이스 (GUI) 생물 의학 이진 분류 데이터의 신속한 분석을 촉진 하기 위하여 개발 되었다. 데이터 로드 및 요약, 매개 변수 튜닝, 파이프라인 실행 및 결과 해석 분석 프로토콜에 의하여 이루어져 있다. 간단한 클릭으로, 연구원은 바이오 마커 하위 집합 및 게시-품질 시각화 플롯을 생성할 수 있게. 프로토콜은 두 개의 이진 분류 데이터 집합의 급성 림프 구성 백혈병 (ALL), 즉, ALL1 및 ALL212의 transcriptomes를 사용 하 여 테스트 되었습니다. ALL1 및 ALL2 데이터 집합 광범위 한 연구소 게놈 데이터 분석 센터에서 http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi에서 다운로드 했다. ALL1에는 12,625 기능 128 샘플을 포함 되어 있습니다. 이 샘플의 95 B-세포는 모두 고 33는 T-세포 모든. ALL2 100 샘플 12,625 기능을 포함합니다. 이 샘플의 있습니다 65 환자는 재발을 고통을 하지 않았다 35 환자. ALL1 4 개의 필터와 4 개의 래퍼 96.7%, 및 10012달성 8 기능 선택 알고리즘의 6의 최소 정확도 쉽게 이진 분류 데이터 집합 했다. ALL2 위의 8 기능 선택 알고리즘 83.7% 정확도12보다 더 나은 달성 더 어려운 데이터 집합 동안. 이 최고의 정확도 56 기능 상관 관계 기반 기능 선택 (CFS) 래퍼 알고리즘에 의해 감지와 함께 달성 했다.
참고: 다음 프로토콜 정보 분석 절차의 세부 사항 및 주요 모듈의 의사 코드를 설명합니다. 자동 분석 시스템은 파이썬 버전 3.6.0 파이썬 모듈 팬더, abc, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, 수학과 matplotlib를 사용 하 여 개발 되었다. 이 연구에 사용 된 재료는 재료의 테이블에에서 나열 됩니다.
1. 준비 데이터 매트릭스 레이블 클래스
2. 로드 데이터 매트릭스 레이블 클래스
3. 요약 하 고 데이터 집합의 기준선 통계 표시
4. 클래스 레이블 및 상위권 기능의 수를 결정
5. 다른 공연에 대 한 시스템 매개 변수 조정
6. 파이프라인을 실행 하 고 대화식 시각화 된 결과
7. 3 차원 분산형 플롯 시각화를 해석합니다 하 고 마찬가지로 효과적 이진 분류 공연 3 차원 분산형 플롯을 사용 하 여 기능 하위 집합을 해석
8. 찾기 진 주석 및 인간 질병의 그들의 협회
참고: 8 ~ 10 단계는 DNA와 단백질의 시퀀스 레벨에서 유전자에 주석을 추가 하는 방법을 보여주는 것입니다. 첫째, 위의 단계에서 각 바이오 마커 ID의 유전자 상징 데이비드32, 데이터베이스에서 검색 됩니다 하 고 두 명의 대표 웹 서버 각각의 DNA와 단백질 수준에서이 유전자 기호를 분석 하는 데 사용 됩니다. 서버 GeneCard 주어진된 유전자 기호의 포괄적인 기능 주석 하며 남자 데이터베이스 (OMIM)에 있는 온라인 Mendelian 상속 질병 유전자 협회의 가장 포괄적인 변호사를 제공 합니다. UniProtKB 서버는 가장 포괄적인 단백질 데이터베이스 중 하나 이며 서버 그룹 기반 예측 시스템 (GPS)는 신호 인 산화의 매우 큰 목록이 kinases의 예측.
9. 주석이 인코딩된 단백질과 포스트 번역 상 수정
10. 주석을 단백질 단백질 상호 작용 및 그들의 풍부한 기능 모듈
11. 생성 된 바이오 마커 하위 집합 및 시각화 플롯 수출
이 워크플로 (그림 6)의 목표는 이진 분류 데이터 집합에 대 한 유사한 효율성으로 여러 바이오 마커 하위 집합을 검색 하는입니다. 전체 과정은 두 개의 예제 데이터 집합 ALL1 및 ALL2 최근 출판 바이오 마커 검출에서 추출 연구12,48에 의해 나와 있습니다. 사용자는 보조 자료에 지시에 따라 kSolutionVis를 설치?...
이 연구는 이진 분류 사용자 지정 데이터 집합의 따라 하기 쉬운 멀티 솔루션 바이오 마커 검출 및 특성화 프로토콜을 제공합니다. 소프트웨어는 사용자와 소프트웨어의 GUI를 사용 하 여 쉽게 그들의 데이터 집합을 조사 하는 생물 의학 연구원을 수 있도록 다양 한 파일 형식에 대 한 유연한 가져오기/내보내기 인터페이스에 중점을 둔다. 이 연구는 또한 유사 하 게 효과적인 모델링 공연, 이전 많?...
우리는이 보고서와 관련 된 충돌의 관심 있다.
이 작품은 중국 과학원 (XDB13040400)와 길 림 대학에서 시작 그랜트의 전략적 우선 순위 연구 프로그램에 의해 지원 되었다. 익명 검토자와 생물 의학 테스트 사용자 유용성 및 kSolutionVis의 기능 개선에 그들의 건설적인 의견을 주셔서 감사 했다.
Name | Company | Catalog Number | Comments |
Hardware | |||
laptop | Lenovo | X1 carbon | Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU |
Name | Company | Catalog Number | Comments |
Software | |||
Python 3.0 | WingWare | Wing Personal | Any python programming and running environments support Python version 3.0 or above |
JoVE'article의 텍스트 или 그림을 다시 사용하시려면 허가 살펴보기
허가 살펴보기This article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. 판권 소유