Bu içeriği görüntülemek için JoVE aboneliği gereklidir. Oturum açın veya ücretsiz deneme sürümünü başlatın.
Method Article
Varolan algoritmaları bir biyomarker algılama veri kümesi için bir çözüm oluşturur. Bu iletişim kuralı birden çok benzer şekilde etkin çözümler varlığını gösterir ve Biyomedikal araştırmacılar onların veri kümeleri için önerilen meydan okumak araştırmak için kullanımı kolay bir yazılım sunar. Bilgisayar mühendisleri, algılama algoritmaları onların biyomarker bu özelliği de sağlayabilir.
Biyomarker algılama yüksek üretilen iş 'omics' araştırmacılar için biyomedikal daha önemli sorulardan biri ve hemen hemen tüm varolan biyomarker algılama algoritmaları belirli bir veri kümesi için en iyi duruma getirilmiş performans ölçümü ile bir biyomarker alt küme küme küme oluşturma . Ancak, yeni yapılan bir çalışmada birden çok biyomarker alt kümeleri bile aynı ya da benzer şekilde etkili sınıflandırma performansları ile varlığını gösterdi. Bu iletişim kuralı biyomarker alt kümeleri ile ikili sınıflandırma performansları, Kullanıcı tanımlı bir kesim iyi tespit için basit ve anlaşılır bir metodoloji sunar. Veri hazırlama ve yükleme, temel bilgileri özetleme, parametre ayarlama, biyomarker tarama, sonuç görselleştirme ve yorumu, biyomarker gen ek açıklamaları ve sonuç ve görselleştirme ihracat, protokol oluşur yayın kalitesi. Strateji eleme önerilen biyomarker sezgisel ve biyomarker algılama algoritmaları geliştirmek için genel bir kural gösterir. Bir Kullanıcı dostu grafik kullanıcı arabirimi (GUI) Python, biyomedikal araştırmacılar bunların sonuçları doğrudan erişmesini sağlayan programlama dilini kullanarak geliştirilmiştir. Kaynak kodu ve manuel kSolutionVis kullanımı-ebilmek var olmak downloaded--dan http://www.healthinformaticslab.org/supp/resources.php.
İkili sınıflandırma, en yaygın olarak incelenmiş ve zorlu veri madenciliği Biyomedikal alanında sorunlar örneklerinin en doğru ayrımcılık güç1, iki gruplar eğitimli bir sınıflandırma modelini oluşturmak için kullanılır 2 , 3 , 4 , 5 , 6 , 7. Biyomedikal alanında oluşturulan büyük veri doğasında olan "büyük p küçük n" have paradigma, özellikler genellikle daha örnekleri6,8,9sayısından daha büyük sayıda. Bu nedenle, biyomedikal araştırmacılar overfitting sorun8,9önlemek için sınıflandırma algoritmaları kullanan önce özelliği boyut azaltmak zorunda. Tanı biyolojik tespit edilen özellikleri belirli bir hastalık hastaların sağlıklı kontrol örnekleri10,11ayıran bir alt olarak tanımlanır. Hastalar genellikle olumlu örnek olarak tanımlanır ve sağlıklı kontrol olumsuz örnekleri12olarak tanımlanır.
Son yıllarda yapılan çalışmalarda ile aynı veya benzer şekilde etkili sınıflandırma performansları Biyomedikal veri kümesi5için birden fazla çözüm var olduğunu ileri sürmüşlerdir. Hemen hemen tüm özellik seçimi algoritmalar aynı veri kümesi için tek bir çözüm üreten deterministik algoritmalar vardır. Genetik algoritmalar aynı anda birden çok çözümü benzer performanslar ile oluşturabilir, ama onlar hala bir çözüm en iyi fitness işleviyle bir belirli veri kümesi13,14için çıktı olarak seçmeye çalışın.
Özellik seçimi algoritmaları kabaca filtreleri veya sarmalayıcılar12olarak gruplandırılabilir. Üst -k özellikleri onların anlamlı bireysel ilişki özellikleri duymadığını ikili sınıf etiketlerle tarafından sıralanır her diğer15,16,17 bağımsız bir filtre algoritması seçilirse . Her ne kadar bu varsayım için hemen hemen tüm gerçek veri gerçek tutmaz, sezgisel filtre kuralı de çoğu zaman, örneğin, mehmet (en az artıklık ve en büyük alaka) algoritması, Wilcoxon testi temel özelliği (WRank) filtreleme gerçekleştirir algoritma ve ROC (alıcı çalışma özelliği) Arsa dayalı (ROCRank) filtreleme algoritması. Mehmet, çünkü bir verimli filtre algoritması her biri yalnızca iki değişken içerir, maksimum-bağımlılık özellik seçim algoritması karşılaştırarak daha küçük sorunları bir dizi Kombinatorik tahmini sorun yaklasik ve Bu nedenle daha sağlam18,19olan ikili ortak değerler kullanır. Ancak, mehmet alaka artırabilir ve böylece ayrı ayrı işe yaramıyor ama zaman sadece birlikte yararlı bazı özellik birleşimler özlüyor özellikleri arasındaki etkileşimler ölçmek değil gibi bazı özellikler kullanışlılığı hafife. WRank algoritma nasıl discriminative bir özellik örnekleri iki sınıf arasında ve onun sağlamlık outliers20,21için bilinen, parametrik olmayan bir puan hesaplar. Ayrıca, ne kadar önemli, belirli bir özellik alanı altında ROC eğrisi (AUC) için incelenen ikili sınıflandırma performans22,23' tür ROCRank algoritması değerlendirir.
Öte yandan, bir sarmalayıcı yinelemeli olarak sezgisel bir kural tarafından oluşturulan bir belirli özellik alt önceden tanımlı Sınıflandırıcısı'nın performansını değerlendirir ve en iyi performans ölçüm24ile özelliği alt küme küme küme oluşturur. Bir sarmalayıcı genellikle filtre sınıflandırma performans olarak daha iyi performans ancak daha yavaş25çalışır. Örneğin, bir alt kümesi olan özellik önem skorları Gini endeksi tarafından değerlendirilir her rasgele orman düğümdeki eğitim verileri özellikleri değerlendirerek açgözlü bir kural, düzenlenmesine yardımcı olmuştur rasgele orman (RRF)26,27 algoritmasını kullanır . Da bilgi kazanç bu seçilen özelliklerin düzelmezse yeni bir özellik seçimi cezalandırılır. Ayrıca, Microarrays (PAM)28,29 algoritması, ayrıca bir sarmalayıcı algoritması için tahmin analiz bir centroid her sınıf etiketleri için hesaplar ve sonra gene cisimlerin genel doğru daraltmak için özellikleri seçer sınıf centroid. PAM için dış özellikler sağlamdır.
Üst sınıflandırma performansı ile birden çok çözümü verilen herhangi bir veri kümesi için gerekli olabilir. İlk olarak, belirli bir algoritma en iyi duruma getirme amacı bir matematiksel formül, Örneğin, minimum hata oranı30, tarafından mutlaka biyolojik örnekler için ideal olan değil tanımlanır. İkinci olarak, bir veri kümesi birden fazla, önemli ölçüde farklı çözümler benzer etkili veya bile aynı performansları ile olabilir. Hemen hemen tüm varolan özellik seçimi algoritmaları Bu çözümlerden birini rasgele çıktı31seçecektir.
Bu çalışma için kullanılan herhangi bir verilen ikili sınıflandırma veri kümesi için benzer performansları ile birden çok özellik seçimi çözümleri üreten bir bilişim analitik Protokolü tanıtacak. En Biyomedikal araştırmacıları bilişim teknikleri veya bilgisayar kodlama aşina olmayan göz önüne alındığında, bir Kullanıcı dostu grafik kullanıcı arabirimi (GUI) Biyomedikal ikili sınıflandırma veri kümeleri hızlı analiz kolaylaştırmak için geliştirilmiştir. Analitik protokolü veri yükleme ve özetleme, parametre ayarlama, boru hattı yürütme ve sonuç yorumların oluşur. Basit bir tıklama ile araştırmacı biyomarker alt kümeleri ve yayın kalitesinde görselleştirme araziler oluşturmak yapabiliyor. Protokol iki ikili sınıflandırma veri kümeleri, akut lenfoblastik lösemi (ALL), yani, ALL1 ve ALL212transcriptomes kullanarak test edilmiştir. ALL1 ve ALL2 veri kümeleri Merkezi'nden Broad Enstitüsü genom veri analizi, http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi kullanılabilir indirilmiş. ALL1 12,625 özellikleri ile 128 örnekleri içerir. Bu, 95 B hücreli örneklerdir tüm ve 33 T hücreli olan tüm. ALL2 100 örnek 12,625 özellikleri de içerir. Bu örnekleri nüks yaşadı 65 hasta ve did değil 35 hasta vardır. ALL1 bir kolay ikili sınıflandırma veri kümesi, dört filtreler ve dört sarmalayıcılar %96.7 ve % 10012elde 8 Özellik seçimi algoritmalarının 6 olmak en az bir doğruluk ile yapıldı. ALL2 %83.7 doğruluk12' den daha iyi ulaşmak yukarıda 8 Özellik seçimi algoritmaları ile daha zor bir veri kümesi iken. Bu en iyi doğruluk 56 özelliklerle korelasyon tabanlı özellik seçimi (CFS) sarmalayıcı algoritması tarafından algılanan sağlanır.
Not: Aşağıdaki protokol sözde büyük modülleri kodlarının ve Bilişim analitik prosedür ayrıntılarını açıklar. Python sürümü 3.6.0 ve Python modülleri pandalar, abc, numpy, be, sklearn, sys, PyQt5, sys, mehmet, matematik ve matplotlib kullanarak otomatik olarak analiz sistemi geliştirilmiştir. Bu çalışmada kullanılan malzemeler Malzemeler tablolistelenir.
1. veri matris hazırlayın ve sınıf etiketleri
2. yük veri matris ve sınıf etiketleri
3. özetlemek ve veri kümesinin temel istatistikleri görüntüleme
4. sınıf etiketleri ve üst sıralarda yer alan özelliklerden belirlemek
5. Sistem parametreleri için farklı performanslar nağme
6. koşmak belgili tanımlık boru hattı ve etkileşimli GÖRÜNTÜLENMEYECEKTİR sonuçlar üretmek
7. yorumlamak 3D Scatter araziler görselleştirmek ve özellik alt kümeleri 3D Scatter araziler kullanma benzer şekilde etkili ikili sınıflandırma performansları ile yorumlamak
8. gen ek açıklamaları ve insan hastalıkları ile onların dernekler bulmak
Not: Adımları 8-10 bir genin DNA ve protein dizi düzeyinden ek açıklama eklemek nasıl gösterilmektedir. İlk olarak, yukarıdaki adımları her biyomarker kimliğinden gen sembolü DAVID32veritabanından alınır ve sonra iki temsilcisi web sunucusu düzeyde DNA ve protein, bu gen sembolünden sırasıyla analiz etmek için kullanılır. Sunucu GeneCard bir kapsamlı işlevsel ek açıklama verilen gen sembolü, ve Online Mendel kalıtımı adam veritabanında (OMIM) hastalığı-gen derneklerin en kapsamlı küratörlüğü sağlar. Sunucunun UniProtKB en kapsamlı protein veritabanı biridir ve sunucu grup tabanlı tahmin sistemi (GPS) sinyal fosforilasyon'ın çok büyük bir listesi için kinaz öngörür.
9. kodlanmış proteinler ve translasyonel modifikasyonlar ek açıklama eklemek
10. Protein-Protein etkileşimleri ve zenginleştirilmiş fonksiyonel modülleri ek açıklama eklemek
11. ihracat biyomarker oluşturulan alt kümeleri ve görselleştirme araziler
Bu iş akışı (Şekil 6) ikili sınıflandırma veri kümesi için benzer verimliliği ile birden fazla biyomarker alt kümeleri bulmak için hedeftir. Tüm süreç iki örnek veri kümeleri tarafından ALL1 ve bir biyomarker basılmış algılama çıkarılan ALL212,48çalışma gösterilmiştir. Kullanıcı-ebilmek install kSolutionVis ek materyalleri yönergeleri takip ederek.
Bu çalışmada bir ikili sınıflandırma Kullanıcı tarafından belirtilen veri kümesi için bir takip etmek kolay çok çözüm biyomarker algılama ve karakterizasyonu Protokolü sunar. Yazılım kullanım kolaylığı ve esnek alma/verme arabirimleri Biyomedikal bir araştırmacı kolayca yazılım GUI kullanarak kendi veri kümesi araştırmak izin çeşitli dosya biçimleri için bir vurgu yapıyor. Bu çalışmada da benzer şekilde etkili modelleme performansları, daha önce birçok varolan biyomarker algıla...
Bu raporla ilgili hiçbir çatışması var.
Bu eser Çince Academy of Sciences (XDB13040400) ve başlangıç grant Jilin Üniversitesi stratejik öncelik araştırma programı tarafından desteklenmiştir. Adsız yorumcular ve Biyomedikal test kullanıcılar kullanılabilirlik ve kSolutionVis işlevselliğini geliştirmeye yönelik yapıcı yorumlar için takdir edildi.
Name | Company | Catalog Number | Comments |
Hardware | |||
laptop | Lenovo | X1 carbon | Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU |
Name | Company | Catalog Number | Comments |
Software | |||
Python 3.0 | WingWare | Wing Personal | Any python programming and running environments support Python version 3.0 or above |
Bu JoVE makalesinin metnini veya resimlerini yeniden kullanma izni talebi
Izin talebiThis article has been published
Video Coming Soon
JoVE Hakkında
Telif Hakkı © 2020 MyJove Corporation. Tüm hakları saklıdır