Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.
Method Article
Les algorithmes existants génèrent une seule solution pour un dataset de détection des biomarqueurs. Ce protocole ne démontre l’existence de plusieurs solutions de même efficaces et présente un logiciel convivial pour aider les chercheurs biomédicaux à enquêter sur leurs ensembles de données pour le défi proposé. Informaticiens peuvent également fournir cette fonctionnalité dans leur biomarqueur des algorithmes de détection.
Détection des biomarqueurs est l’une des plus importantes questions biomédicales pour les chercheurs de haut-débit « omiques », et presque tous les algorithmes de détection des biomarqueurs existants génèrent un sous-ensemble de biomarqueurs à la mesure des performances optimisées pour un dataset donné . Cependant, une récente étude a démontré l’existence de plusieurs sous-ensembles de biomarqueurs avec des représentations de la classification de la même façon efficace ou même identiques. Ce protocole présente une méthodologie simple et directe pour détecter des sous-ensembles de biomarqueurs avec des performances de classification binaire, mieux qu’un seuil défini par l’utilisateur. Le protocole se compose de préparation des données et chargement, synthèse d’information base, paramètre tuning, dépistage de biomarqueurs, visualisation du résultat et interprétation, biomarqueur gène annotations et exportation de résultat et de la visualisation à qualité de publication. Le projet biomarqueur stratégie de dépistage est intuitif et illustre une règle générale pour le développement d’algorithmes de détection des biomarqueurs. Une facile à utiliser interface graphique (GUI) a été développée en utilisant le langage de programmation Python, permettant ainsi aux chercheurs biomédicaux d’avoir un accès direct à leurs résultats. Le manuel de kSolutionVis et le code source peuvent être téléchargés de http://www.healthinformaticslab.org/supp/resources.php.
La classification binaire, un des plus couramment étudiée et exploration des problèmes dans le domaine biomédical, de données difficiles est utilisé pour générer un modèle de classification formé sur deux groupes d’échantillons avec la plus exacte la discrimination puissance1, 2 , 3 , 4 , 5 , 6 , 7. Toutefois, les grandes données générées dans le domaine biomédical ont l’inhérente « grand p petit n » paradigme, avec le nombre de fonctions généralement beaucoup plus grandes que le nombre d’échantillons de8,6,9. Par conséquent, chercheurs biomédicaux doivent réduire la dimension de l’élément avant d’utiliser les algorithmes de classement afin d’éviter le surapprentissage problème8,9. Biomarqueurs de diagnostic sont définies comme un sous-ensemble de fonctionnalités détectées séparant les patients d’une maladie donnée de contrôle sain échantillons10,11. Les patients sont généralement définis comme les échantillons positifs, et les contrôles sains sont définis comme les échantillons négatifs12.
Des études récentes ont suggéré qu’il existe plus d’une solution avec des performances identiques ou de même efficace de classification d’un ensemble de données biomédicales5. Presque tous les algorithmes de sélection de fonctionnalité sont les algorithmes déterministes, ne produisant qu’une seule solution pour le même groupe de données. Algorithmes génétiques peuvent générer simultanément des solutions multiples avec des performances similaires, mais ils essaient toujours de choisir une solution avec la meilleure fonction de remise en forme comme sortie pour un dataset donné13,14.
Algorithmes de sélection de fonction peuvent être regroupés à peu près comme les filtres ou les wrappers12. Un algorithme de filtrage choisit lesk caractéristiques de haut - rang par leur importante association particulière avec les étiquettes de classe binaire fondée sur l’hypothèse que les caractéristiques sont indépendants des uns des autres15,16,17 . Bien que cette hypothèse ne tient-elle pas vraie pour presque tous les ensembles de données réelles, la règle de filtrage heuristique effectue bien dans de nombreux cas, par exemple, l’algorithme de Lagarde (redondance Minimum et Maximum de pertinence), le test basé de Wilcoxon fonctionnalité filtrage (WRank) l’algorithme et l’intrigue ROC (Receiver fonctionnement characteristic) basent algorithme de filtrage (ROCRank). Lagarde, est un algorithme de filtrage efficace parce qu’il rapproche du problème combinatoire d’estimation avec une série de problèmes beaucoup plus petites, en comparant à l’algorithme de sélection de fonctionnalité maximum et de dépendance, dont chacun comporte seulement deux variables, et utilise donc des probabilités mixte par paires qui sont plus robustes18,19. Cependant, mRMR peut-être sous-estimer l’utilité de certaines fonctions, comme il ne mesure pas les interactions entre les éléments qui peuvent augmenter la pertinence et donc ne manque certaines combinaisons de fonctionnalités qui sont individuellement inutile mais sont utiles uniquement lorsqu’il est combiné. L’algorithme de WRank calcule un score non paramétrique de comment discriminatoire une caractéristique se situe entre deux catégories d’échantillons et est connue pour sa robustesse pour les valeurs aberrantes20,21. En outre, l’algorithme ROCRank évalue quelle est l’importance de la zone sous le ROC courbe (AUC) d’une fonctionnalité particulière est pour la classification binaire enquête performance22,23.
En revanche, un wrapper évalue le rendement du classifieur prédéfinis d’un sous-ensemble de la fonctionnalité donnée, itérativement généré par une règle heuristique et crée le sous-ensemble de la fonctionnalité avec le meilleur rendement mesure24. Généralement, un wrapper surpasse un filtre dans l’exercice de classification mais s’exécute plus lentement25. Par exemple, l’algorithme de27 26,forêt aléatoire régularisé (RRF) utilise une règle gourmande, en évaluant les fonctionnalités sur un sous-ensemble des données d’entraînement à chaque nœud de la forêt au hasard, dont scores d’importance caractéristique sont évalués par l’indice de Gini . Le choix d’une nouvelle fonctionnalité sera pénalisé si son gain d’information ne s’améliore pas que des caractéristiques choisies. En outre, l’analyse de prédiction pour Microarrays (PAM)28,29 algorithme, aussi un algorithme de wrapper, calcule un centroïde pour chacune des étiquettes de classe et sélectionne ensuite les fonctions à rétrécir les centroïdes de gène vers l’ensemble barycentre de la classe. PAM est robuste pour les fonctionnalités communes.
Des solutions multiples avec la performance de classification supérieure peuvent être nécessaires pour n’importe quel dataset donné. Tout d’abord, l’objectif d’optimisation d’un algorithme déterministe est définie par une formule mathématique, par exemple, erreur minimum taux30, qui n’est pas forcément idéal pour les échantillons biologiques. Deuxièmement, un groupe de données peut avoir des solutions sensiblement différentes, multiple, avec des performances similaires efficaces ou même identiques. Presque tous les algorithmes de sélection de fonctionnalité existante sélectionnera au hasard une de ces solutions comme la sortie31.
Cette étude mettra en place un protocole analytique informatique pour générer des solutions multiples de sélection de fonctionnalité avec des performances similaires pour n’importe quel dataset donné classification binaire. Considérant que les chercheurs biomédicaux plus ne sont pas familiers avec les techniques de l’informatiques ou le codage informatique, une facile à utiliser interface graphique (GUI) a été développée pour faciliter l’analyse rapide des ensembles de données biomédicales classification binaire. Le protocole analytique se compose de chargement des données et résumant, le réglage de paramètre, exécution du pipeline et interprétations du résultat. D’un simple clic, le chercheur est capable de générer des sous-ensembles de biomarqueurs et visualisation de qualité publication parcelles. Le protocole a été testé en utilisant les transcriptions des deux datasets classification binaire des leucémie lymphoblastique aiguë (ALL), c'est-à-dire, APE1 et les212. Les ensembles de données d’APE1 et les2 ont été téléchargés à partir du Broad Institute du génome Data Analysis Center, disponible à http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. APE1 contient 128 échantillons avec 12 625 caractéristiques. Ces échantillons, 95 sont des lymphocytes B tous et 33 sont des lymphocytes T tous. Les2 comprend 100 échantillons avec 12 625 caractéristiques ainsi. Parmi ces échantillons, il y a 65 patients qui ont souffert de rechute et 35 patients qui n’ont pas. APE1 était un dataset simple classification binaire, avec une précision de moins de quatre filtres et quatre enveloppes étant 96,7 % et 6 les algorithmes de sélection de 8 fonctionnalité réalisation 100 %12. Alors que les2 était un ensemble de données plus difficile, avec les algorithmes de sélection de 8 fonctionnalité ci-dessus réalisation pas mieux que 83,7 % précision12. Cette meilleure précision a été réalisée avec 56 caractéristiques détectés par l’algorithme de wrapper, sélection de fonctionnalité axée sur la corrélation (CFS).
Remarque : Le protocole suivant décrit les détails de la procédure analytique de l’informatique et des codes des modules principaux. Le système d’analyse automatique a été développé à l’aide de Python version 3.6.0 et les pandas de modules Python, abc, numpy, scipy, sklearn, sys, PyQt5, sys, Lagarde, math et matplotlib. Les matériaux utilisés dans cette étude sont énumérés dans la Table des matières.
1. préparer la matrice de données et étiquettes de classe
2. Chargez la matrice de données et étiquettes de classe
3. résumer et afficher les statistiques de base de l’objet Dataset
4. déterminer les étiquettes de classe et le nombre de fonctions de classement
5. accordez les paramètres système pour des Performances différentes
6. Exécutez le Pipeline et produire les résultats visualisés INTERACTIVE
7. interpréter les parcelles du nuage de points 3D-visualiser et interpréter les sous-ensembles de fonctionnalité avec des Performances de Classification binaire de même effectif à l’aide de diagrammes 3D
8. trouver des Annotations de gène et de leurs Associations avec des maladies humaines
Remarque : Les étapes 8 à 10 illustrera comment annoter un gène au niveau de la séquence de l’ADN et de protéines. Tout d’abord, le symbole de gène de chaque ID de biomarqueurs de l’étapes ci-dessus est récupéré de la base de DAVID32, et puis deux serveurs web représentatif seront utilisés pour analyser ce symbole de gène par rapport aux niveaux de l’ADN et de protéines, respectivement. Le serveur GeneCard fournit une annotation fonctionnelle globale d’un symbole de gène donné et l’hérédité mendélienne en ligne dans la base de données de l’homme (OMIM) fournit la curation plus complet des associations de gène de la maladie. Le serveur UniProtKB est l’un de la plus vaste base de données de protéine, et le serveur du système de prévision par groupe (GPS) prédit la signalisation phosphorylation pour une très grande liste de kinases.
9. annoter les protéines et les Modifications post-traductionnelles
10. annoter des Interactions protéine-protéine et leurs Modules fonctionnels enrichis
11. exporter les sous-ensembles de biomarqueurs généré et les parcelles de visualisation
L’objectif de ce flux de travail (Figure 6) est de détecter des sous-ensembles de biomarqueurs multiples avec une efficacité similaire pour un dataset de classification binaire. L’ensemble du processus est illustré par deux ensembles de données exemple APE1 et les2 extraites d’une détection des biomarqueurs publié récemment étudier12,48. Un utilisateur peut installer kSolutionVis en suiv...
Cette étude présente un protocole de détection et la caractérisation de facile-à-suivre la multi-solution biomarqueurs pour un dataset de classification binaire spécifié par l’utilisateur. Le logiciel met l’accent sur la convivialité et les interfaces souples import/export pour différents formats de fichiers, permettant à un chercheur en sciences biomédicales d’enquêter sur l’ensemble de leur données facilement à l’aide de l’interface graphique du logiciel. Cette étude souligne également la n?...
Nous n’avons aucun conflit d’intérêt concernant ce rapport.
Ce travail a été soutenu par le programme de recherche stratégique prioritaire de l’Académie chinoise des Sciences (XDB13040400) et la subvention de démarrage de l’Université de Jilin. Évaluateurs anonymes et les utilisateurs de tests biomédicaux ont été appréciés pour leurs commentaires constructifs sur l’amélioration de la convivialité et la fonctionnalité de kSolutionVis.
Name | Company | Catalog Number | Comments |
Hardware | |||
laptop | Lenovo | X1 carbon | Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU |
Name | Company | Catalog Number | Comments |
Software | |||
Python 3.0 | WingWare | Wing Personal | Any python programming and running environments support Python version 3.0 or above |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon