Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.
Method Article
Vorhandene Algorithmen erzeugen eine Lösung für ein Biomarker-Erkennung-Dataset. Dieses Protokoll zeigt die Existenz von mehreren ähnlich effektive Lösungen und stellt eine benutzerfreundliche Software zur biomedizinische Forscher untersuchen ihre Datensätze für die vorgeschlagene Herausforderung helfen. Informatiker können auch dieses Feature in ihren Biomarker Erkennungsalgorithmen vorsehen.
Biomarker-Erkennung ist eines der wichtigeren biomedizinische Fragen für High-Throughput "Omics" Forscher, und fast alle bestehenden Biomarker Erkennungsalgorithmen erzeugen ein Biomarker Teilmenge mit optimierter Performance-Messung für einen bestimmten Datensatz . Eine kürzlich durchgeführte Studie zeigte jedoch, die Existenz von mehreren Biomarker Teilmengen mit ähnlich wirksam oder sogar identische Klassifizierung Aufführungen. Dieses Protokoll stellt eine einfache und unkomplizierte Methode zur Erkennung von Biomarker-Teilmengen mit binären Klassifikation Aufführungen, besser als eine Benutzer-definierten Grenzwert. Das Protokoll besteht aus Datenaufbereitung und laden, Baseline Informationen Verdichtung, tuning-Parameter, Biomarker Screening, Ergebnis-Visualisierung und Interpretation, Biomarker gen Anmerkungen und Ergebnis und Visualisierung Ausfuhr an Publikationsqualität. Die vorgeschlagenen Biomarker screening-Strategie ist intuitiv und zeigt eine allgemeine Regel für Biomarker Erkennungsalgorithmen zu entwickeln. Eine benutzerfreundliche grafische Benutzeroberfläche (GUI) wurde entwickelt, mit Hilfe der Programmiersprache Python, Biomediziner direkten Zugriff auf ihre Ergebnisse zu ermöglichen. Den Quellcode und Handbuch des kSolutionVis können von http://www.healthinformaticslab.org/supp/resources.php heruntergeladen werden.
Binäre Klassifikation, einer der am häufigsten untersuchte und anspruchsvolle Data-mining-Probleme im biomedizinischen Bereich wird verwendet, um ein Klassifizierungsmodell ausgebildet auf zwei Gruppen von Proben mit der genauesten Diskriminierung Power1, bauen 2 , 3 , 4 , 5 , 6 , 7. big Data im biomedizinischen Bereich generiert hat jedoch die inhärente "große kleine PN" Paradigma, mit der Anzahl der Funktionen in der Regel viel größer als die Anzahl der Proben6,8,9. Biomediziner müssen daher die Funktion Dimension vor Nutzung der Klassifizierungsalgorithmen zur Vermeidung von overfitting Problem8,9zu reduzieren. Diagnose-Biomarker sind definiert als eine Teilmenge der erkannten Merkmale von gesunden Proben10,11Patienten einer bestimmten Krankheit zu trennen. Patienten sind in der Regel definiert als die positive Proben und die gesunden Kontrollpersonen sind definiert als der negative Proben12.
Jüngste Studien haben vorgeschlagen, daß es mehr als eine Lösung mit identisch oder ähnlich effektiv Einstufung Leistungen für eine biomedizinische Dataset-5. Fast alle Feature-Auswahl-Algorithmen sind deterministische Algorithmen, produzieren nur eine Lösung für das gleiche Dataset. Genetische Algorithmen können gleichzeitig mehrere Lösungen mit ähnlichen Leistungen erzeugen, aber sie noch versuchen, eine Lösung mit der besten Fitness-Funktion als die Ausgabe für einen bestimmten Datensatz13,14auswählen.
Feature-Auswahl-Algorithmen können etwa als Filter oder Wrapper12gruppiert werden. Ein Filter-Algorithmus wählt Top -k Funktionen geordnet nach ihrer einzelnen signifikante Assoziation mit der binären Klassenbezeichner basiert auf der Annahme, die Funktionen sind unabhängig von einander15,16,17 . Obwohl diese Annahme nicht für fast alle realen Datasets wahr hält, führt die heuristische Filterregel in vielen Fällen zum Beispiel die mRMR (minimale Redundanz und maximale Relevanz) Algorithmus, der Wilcoxon Test basierte Funktion Filtern (WRank) Algorithmus und die ROC (Empfänger Regelkennlinie) Handlung basiert (ROCRank)-Filterung Algorithmus. mRMR, ist eine effiziente Filter-Algorithmus, weil es nähert sich der kombinatorischen Schätzung-Problem mit einer Reihe von viel kleineren Problemen, im Vergleich zu der maximal-Abhängigkeit Feature Auswahlalgorithmus, von denen jede nur zwei Variablen beinhaltet, und Daher nutzt paarweise Joint Wahrscheinlichkeiten sind robuster18,19. Jedoch kann mRMR die Nützlichkeit der einige Funktionen unterschätzen, da es nicht die Interaktionen zwischen Objekten misst die Relevanz steigern können, und so vermisst einige Merkmalskombinationen, die einzeln nutzlos, aber eignen sich nur in Kombination. Der WRank Algorithmus berechnet eine nicht-parametrische Punktzahl wie diskriminierende eine Funktion zwischen zwei Klassen von Proben und ist bekannt für seine Robustheit für Ausreißer20,21. Darüber hinaus wertet der ROCRank-Algorithmus, wie bedeutend die Fläche unter der ROC-Kurve (AUC) eines bestimmten Merkmals für die untersuchten binäre Klassifikation Leistung22,23ist.
Auf der anderen Seite ein Wrapper wertet der vordefinierten Sichter Leistung einer gegebenen Funktion Teilmenge, iterativ durch heuristische Regel erzeugt und schafft die Funktion Teilmenge mit der besten Performance Messung24. Ein Wrapper in der Regel einen Filter in die Klassifizierung Leistung übertrifft aber läuft langsamer25. Beispielsweise verwendet die regularisiert Random Forest (RRF)26,27 Algorithmus gierige in der Regel durch die Auswertung der Features auf eine Teilmenge der Trainingsdaten an jedem zufälligen Wald Knoten, deren Funktion Bedeutung Partituren von der Gini-Index beurteilt werden . Die Wahl eines neuen Features werden benachteiligt, wenn die Informationsgewinnung, die der ausgewählten Features nicht bessert. Darüber hinaus die Vorhersage-Analyse für Microarrays (PAM)28,29 -Algorithmus auch eine Wrapper-Algorithmus berechnet einen Schwerpunkt für jeden der die Klassenbezeichner und wählt dann Eigenschaften gen Zentroide gegenüber der gesamten schrumpfen Klasse-Schwerpunkt. PAM ist robust für vorgelagerten Funktionen.
Mehrere Lösungen mit die höchste Klassifizierung Leistung können für alle angegebenen Dataset erforderlich sein. Erstens das Optimierungsziel eines deterministischen Algorithmus zeichnet sich durch eine mathematische Formel, z.B., minimalen Fehler Rate30, das ist nicht unbedingt ideal für biologische Proben. Zweitens kann ein Dataset mehrere, deutlich verschiedene Lösungen mit ähnlichen wirksam oder sogar identische Leistungen haben. Fast alle vorhandenen Feature Auswahl Algorithmen werden eine der folgenden Lösungen als die Ausgabe31zufällig auswählen.
Diese Studie wird ein Informatik analytische Protokoll für die Erzeugung von mehreren Feature Auswahl Lösungen mit ähnlichen Vorstellungen für jede gegebene binäre Klassifikation Dataset einführen. Wenn man bedenkt, dass die meisten Biomediziner mit informatischen Techniken oder Computer-Codierung nicht auskennen, wurde eine benutzerfreundliche grafische Benutzeroberfläche (GUI) entwickelt, um die schnelle Analyse von biomedizinischen binäre Klassifikation Datasets zu erleichtern. Das analytische Protokoll besteht aus Daten laden und zusammenfassen, tuning-Parameter Pipeline Ausführung und Ergebnis-Interpretationen. Mit einem einfachen Klick kann der Forscher die Biomarker Teilmengen und Publikationsqualität Visualisierung Grundstücke zu generieren. Das Protokoll wurde mit der Transkriptom zwei binäre Klassifikation Datensätze der akute lymphoblastische Leukämie (ALL), d. h., ALL1 und ALL212getestet. Die Datensätze der ALL1 und ALL2 wurden vom Broad Institute Genom Analyse Rechenzentrum, erhältlich bei http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi heruntergeladen. ALL1 enthält 128 Samples mit 12.625 Features. Von diesen Proben sind 95 B-Zelle alle und 33 sind T-Zell ALL. ALL2 umfasst 100 Proben mit 12.625 Funktionen sowie. Von diesen Proben gibt es 65 Patienten, die Rückfall erlitten und 35 Patienten, die nicht der Fall war. ALL1 war eine einfache binäre Klassifikation Dataset mit einer minimalen Genauigkeit von vier Filter und vier Wrapper, 96,7 % und 6 der 8 Feature Auswahl Algorithmen erreichen 100 %12. Während ALL2 ein schwieriger Dataset mit den oben genannten 8 Feature Auswahl Algorithmen nicht besser als 83,7 % Genauigkeit12zu erreichen war. Diese beste Genauigkeit wurde mit 56 Funktionen erkannt durch den Wrapper-Algorithmus, Korrelation basierende Funktion Auswahl (CFS) erreicht.
Hinweis: Das folgende Protokoll beschreibt die Details des analytischen Verfahrens Informatik und Pseudo-Codes der wichtigsten Module. Die automatische Analyse-System wurde mit Python-Version 3.6.0 und die Python-Module-Pandas, Abc, Numpy, Scipy, Sklearn, Sys, PyQt5, Sys, mRMR, Mathematik und Matplotlib entwickelt. In dieser Studie verwendeten Materialien sind in der Tabelle der Materialienaufgeführt.
1. Vorbereiten der Data-Matrix-Klasse Etiketten und
2. Legen Sie die Data-Matrix-Klasse Etiketten und
(3) zusammenfassen und die Baseline-Statistik des Datasets anzeigen
4. bestimmen Sie die Klassenbezeichner und die Anzahl der Top-Rankings Features
5. Melodie Systemparameter für verschiedene Leistungen
6. führen Sie die Pipeline und die interaktive VISUALISIERTE Ergebnisse
(7) interpretieren Sie die 3D Scatter Plots visualisieren und interpretieren Sie die Funktion Teilmengen mit ähnlich effektiv binäre Klassifikation Performances mit 3D Streudiagrammen
8. finden Sie gen Anmerkungen und ihre Verbände mit Krankheiten des Menschen
Hinweis: Schritte 8 bis 10 werden ein Gen aus der Sequenz Ebene von DNA und von Protein Anmerkungen zu erläutern. Erstens die Gen-Symbol der Biomarker-ID aus den oben genannten Schritten wird aus der Datenbank DAVID32abgerufen werden, und dann zwei repräsentativen Web-Server werden verwendet, um dieses Gen Symbol aus den Ebenen von DNA und Proteinen, bzw. zu analysieren. Der Server GeneCard bietet eine umfassende funktionale Annotation eines bestimmten Gens-Symbols, und die Online Mendelian Erbschaft im Mann-Datenbank (OMIM) bietet die umfassendste Kuration der Krankheit-gen Verbände. Der Server UniProtKB ist eines der umfassendsten Proteindatenbank und Server Gruppenbasierte Vorhersage System (GPS) prognostiziert die Signalisierung Phosphorylierung des für eine sehr große Liste der Kinasen.
(9) kommentieren Sie die kodierten Proteine und die Post-translationalen Modifikationen
10. mit Anmerkungen versehen Sie, Protein-Protein-Wechselwirkungen und ihre angereicherten Funktionsmodule
11. export generierten Biomarker Teilmengen und die Visualisierung Grundstücke
Das Ziel dieses Workflows (Abbildung 6) ist, mehrere Biomarker Teilmengen mit ähnlichen Effizienzen für eine binäre Klassifikation Dataset zu erkennen. Der gesamte Prozess wird durch zwei Beispiel-Datasets ALL1 und ALL2 extrahiert aus einem kürzlich erschienenen Biomarker-Erkennung12,48Studie veranschaulicht. Ein Benutzer kann kSolutionVis installieren, indem Sie die Anweisungen in den ergänzende...
Diese Studie bietet eine einfach zu befolgende Multi-Lösung Biomarker Erkennung und Charakterisierung Protokoll für eine benutzerspezifische binäre Klassifikation Dataset. Die Software setzt Schwerpunkt auf Benutzerfreundlichkeit und flexible Import-/Export-Schnittstellen für verschiedene Datei-Formate, so dass biomedizinische Forscher, ihre Dataset einfach über die Benutzeroberfläche der Software zu untersuchen. Dieser Studie betont auch, dass mehr als eine Lösung mit ähnlich effektiv Modellierung Aufführungen,...
Wir haben keine Interessenkonflikte im Zusammenhang mit diesem Bericht.
Diese Arbeit wurde durch die strategische Priorität Forschungsprogramm von der chinesischen Akademie der Wissenschaften (XDB13040400) und die Start-Zuschuss von Jilin-Universität unterstützt. Anonymen Gutachtern und biomedizinische Tests Benutzer wurden für ihre konstruktive Kritik zur Verbesserung der Benutzerfreundlichkeit und Funktionalität des kSolutionVis geschätzt.
Name | Company | Catalog Number | Comments |
Hardware | |||
laptop | Lenovo | X1 carbon | Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU |
Name | Company | Catalog Number | Comments |
Software | |||
Python 3.0 | WingWare | Wing Personal | Any python programming and running environments support Python version 3.0 or above |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten