A subscription to JoVE is required to view this content. Sign in or start your free trial.
Method Article
קיימים אלגוריתמים לייצר פתרון אחד עבור dataset זיהוי ' סמן '. פרוטוקול זה מדגים את קיום פתרונות מרובים לתוצאה דומה ומציג תוכנה ידידותית למשתמש כדי לסייע לחוקרים ביו לחקור datasets שלהם בשביל האתגר המוצע. מדעני מחשב עשויים גם כן לספק תכונה זו בשלהם סמן זיהוי אלגוריתמים.
סמן זיהוי היא אחת מהשאלות ביו יותר חשוב לחוקרים תפוקה גבוהה 'טכנולוגיות"ולהפיק כמעט כל האלגוריתמים זיהוי סמן קיימת תת-קבוצה סמן אחד עם מדידה מיטביים עבור dataset נתון . עם זאת, מחקר שנערך לאחרונה הפגינו את קיום קבוצות משנה מרובים סמן עם הופעות סיווג לתוצאה דומה או אפילו זהה. פרוטוקול זה מציג מתודולוגיה פשוטה לגילוי קבוצות משנה סמן עם הופעות איבחונים, טוב יותר על-ידי המשתמש ניתוק. הפרוטוקול מורכב נתוני הכנה, טעינה, סיכום מידע תוכנית בסיסית, פרמטר הכוונון, סמן ההקרנה, תוצאה ויזואליזציה, פרשנות, סמן גנטי ביאורים, exportation תוצאה והדמיה - איכות הפרסום. סמן המוצע הקרנת אסטרטגיה הוא אינטואיטיבי ומדגים כללי לפיתוח אלגוריתמים גילוי סמן. ממשק משתמש גרפי ידידותי למשתמש (GUI) פותחה באמצעות שפת התיכנות פיתון, ומאפשר ביו לחוקרים יש גישה ישירה אל התוצאות שלהם. ניתן להוריד את קוד המקור ואת המדריך של kSolutionVis http://www.healthinformaticslab.org/supp/resources.php.
חקר איבחונים, נפוץ ביותר, כריית בעיות באזור ביו, מאתגר נתונים משמש לבניית מודל סיווג מאומן על שתי קבוצות של דגימות עם המדויקות ביותר אפליה כוח1, 2 , 3 , 4 , 5 , 6 , 7. עם זאת, הנתונים הגדול שנוצר בתחום הביו-רפואי יש את הגלום "גדול p קטנה n" הפרדיגמה, עם מספר תכונות בדרך כלל הרבה יותר גדול מאשר מספר דוגמאות6,8,9. לכן, חוקרים ביו יש להפחית את הממד תכונה לפני ניצול של אלגוריתמים כדי להימנע overfitting בעיה8,9. אבחון סמנים ביולוגיים מוגדרים קבוצת משנה של תכונות שזוהו המפריד בין המטופלים של מחלה נתונה מ בקרה בריאים דגימות10,11. חולים הם בדרך כלל מוגדר כ הדגימות החיוביות, הפקדים בריא מוגדרים דגימות שליליות12.
מחקרים שנעשו לאחרונה הראו כי קיים פתרון אחד או יותר עם הופעות סיווג זהים או לתוצאה דומה עבור ביו הנתונים (dataset)5. כמעט כל תכונה את האלגוריתמים הבחירה הם אלגוריתמים דטרמיניסטי, לייצר פתרון אחד בלבד ערכת הנתונים זהה. אלגוריתמים גנטיים בו-זמנית עשוי ליצור פתרונות מרובים עם הופעות דומות, אבל הם עדיין מנסים לבחור פתרון אחד עם הפונקציה כושר הכי טוב בתור הפלט עבור הנתונים (dataset) נתון13,14.
התכונה בחירה אלגוריתמים ניתן לקבץ בערך כמו מסננים או עטיפות12. אלגוריתם הסינון בוחר העליון -k התכונות מדורגת על ידי שיוכם בודדים משמעותית עם תוויות מחלקה בינארי מבוסס על ההנחה כי התכונות אינם תלויים אחד בשני15,16,17 . אף על פי הנחה זו לא מחזיקה נכון עבור כמעט כל datasets בעולם האמיתי, הכלל מסנן האוריסטי מבצע טוב במקרים רבים, למשל, האלגוריתם (מינימום יתירות והרלוונטיות המרבי) mRMR, Wilcoxon בדיקה בהתאם תכונת הסינון (WRank) אלגוריתם, ואת העלילה ROC (מאפיין ההפעלה מקלט) המבוסס על אלגוריתם הסינון (ROCRank). mRMR, הוא אלגוריתם יעיל מסנן כי זה קרוב הבעיה שערוך קומבינטורית עם סדרה של בעיות הרבה יותר קטן, השוואת מרבי-תלות תכונה בחירת אלגוריתם, שכל אחד מהם כרוך רק שני משתנים, ו לכן משתמש pairwise הסתברויות משותף אשר הם עמידים יותר18,19. עם זאת, mRMR עשוי לזלזל התועלת של תכונות מסוימות כמו זה לא למדוד את האינטראקציות בין תכונות אשר יכול להגביר את הרלוונטיות, ובכך מחטיא כמה שילובים תכונה חסרי תועלת בנפרד, אבל הם שימושיים רק כאשר משולב. האלגוריתם WRank חישוב ציון פרמטרית של איך שמסווגת תכונה בין שתי מחלקות של דגימות, והוא ידוע בזכות החוסן שלה ליניאריים20,21. יתר על כן, האלגוריתם ROCRank מעריך כמה משמעותית האזור תחת ROC העקומה (AUC) של תכונה מסוימת היא איבחונים ובדוקים ביצועים22,23.
מצד שני, עטיפת מוערך של המסווג מוגדרים מראש הביצועים של תת-ערכה תכונה נתונה, iteratively שנוצר על ידי כלל היריסטי, ויוצר את ערכת המשנה של תכונה עם מדידת הביצועים הטובה ביותר24. עטיפת בדרך כלל outperforms מסנן הביצועים סיווג אך פועל לאט יותר25. לדוגמה, האלגוריתם27 26,היער אקראי התפלגות (RRF) משתמש כלל חמדן, המעריכה את התכונות על קבוצת משנה של הנתונים הדרכה בכל צומת יער אקראי, ציונים החשיבות של מי תכונה מוערכים על ידי מדד גיני . הבחירה של תכונה חדשה נענש אם שלה רווח מידע לא לשפר את התכונות שבחרת. בנוסף, הניתוח חיזוי עבור מיקרו-מערכים (פאם)28,אלגוריתם29 , גם באלגוריתם מעטפת, מחשבת של centroid עבור כל התוויות מחלקה ובוחרת ואז תכונות כדי לכווץ את centroids ג'ין כלפי הכולל הכיתה centroid. . פאם היא חזקה עבור תכונות המרוחקים.
פתרונות מרובים עם ביצועים סיווג העליון עשוי להיות נחוץ עבור כל ערכת נתונים נתונה. ראשית, המטרה אופטימיזציה של אלגוריתם דטרמיניסטי זו מוגדרת על ידי הנוסחה המתמטית, למשל, שיעור שגיאה מינימום30, אשר אינה בהכרח אידיאלי עבור דגימות ביולוגיות. שנית, dataset ייתכן מרובות, פתרונות שונים באופן משמעותי, עם הופעות דומות יעיל או אפילו זהים. כמעט כל תכונה קיימת בחירה אלגוריתמים יבחר אחד הפתרונות האלה באופן אקראי כמו פלט31.
מחקר זה תציג פרוטוקול אנליטית אינפורמטיקה ליצירת פתרונות הבחירה תכונה מרובים עם הופעות דומות עבור כל נתון איבחונים הנתונים (dataset). בהתחשב בכך כי החוקרים ביותר ביו אינם מכירים טכניקות informatic או בקידוד ממוחשב, ממשק משתמש גרפי ידידותי למשתמש (GUI) פותחה כדי להקל על הבדיקה המהירה של איבחונים ביו datasets. פרוטוקול אנליטית מורכבת טעינת נתונים המסכם, פרמטר הכוונון, צינור ביצוע ואת התוצאה פרשנויות. בלחיצה פשוטה, החוקר הוא מסוגל לייצר את סמן קבוצות משנה וחלקות ויזואליזציה באיכות פרסום. הפרוטוקול נבדקו באמצעות את transcriptomes של שני איבחונים datasets חריפה לימפוציטית לוקמיה (כל), דהיינו, ALL1 ו- ALL212. Datasets ALL1 ו ALL2 היו להוריד רחבה המכון הגנום ניתוח במרכז הנתונים, לרשותכם http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 מכיל דגימות 128 עם תכונות 12,625. הדוגמאות הללו, 95 נמצאים תאי B כל 33 הם T-cell כל. ALL2 כוללת 100 דגימות עם תכונות 12,625 גם כן. הדוגמאות הללו, ישנם חולים 65 שסבלו relapse ומטופלים 35 זה לא. ALL1 היה dataset איבחונים קל, עם דיוק המינימלי ארבעת עטיפות להיות 96.7% ו- 6 של אלגוריתמי הבחירה של תכונה 8 להשגת 100%12ומסננים ארבע. בעוד ALL2 היה dataset קשה יותר, עם תכונת 8 לעיל את הבחירה האלגוריתמים להשגת לא יותר 83.7% דיוק12. למידת הדיוק הזה הושג עם תכונות 56 זוהה על ידי האלגוריתם מעטפת, בחירת תכונה מבוססת קורלציה (CFS).
הערה: פרוטוקול הבאים מתאר את פרטי ההליך האנליטי אינפורמטיקה וקודים מדומה של המודולים העיקריים. מערכת ניתוח אוטומטיות פותחה באמצעות פיתון גרסה 3.6.0 ו פנדה מודולים של פייתון, abc, numpy, scipy, sklearn, sys, PyQt5, sys, mRMR, מתמטיקה, matplotlib. החומרים אשר השתמשו במחקר זה מפורטים בטבלה של חומרים.
1. מכינים את מטריצת נתונים ושיעור תוויות
2. לטעון את מטריצת נתונים ושיעור תוויות
3. יסכם ויציג את הסטטיסטיקה הבסיסית של הנתונים (dataset)
4. לקבוע את התוויות הכיתה ומספר תכונות המדורגים עליונים
5. לכוון את מערכת פרמטרים עבור הופעות שונות
6. הפעל את הצינור ולייצר את התוצאות מטמיעים אינטראקטיבי
7. לפרש את פיזור 3D המגרשים-דמיינו ולפרש תת-קבוצות תכונה עם הופעות איבחונים לתוצאה דומה באמצעות פיזור 3D חלקות
8. למצוא גנים ביאורים ואגודות שלהם עם מחלות אנושיות
הערה: השלבים 8-10 ימחיש כיצד להוסיף ביאורים גן מרמת רצף ה-DNA וחלבון. ראשית, סמל הגן של כל מזהה סמן מ שלעיל יאוחזרו ממסד הנתונים של דוד32ולאחר מכן שני שרתי אינטרנט נציג ישמש כדי לנתח את הסמל הזה ג'ין מן הרמות של ה-DNA וחלבון, בהתאמה. השרת GeneCard מספק לביאור תפקודית מקיפה של סמל הגן נתון, ומספק חוקי התורשה מקוון במסד אדם (OMIM) את curation המקיף ביותר של המחלה-גן עמותות. שרת ה UniProtKB הוא אחד של המאגר המקיף ביותר של חלבון, וחוזה שרת מערכת חיזוי מבוססות קבוצה (GPS) איתות זירחון של רשימה גדולה מאוד של kinases.
9. הוספת ביאורים החלבונים מקודד ואת השינויים Post-Translational
10. להוסיף ביאורים אינטראקציות חלבון-חלבון ומודולים פונקציונלי מועשר שלהם
11. לייצא קבוצות משנה סמן שנוצר, החלקות ויזואליזציה
המטרה של זרימת עבודה זו (איור 6) היא לזהות קבוצות משנה מרובים סמן בעזרת יעילות דומה עבור dataset איבחונים. התהליך כולו מודגם על ידי שני datasets דוגמה ALL1, ALL2 מופק של זיהוי התפרסמו לאחרונה סמן ללמוד12,48. משתמש יכול להתקין kSolutionVis על פי ה...
מחקר זה מציג פרוטוקול זיהוי ואפיון של easy-to-בצע פתרון רב סמן עבור dataset איבחונים מוגדרים על-ידי המשתמש. התוכנה שמה דגש על ידידותיות למשתמש ממשקים גמיש ייבוא/ייצוא בתבניות קובץ שונות, ומאפשר חוקרת ביו לחקור את הנתונים (dataset) בקלות באמצעות GUI של התוכנה. מחקר זה מדגיש גם את הצורך של יצירת פתרון אחד...
יש לנו שאין ניגודי אינטרסים הקשורים בדו ח זה.
עבודה זו נתמכה על-ידי התוכנית האסטרטגית של מחקר עדיפות של האקדמיה הסינית למדעים (XDB13040400) ואת המענק הפעלה מאוניברסיטת ג'ילין. הסוקרים אנונימיים ומשתמשים בדיקות ביו היו להערכה על הערותיהם בונה על שיפור את השימושיות ואת הפונקציונליות של kSolutionVis.
Name | Company | Catalog Number | Comments |
Hardware | |||
laptop | Lenovo | X1 carbon | Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU |
Name | Company | Catalog Number | Comments |
Software | |||
Python 3.0 | WingWare | Wing Personal | Any python programming and running environments support Python version 3.0 or above |
Request permission to reuse the text or figures of this JoVE article
Request PermissionThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. All rights reserved