A subscription to JoVE is required to view this content. Sign in or start your free trial.
Method Article
الخوارزميات الموجودة إيجاد حل واحد لمجموعة بيانات الكشف عن العلامات البيولوجية. هذا البروتوكول يوضح وجود حلول فعالة وبالمثل متعددة ويقدم برمجيات سهلة الاستخدام لمساعدة الباحثين الطبية التحقيق على مجموعات البيانات لتحدي المقترحة. علماء الكمبيوتر قد توفر هذه الميزة في العلامات البيولوجية على خوارزميات الكشف.
الكشف عن العلامات البيولوجية واحدة من المسائل الطبية البيولوجية أكثر أهمية للباحثين الفائق 'اوميكس'، وتقريبا جميع خوارزميات الكشف عن العلامات البيولوجية الموجودة تولد فرعية العلامات البيولوجية واحدة بقياس الأداء الأمثل لمجموعة معينة من البيانات . بيد أن دراسة أجريت مؤخرا أظهر وجود عدة مجموعات فرعية العلامات البيولوجية مع تصنيف فعالة وبالمثل أو حتى مطابقة العروض. ويقدم هذا البروتوكول منهجية بسيطة ومباشرة للكشف عن العلامات البيولوجية مجموعات فرعية مع العروض تصنيف ثنائي، أفضل من قطع المعرفة من قبل المستخدم. ويتكون البروتوكول من إعداد البيانات وتحميل تلخيص معلومات خط الأساس، ضبط المعلمة، فحص العلامات البيولوجية، التصور نتيجة والتفسير، وشروح الجينات العلامات البيولوجية وتصدير النتيجة والتصور في نوعية المنشور. العلامات البيولوجية المقترحة فحص استراتيجية بديهية ويوضح قاعدة عامة لتطوير خوارزميات الكشف عن العلامات البيولوجية. تم تطوير واجهة مستخدم رسومية سهلة الاستخدام (GUI) باستخدام لغة البرمجة بايثون، السماح للباحثين الطبية الحيوية الوصول المباشر إلى نتائجها. يمكن تحميل التعليمات البرمجية المصدر والدليل من كسولوتيونفيس من http://www.healthinformaticslab.org/supp/resources.php.
التحقيق تصنيف ثنائي، واحدة من الأكثر استخداماً ويستخدم البيانات تحديا التعدين المشاكل في مجال الطب الحيوي، بناء نموذج تصنيف المدربين في مجموعتين من العينات مع الأكثر دقة التمييز السلطة1، 2 , 3 , 4 , 5 , 6 , 7-ومع ذلك، قد البيانات الكبيرة التي تم إنشاؤها في مجال الطب الحيوي الأصيل "كبير ف الصغيرة n" النموذج، مع العدد من الميزات التي عادة ما تكون أكبر بكثير من عدد العينات6،،من89. ولذلك، يلزم الباحثين الطب الحيوي تخفيض البعد ميزة قبل استخدام خوارزميات التصنيف لتجنب مشكلة8،أوفيرفيتينج9. يتم تعريف المؤشرات الحيوية التشخيص كمجموعة فرعية من الكشف عن ميزات فصل المرضى لمرض معين من مراقبة صحية عينات10،11. عادة ما يتم تعريف المرضى كعينات إيجابية، وضوابط صحية تم تعريفها ك عينات سلبية12.
وأشارت الدراسات الأخيرة أن هناك أكثر من حل واحد مع تصنيف متطابقة أو فعالة وبالمثل العروض ل مجموعة بيانات الطبية الحيوية5. تقريبا كل ميزة اختيار خوارزميات خوارزميات القطعية، المنتجة لحل واحد فقط لنفس مجموعة البيانات. الخوارزميات الجينية قد تولد في الوقت نفسه حلول متعددة مع عروض مماثلة، إلا أنها لا تزال في محاولة لتحديد حل واحد مع الدالة اللياقة البدنية أفضل كناتج13،dataset معطى14.
يمكن تجميع ميزة اختيار خوارزميات تقريبا ك مرشحات أو أغلفة12. ويختار خوارزمية تصفيةك ملامح أعلى-مرتبة حسب ارتباطها الفردية كبيرة مع التسميات الطبقة الثنائية على أساس الافتراض بأن ملامح مستقلة عن بعضها البعض15،16،17 . على الرغم من أن هذا الافتراض لا ينطبق على تقريبا جميع مجموعات البيانات في العالم الحقيقي، القاعدة عامل تصفية افتراضي يؤدي جيدا في كثير من الحالات، على سبيل المثال، الخوارزمية مرمر (التكرار الحد الأدنى والحد الأقصى أهمية)، التصفية ميزة الاختبار على أساس الرتبي (فرانك) الخوارزمية، وارسم ROC (خاصية التشغيل المتلقي) على أساس خوارزمية التصفية (روكرانك). مرمر، خوارزمية تصفية فعالة نظراً لأنه يقترب من مشكلة تقدير اندماجي مع سلسلة من المشاكل أصغر بكثير، مقارنة بالتبعية كحد أقصى ميزة تحديد خوارزمية، فقط كل منها ينطوي على اثنين من المتغيرات، و ولذلك يستخدم العشوائية الاحتمالات المشتركة التي هي أقوى18،19. ومع ذلك، قد مرمر نقلل من فائدة بعض الميزات كما أنها لا تقيس التفاعلات بين الميزات التي يمكن أن تزيد من أهميتها، وهكذا يفتقد بعض تركيبات ميزة منفردة عديمة الفائدة ولكنها مفيدة فقط عندما جنبا إلى جنب. خوارزمية فرانك يحسب نقاط غير حدودي التمييزية كيف ميزة بين فئتين من العينات، وتشتهر متانة للقيم المتطرفة20،21. وعلاوة على ذلك، تقيم خوارزمية روكرانك كيف كبيرة المنطقة تحت ROC المنحنى (AUC) لميزة معينة لتصنيف ثنائي التحقيق أداء22،23.
من ناحية أخرى، مجمع يقيم أداء المصنف المعرفة مسبقاً في مجموعة فرعية ميزة معينة، تكراري إنشاؤها بواسطة قاعدة الكشف عن مجريات الأمور، ويقوم بإنشاء مجموعة فرعية ميزة مع قياس الأداء أفضل24. مجمع عموما يتفوق عامل تصفية في أداء التصنيف ولكن يعمل أبطأ25. على سبيل المثال، يستخدم خوارزمية27 26،الغابات تنظيم عشوائي (الرد) قاعدة الجشع، بتقييم الميزات على مجموعة فرعية من البيانات التدريب في كل عقده الغابات العشوائية، عشرات أهمية الميزة التي يتم تقييمها بواسطة مؤشر جيني . اختيار سمة جديدة سوف يعاقب إذا لم تتحسن في كسب المعلومات أن من السمات المختارة. بالإضافة إلى ذلك، تحليل التنبؤ [ميكروارس] (بام)28،خوارزمية29 ، أيضا خوارزمية برنامج تضمين، يحسب centroid لكل تسميات الفئة، وثم تحديد ميزات لتقليص سينترويدس الجينات نحو الشاملة فئة centroid. أم قوي لميزات البعيدة.
قد يلزم حلول متعددة مع أداء أعلى تصنيف أي مجموعة معينة من البيانات. أولاً، يتم تعريف الهدف الأمثل خوارزمية قطعية صيغة رياضية، مثلاً، معدل خطأ الحد الأدنى30، التي ليست بالضرورة مثالية للعينات البيولوجية. ثانيا، قد يكون إحدى وحدات dataset حلول متعددة، تختلف اختلافاً كبيرا، مع الأداء الفعال أو حتى مطابقة مماثلة. تقريبا جميع خوارزميات اختيار ميزة موجودة عشوائياً تحديد واحد من هذه الحلول ك إخراج31.
وسوف أعرض هذه الدراسة بروتوكولا تحليلية المعلوماتية لتوليد ميزة اختيار حلول متعددة مع عروض مماثلة لأي تصنيف ثنائي معين dataset. إذ ترى أن الباحثين الطبية الأكثر ليسوا مطلعين على تقنيات المعلوماتية أو الكمبيوتر الترميز، وضعت واجهة مستخدم رسومية سهلة الاستخدام (GUI) لتسهيل التحليل السريع لمجموعات البيانات الطبية الحيوية تصنيف ثنائي. البروتوكول تحليلية يتكون من تحميل البيانات وتلخيص وضبط المعلمة وتنفيذ خط أنابيب وتفسيرات النتيجة. بنقرة بسيطة، الباحث قادراً على توليد مجموعات فرعية العلامات البيولوجية ومؤامرات التصور نوعية المنشور. تم اختبار البروتوكول استخدام ترانسكريبتوميس لمجموعات تصنيف ثنائي اثنين من الحاد الليمفاوي اللوكيميا (الكل)، أي، ALL1 و ALL212. مجموعات البيانات ALL1 و ALL2 تم تحميلها من قاعدة عريضة معهد الجينوم تحليل مركز البيانات، متاح على http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 يحتوي على عينات 128 مع ميزات 12,625. من هذه العينات، وهي 95 ب-الخلية هي جميعا و 33 تي خلية كافة. ALL2 يشمل 100 عينة مع ميزات 12,625 كذلك. من هذه العينات، وهناك 65 مريضا يعاني انتكاسة و 35 مريضا لم يكن. وكان ALL1 dataset من سهل تصنيف ثنائي، مع دقة الحد أدنى من أربع مرشحات وأربعة أغلفة يجري 96.7 في المائة، و 6 من خوارزميات انتقاء 8 ميزة تحقيق 100%12. وبينما كان ALL2 dataset أكثر صعوبة، مع خوارزميات اختيار 8 ميزة تحقيق ليس أفضل من دقة 83.7%12أعلاه. وقد تحقق هذا أفضل دقة مع ميزات 56 الكشف عنها بواسطة خوارزمية برنامج التضمين، اختيار ميزة المستندة إلى العلاقة (لجنة الأمن الغذائي).
ملاحظة: البروتوكول التالية توضح تفاصيل إجراءات تحليلية المعلوماتية ورموز الزائفة من وحدات رئيسية. واستحدث نظام التحليل التلقائي باستخدام بيثون الإصدار 3.6.0 والباندا وحدات بايثون، سي، نومبي، سسيبي، سكليرن، sys، PyQt5، sys، مرمر، الرياضيات وماتبلوتليب. وترد في الجدول للموادالمواد المستخدمة في هذه الدراسة.
1-إعداد مصفوفة البيانات والتسميات من الدرجة
2-تحميل مصفوفة البيانات والتسميات من الدرجة
3-تلخيص وعرض الإحصائيات الأساس لمجموعة البيانات
4-تحديد تسميات الفئة والعدد من السمات ذات الترتيب الأعلى
5-توليف معلمات نظام للعروض المختلفة
6-تشغيل خط الأنابيب، وتنتج نتائج تصور التفاعلية
7-تفسير 3D مبعثر المؤامرات-تصور وتفسير المجموعات ميزة مع العروض تصنيف ثنائي فعال وكذلك استخدام 3D التبعثر مؤامرات
8-إيجاد الشروح الجينات وروابطها مع الأمراض التي تصيب الإنسان
ملاحظة: الخطوات من 8 إلى 10 سوف توضح كيفية إضافة تعليق توضيحي مورثة من مستوى تسلسل الحمض النووي والبروتين. أولاً، سيتم استرجاعها من قاعدة بيانات ديفيد32الرمز الجيني لكل معرف العلامات البيولوجية من الخطوات المذكورة أعلاه، وستستخدم ثم اثنين من ملقمات ويب الممثل لتحليل هذا الرمز الجيني من مستويات الحمض النووي والبروتين، على التوالي. يوفر الملقم جينيكارد تعليق توضيحي فنية شاملة لرمز معين من الجينات و "الوراثة مندلية على الإنترنت" في قاعدة بيانات الرجل (OMIM) يوفر curation الأكثر شمولاً لجمعيات أمراض الجينات. الملقم أونيبروتكب واحد من قاعدة البروتين الأكثر شمولاً، وخادم نظام التنبؤ المستندة إلى مجموعة (GPS) وتتنبأ إرسال الإشارات الفسفرة للحصول على قائمة كبيرة جداً من مؤنزم.
9-تعليم البروتينات المشفرة والتعديلات بوستترانسلاشونال
10-تعليم تفاعلات البروتين البروتين والوحدات الوظيفية على الإثراء
11-تصدير مجموعات فرعية العلامات البيولوجية التي تم إنشاؤها والمؤامرات التصور
والهدف من سير العمل هذا (الشكل 6) الكشف عن عدة مجموعات فرعية العلامات البيولوجية مع كفاءات مماثلة لمجموعة بيانات تصنيف ثنائي. ويصور اثنين من مجموعات البيانات المثال ALL1 و ALL2 المستخرجة من الكشف عن العلامات البيولوجية نشرت مؤخرا دراسة12،
تقدم هذه الدراسة بروتوكولا كشف وتوصيف سهلة لمتابعة حل متعدد العلامات البيولوجية لمجموعة بيانات المحددة من قبل المستخدم تصنيف ثنائي. البرنامج يضع تركيز على سهولة الاستخدام وواجهات مرونة الاستيراد والتصدير لمختلف صيغ الملفات، يسمح لباحث الطبية الحيوية للتحقيق في ما مجموعة البيانات بسهو?...
لدينا لا تضارب في المصالح المتصلة بهذا التقرير.
وأيد هذا العمل "برنامج البحوث ذات الأولوية الاستراتيجية" للأكاديمية الصينية للعلوم (XDB13040400) ومنحة بدء التشغيل من جامعة جيلين. تم تقدير المراجعين المجهولين والمستخدمين التجارب الطبية على تعليقاتهم البناءة على تحسين سهولة الاستخدام والأداء الوظيفي لكسولوتيونفيس.
Name | Company | Catalog Number | Comments |
Hardware | |||
laptop | Lenovo | X1 carbon | Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU |
Name | Company | Catalog Number | Comments |
Software | |||
Python 3.0 | WingWare | Wing Personal | Any python programming and running environments support Python version 3.0 or above |
Request permission to reuse the text or figures of this JoVE article
Request PermissionThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. All rights reserved