JoVE Logo

Sign In

A subscription to JoVE is required to view this content. Sign in or start your free trial.

In This Article

  • Summary
  • Abstract
  • Introduction
  • Protocol
  • النتائج
  • Discussion
  • Disclosures
  • Acknowledgements
  • Materials
  • References
  • Reprints and Permissions

Summary

الخوارزميات الموجودة إيجاد حل واحد لمجموعة بيانات الكشف عن العلامات البيولوجية. هذا البروتوكول يوضح وجود حلول فعالة وبالمثل متعددة ويقدم برمجيات سهلة الاستخدام لمساعدة الباحثين الطبية التحقيق على مجموعات البيانات لتحدي المقترحة. علماء الكمبيوتر قد توفر هذه الميزة في العلامات البيولوجية على خوارزميات الكشف.

Abstract

الكشف عن العلامات البيولوجية واحدة من المسائل الطبية البيولوجية أكثر أهمية للباحثين الفائق 'اوميكس'، وتقريبا جميع خوارزميات الكشف عن العلامات البيولوجية الموجودة تولد فرعية العلامات البيولوجية واحدة بقياس الأداء الأمثل لمجموعة معينة من البيانات . بيد أن دراسة أجريت مؤخرا أظهر وجود عدة مجموعات فرعية العلامات البيولوجية مع تصنيف فعالة وبالمثل أو حتى مطابقة العروض. ويقدم هذا البروتوكول منهجية بسيطة ومباشرة للكشف عن العلامات البيولوجية مجموعات فرعية مع العروض تصنيف ثنائي، أفضل من قطع المعرفة من قبل المستخدم. ويتكون البروتوكول من إعداد البيانات وتحميل تلخيص معلومات خط الأساس، ضبط المعلمة، فحص العلامات البيولوجية، التصور نتيجة والتفسير، وشروح الجينات العلامات البيولوجية وتصدير النتيجة والتصور في نوعية المنشور. العلامات البيولوجية المقترحة فحص استراتيجية بديهية ويوضح قاعدة عامة لتطوير خوارزميات الكشف عن العلامات البيولوجية. تم تطوير واجهة مستخدم رسومية سهلة الاستخدام (GUI) باستخدام لغة البرمجة بايثون، السماح للباحثين الطبية الحيوية الوصول المباشر إلى نتائجها. يمكن تحميل التعليمات البرمجية المصدر والدليل من كسولوتيونفيس من http://www.healthinformaticslab.org/supp/resources.php.

Introduction

التحقيق تصنيف ثنائي، واحدة من الأكثر استخداماً ويستخدم البيانات تحديا التعدين المشاكل في مجال الطب الحيوي، بناء نموذج تصنيف المدربين في مجموعتين من العينات مع الأكثر دقة التمييز السلطة1، 2 , 3 , 4 , 5 , 6 , 7-ومع ذلك، قد البيانات الكبيرة التي تم إنشاؤها في مجال الطب الحيوي الأصيل "كبير ف الصغيرة n" النموذج، مع العدد من الميزات التي عادة ما تكون أكبر بكثير من عدد العينات6،،من89. ولذلك، يلزم الباحثين الطب الحيوي تخفيض البعد ميزة قبل استخدام خوارزميات التصنيف لتجنب مشكلة8،أوفيرفيتينج9. يتم تعريف المؤشرات الحيوية التشخيص كمجموعة فرعية من الكشف عن ميزات فصل المرضى لمرض معين من مراقبة صحية عينات10،11. عادة ما يتم تعريف المرضى كعينات إيجابية، وضوابط صحية تم تعريفها ك عينات سلبية12.

وأشارت الدراسات الأخيرة أن هناك أكثر من حل واحد مع تصنيف متطابقة أو فعالة وبالمثل العروض ل مجموعة بيانات الطبية الحيوية5. تقريبا كل ميزة اختيار خوارزميات خوارزميات القطعية، المنتجة لحل واحد فقط لنفس مجموعة البيانات. الخوارزميات الجينية قد تولد في الوقت نفسه حلول متعددة مع عروض مماثلة، إلا أنها لا تزال في محاولة لتحديد حل واحد مع الدالة اللياقة البدنية أفضل كناتج13،dataset معطى14.

يمكن تجميع ميزة اختيار خوارزميات تقريبا ك مرشحات أو أغلفة12. ويختار خوارزمية تصفيةك ملامح أعلى-مرتبة حسب ارتباطها الفردية كبيرة مع التسميات الطبقة الثنائية على أساس الافتراض بأن ملامح مستقلة عن بعضها البعض15،16،17 . على الرغم من أن هذا الافتراض لا ينطبق على تقريبا جميع مجموعات البيانات في العالم الحقيقي، القاعدة عامل تصفية افتراضي يؤدي جيدا في كثير من الحالات، على سبيل المثال، الخوارزمية مرمر (التكرار الحد الأدنى والحد الأقصى أهمية)، التصفية ميزة الاختبار على أساس الرتبي (فرانك) الخوارزمية، وارسم ROC (خاصية التشغيل المتلقي) على أساس خوارزمية التصفية (روكرانك). مرمر، خوارزمية تصفية فعالة نظراً لأنه يقترب من مشكلة تقدير اندماجي مع سلسلة من المشاكل أصغر بكثير، مقارنة بالتبعية كحد أقصى ميزة تحديد خوارزمية، فقط كل منها ينطوي على اثنين من المتغيرات، و ولذلك يستخدم العشوائية الاحتمالات المشتركة التي هي أقوى18،19. ومع ذلك، قد مرمر نقلل من فائدة بعض الميزات كما أنها لا تقيس التفاعلات بين الميزات التي يمكن أن تزيد من أهميتها، وهكذا يفتقد بعض تركيبات ميزة منفردة عديمة الفائدة ولكنها مفيدة فقط عندما جنبا إلى جنب. خوارزمية فرانك يحسب نقاط غير حدودي التمييزية كيف ميزة بين فئتين من العينات، وتشتهر متانة للقيم المتطرفة20،21. وعلاوة على ذلك، تقيم خوارزمية روكرانك كيف كبيرة المنطقة تحت ROC المنحنى (AUC) لميزة معينة لتصنيف ثنائي التحقيق أداء22،23.

من ناحية أخرى، مجمع يقيم أداء المصنف المعرفة مسبقاً في مجموعة فرعية ميزة معينة، تكراري إنشاؤها بواسطة قاعدة الكشف عن مجريات الأمور، ويقوم بإنشاء مجموعة فرعية ميزة مع قياس الأداء أفضل24. مجمع عموما يتفوق عامل تصفية في أداء التصنيف ولكن يعمل أبطأ25. على سبيل المثال، يستخدم خوارزمية27 26،الغابات تنظيم عشوائي (الرد) قاعدة الجشع، بتقييم الميزات على مجموعة فرعية من البيانات التدريب في كل عقده الغابات العشوائية، عشرات أهمية الميزة التي يتم تقييمها بواسطة مؤشر جيني . اختيار سمة جديدة سوف يعاقب إذا لم تتحسن في كسب المعلومات أن من السمات المختارة. بالإضافة إلى ذلك، تحليل التنبؤ [ميكروارس] (بام)28،خوارزمية29 ، أيضا خوارزمية برنامج تضمين، يحسب centroid لكل تسميات الفئة، وثم تحديد ميزات لتقليص سينترويدس الجينات نحو الشاملة فئة centroid. أم قوي لميزات البعيدة.

قد يلزم حلول متعددة مع أداء أعلى تصنيف أي مجموعة معينة من البيانات. أولاً، يتم تعريف الهدف الأمثل خوارزمية قطعية صيغة رياضية، مثلاً، معدل خطأ الحد الأدنى30، التي ليست بالضرورة مثالية للعينات البيولوجية. ثانيا، قد يكون إحدى وحدات dataset حلول متعددة، تختلف اختلافاً كبيرا، مع الأداء الفعال أو حتى مطابقة مماثلة. تقريبا جميع خوارزميات اختيار ميزة موجودة عشوائياً تحديد واحد من هذه الحلول ك إخراج31.

وسوف أعرض هذه الدراسة بروتوكولا تحليلية المعلوماتية لتوليد ميزة اختيار حلول متعددة مع عروض مماثلة لأي تصنيف ثنائي معين dataset. إذ ترى أن الباحثين الطبية الأكثر ليسوا مطلعين على تقنيات المعلوماتية أو الكمبيوتر الترميز، وضعت واجهة مستخدم رسومية سهلة الاستخدام (GUI) لتسهيل التحليل السريع لمجموعات البيانات الطبية الحيوية تصنيف ثنائي. البروتوكول تحليلية يتكون من تحميل البيانات وتلخيص وضبط المعلمة وتنفيذ خط أنابيب وتفسيرات النتيجة. بنقرة بسيطة، الباحث قادراً على توليد مجموعات فرعية العلامات البيولوجية ومؤامرات التصور نوعية المنشور. تم اختبار البروتوكول استخدام ترانسكريبتوميس لمجموعات تصنيف ثنائي اثنين من الحاد الليمفاوي اللوكيميا (الكل)، أي، ALL1 و ALL212. مجموعات البيانات ALL1 و ALL2 تم تحميلها من قاعدة عريضة معهد الجينوم تحليل مركز البيانات، متاح على http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi. ALL1 يحتوي على عينات 128 مع ميزات 12,625. من هذه العينات، وهي 95 ب-الخلية هي جميعا و 33 تي خلية كافة. ALL2 يشمل 100 عينة مع ميزات 12,625 كذلك. من هذه العينات، وهناك 65 مريضا يعاني انتكاسة و 35 مريضا لم يكن. وكان ALL1 dataset من سهل تصنيف ثنائي، مع دقة الحد أدنى من أربع مرشحات وأربعة أغلفة يجري 96.7 في المائة، و 6 من خوارزميات انتقاء 8 ميزة تحقيق 100%12. وبينما كان ALL2 dataset أكثر صعوبة، مع خوارزميات اختيار 8 ميزة تحقيق ليس أفضل من دقة 83.7%12أعلاه. وقد تحقق هذا أفضل دقة مع ميزات 56 الكشف عنها بواسطة خوارزمية برنامج التضمين، اختيار ميزة المستندة إلى العلاقة (لجنة الأمن الغذائي).

Protocol

ملاحظة: البروتوكول التالية توضح تفاصيل إجراءات تحليلية المعلوماتية ورموز الزائفة من وحدات رئيسية. واستحدث نظام التحليل التلقائي باستخدام بيثون الإصدار 3.6.0 والباندا وحدات بايثون، سي، نومبي، سسيبي، سكليرن، sys، PyQt5، sys، مرمر، الرياضيات وماتبلوتليب. وترد في الجدول للموادالمواد المستخدمة في هذه الدراسة.

1-إعداد مصفوفة البيانات والتسميات من الدرجة

  1. إعداد ملف مصفوفة البيانات كملف مصفوفة علامة التبويب أو-بفاصلات، كما هو موضح في الشكل 1A.
    ملاحظة: كل صف جميع قيم سمة، والعنصر الأول هو اسم الميزة. هو معرف بروبست لمجموعة البيانات المستندة إلى ميكرواري الترنسكربيتوم ميزة أو قد يكون معرف قيمة أخرى مثل بقايا سيستين بقيمته مثلايشن في dataset ميثيلوميك. ويعطي كل عمود قيم ميزة نموذج معين، مع العنصر الأول هو اسم العينة. يتم فصل صف إلى الأعمدة بعلامة تبويب (الشكل 1B) أو فاصلة (الشكل 1). ملف المفصول مصفوفة المسلم من.tsv ملحق الملف، وملف مقسوم بفاصلة مصفوفة.csv ملحق. قد يتم إنشاء هذا الملف عن طريق حفظ مصفوفة أما بتنسيق.csv أو.tsv من برامج مثل Microsoft Excel. كما قد يتم إنشاء مصفوفة البيانات من الكمبيوتر الترميز.
  2. إعداد ملف تسمية الفئة كعلامة التبويب أو-بفاصلات مصفوفة ملف (الشكل 1)، مماثلة لمصفوفة بيانات الملف.
    ملاحظة: يعطي أسماء عينة من العمود الأول، وتعطي تسمية فئة كل نموذج في العمود عنوان الفئة. ويعتبر التوافق القصوى في عملية الترميز، حيث أنه يمكن إضافة أعمدة إضافية. قد يكون تنسيق ملف تسمية الفئة كملف.csv أو.tsv. قد تكون الأسماء الموجودة في العمود الفئة أية شروط، وقد يكون هناك أكثر من فئتين من العينات. يمكن للمستخدم اختيار أي اثنين من فئات التحليل التالي.

2-تحميل مصفوفة البيانات والتسميات من الدرجة

  1. تحميل تسميات مصفوفة وفئة البيانات في البرنامج. انقر فوق الزر تحميل البيانات مصفوفة لاختيار الملف مصفوفة البيانات المحددة من قبل المستخدم. انقر فوق الزر تحميل الفئة تسميات لاختيار ملف تسمية الفئة المقابلة.
    ملاحظة: بعد تحميل كلا الملفين، ستجري كسولوتيونفيس شاشة روتينية للتوافق بين الملفين.
  2. تلخيص السمات وعينات من ملف بيانات المصفوفة. تقدير حجم الملف مصفوفة البيانات.
  3. تلخيص العينات والفئات من ملف تسمية الفئة. تقدير حجم ملف تسمية الفئة.
  4. اختبار ما إذا كانت كل عينة من مصفوفة البيانات يحتوي على تسمية فئة. تلخيص عدد العينات مع تسميات الفئة.

3-تلخيص وعرض الإحصائيات الأساس لمجموعة البيانات

  1. انقر فوق الزر تلخيص، دون أية كلمة رئيسية محددة المدخلات، وسيتم عرض البرنامج 20 ميزات المفهرسة وأسماء السمات المقابلة.
    ملاحظة: المستخدمين تحتاج إلى تحديد اسم الميزة يرغبون في البحث لمعرفة الإحصاءات الأساسية وتوزيع القيمة المقابلة بين جميع العينات المدخلات.
  2. توفر على الكلمات الرئيسية، مثل "1000_at"، في مربع نص ميزة للعثور على ميزة معينة يمكن تلخيصها. انقر فوق الزر تلخيص للحصول على إحصاءات أساسية لهذه الميزة معينة.
    ملاحظة: قد تظهر الكلمة الرئيسية في أي مكان في أسماء الميزة الهدف، تسهيل عملية البحث للمستخدمين.
  3. انقر فوق الزر تلخيص للعثور على ميزة واحدة أو أكثر مع كلمة أساسية معينة، وقم بتحديد معرف ميزة فريدة من نوعها المضي قدما في الخطوة أعلاه لتلخيص ميزة خاصة واحدة.

4-تحديد تسميات الفئة والعدد من السمات ذات الترتيب الأعلى

  1. اختر أسماء الفئات السالبة (N (95) ") وإيجابية (" P (33) ") في مربعات القائمة المنسدلة الفئة الإيجابية و السلبية الفئة، كما هو مبين في الشكل 2 (وسط).
    ملاحظة: اقترح اختيار dataset تصنيف ثنائي متوازن، أيالفرق بين عدد العينات الإيجابية والسلبية الحد الأدنى. عدد العينات التي يرد أيضا في أقواس بعد اسم كل تسمية الفئة في مربعي القائمة المنسدلة.
  2. اختر 10 كالعدد من السمات ذات الترتيب الأعلى (المعلمة بتوبكس) في مربع القائمة المنسدلة Top_X (؟) لشاشة شاملا من الميزة-مجموعة فرعية.
    ملاحظة: البرنامج تلقائياً في صفوف جميع الميزات ب الرتبةالقيمة المحسوبة باختبار t لكل ميزة مقارنة الفئات الإيجابية والسلبية. ميزة مع أصغر فقيمه تتمتع بسلطة أفضل تمييز بين الفئتين من عينات. وحدة الفحص الشامل مكثفة حسابياً. المعلمة بتوبكس هو 10 بشكل افتراضي. يمكن للمستخدمين تغيير هذه المعلمة في النطاق من 10 إلى 50، حتى أنها تجد مرضية تتميز مجموعات فرعية مع تصنيف جيدة الأداء.

5-توليف معلمات نظام للعروض المختلفة

  1. اختر قياس الأداء (بميسوريمينت) الدقة (لجنة التنسيق الإدارية) في مربع القائمة المنسدلة Acc/تمام (؟) للمصنف المحدد آلة التعلم المتطرفة (الدردار). وثمة خيار آخر لهذه المعلمة هي القياس "دقة متوازنة" (تمام).
    ملاحظة: تتيح TP، الجبهة الوطنية، تينيسي، وتنظيم الأسرة تكون الأرقام الحقيقية إيجابيات والسلبيات الكاذبة، السلبيات الحقيقية والمغلوطة، على التوالي. يعرف قياس لجنة التنسيق الإدارية (TP+TN)/(TP+FN+TN+FP)، الذي يعمل بشكل أفضل في dataset متوازنة6. ولكن مصنف الأمثل اللجنة التنسيق الإدارية يميل إلى تعيين جميع العينات إلى الفئة السلبية إذا كان عدد العينات السلبية أكبر بكثير من أن الإيجابية منها. يعرف تمام (Sn + س)/2، حيث Sn = TP/(TP+FN) وس = TN/(TN+FP) هي المعدلات المتوقعة بشكل صحيح لايجابية وسلبية عينات، على التوالي. ولذلك، تمام طبيعتها بالتنبؤ بالأداء على الفئتين، وقد تؤدي إلى أداء متوازن التنبؤ أكثر فئتين غير متوازن. لجنة التنسيق الإدارية هو الخيار الافتراضي من بميسوريمينت. يستخدم البرنامج الدردار المصنف بشكل افتراضي لحساب بتصنيف الأداء. المستخدم قد أيضا اختيار مصنف من SVM (دعم مكافحة ناقلات آلة)، KNN (ك أقرب جار)، شجرة القرار، أو بايز ساذجة.
  2. اختر قيمة قطع 0.70 (المعلمة بكوتوف) لقياس الأداء المحدد في مربع الإدخال بكوتوف:.
    ملاحظة: كل لجنة التنسيق الإدارية و تمام تتراوح بين 0 و 1، ويمكن للمستخدم تحديد بكوتوف قيمةfigure-protocol-5855[0, 1] كقطع لعرض الحلول المتطابقة. ينفذ البرنامج فرعية شاملة ميزة الفرز، وخيارا ملائماً بكوتوف سيجعل 3D التصور أكثر بديهية وواضحة. القيمة الافتراضية بكوتوف 0.70.

6-تشغيل خط الأنابيب، وتنتج نتائج تصور التفاعلية

  1. انقر فوق الزر تحليل تشغيل خط الأنابيب وتوليد المؤامرات التصور، كما هو مبين في الشكل 2 (أسفل).
    ملاحظة: الجدول الأيسر يعطي جميع المجموعات ميزة وما بميسوريمينت حساب بواسطة الاستراتيجية عبر التحقق من صحة الوقت المصنف الدردار، كما هو موضح سابقا5. يتم إنشاء اثنين 3D التبعثر مؤامرات ومؤامرات سطرين لإجراءات الفرز ميزة فرعية مع الإعدادات الحالية للمعلمة.
  2. اختر 0.70 كالقيمة الافتراضية بميسوريمينت استقطاع (معلمة بيكوتوف، مربع الإدخال القيمة)، و 10 كالافتراضي للعدد من أفضل ميزة المجموعات (معلمة بيفسنوم).
    ملاحظة: يتم تنفيذ خط الأنابيب باستخدام معلمات بتوبكس، بميسوريمينت، و بكوتوف. فحص ميزة الكشف عن مجموعات فرعية قد تكون زيادة استخدام قطع بيكوتوف، ولكن بيكوتوف لا يمكن أن تكون أصغر من بكوتوف. ولذلك، تتم تهيئة بيكوتوف بكوتوف وسوف تصور فقط المجموعات ميزة مع ≥ قياس الأداء بيكوتوف . القيمة الافتراضية لبيكوتوف بكوتوف. في بعض الأحيان كسولوتيونفيس بالكشف عن العديد من الحلول، وفقط أفضل بيفسنوم (الافتراضي: 10) سوف تصور ميزة مجموعات فرعية. إذا كان العدد من المجموعات الفرعية ميزة الكشف عن طريق البرنامج أصغر من بيفسنوم، وسوف تصور جميع المجموعات ميزة.
  3. جمع وتفسير ملامح الكشف عنها بواسطة البرنامج، كما هو مبين في الشكل 3.
    ملاحظة: يبين الجدول في المربع الأيسر ميزة الكشف عن المجموعات وعن مقاييس الأداء. أسماء الأعمدة الثلاثة الأولى هي "F1" و "F2" و "F3". تعطي ثلاث ميزات في كل مجموعة فرعية ميزة ترتيب مرتبة في صف واحد (F1 < F2 < F3). العمود الأخير يعطي قياس الأداء (لجنة التنسيق الإدارية أو تمام) لكل ميزة فرعية، واسمها عمود (لجنة التنسيق الإدارية أو تمام) هو قيمة بميسوريمينت.

7-تفسير 3D مبعثر المؤامرات-تصور وتفسير المجموعات ميزة مع العروض تصنيف ثنائي فعال وكذلك استخدام 3D التبعثر مؤامرات

  1. انقر فوق الزر تحليل لتوليد مؤامرة مبعثر 3D من المجموعات ميزة 10 الأعلى مع أفضل العروض تصنيف (لجنة التنسيق الإدارية أو تمام) الكشف عنها بواسطة البرنامج، كما هو مبين في الشكل 3 (المربع الأوسط). فرز ثلاث ميزات في مجموعة فرعية ميزة في ترتيب تصاعدي لصفوفها واستخدام صفوف السمات الثلاثة كمحاور F1/F2/F3، أي، F1 < F2 < F3.
    ملاحظة: لون نقطة يمثل أداء تصنيف ثنائي فرعية ميزة المطابق. قد يكون إحدى وحدات dataset متعددة ميزة فرعية مع قياسات الأداء الفعال وعلى نحو مماثل. ولذلك فمن الضروري مؤامرة مبعثر التفاعلية ومبسطة.
  2. قم بتغيير القيمة إلى 0.70 في مربع الإدخال بكوتوف: ، وانقر فوق الزر تحليل لتوليد مؤامرة مبعثر 3D من المجموعات ميزة مع ≥ الأداء قياس بيكوتوف، كما هو مبين في الشكل 3 (المربع الأيمن). انقر فوق زر ضبط 3D لفتح نافذة جديدة لضبط زوايا الأرض المبعثر ثلاثي الأبعاد يدوياً.
    ملاحظة: يمثل نقطة فرعية كل ميزة بنفس الطريقة أعلاه. مؤامرة مبعثر 3D ولدت في الزاوية الافتراضية. تيسير 3D التصور وضبط إطار منفصل، سيتم فتح بالنقر على زر ضبط 3D.
  3. انقر فوق الزر تصغير لتقليل التكرار المجموعات ميزة الكشف عن.
    ملاحظة: إذا كان المستخدمين يرغبون كذلك حدد ثلاثة توائم ميزة وتقليل التكرار المجموعات ميزة، البرنامج كما يوفر هذه الدالة باستخدام خوارزمية تحديد الميزة مرمر. بعد النقر فوق الزر تصغير ، سيتم إزالة هذه الميزات زائدة عن الحاجة في ثلاثة توائم ميزة كسولوتيونفيس وإعادة إنشاء الجدول وهما مبعثر مؤامرات المذكورة أعلاه. إزالة ميزات ثلاثة توائم ميزة سيستعاض بالكلمة الأساسية في الجدول. سيتم الإشارة إلى القيم من لا شيء في المحور F1/F2/F3 كقيمة بيفسنوم (مجموعة القيمة العادية ل F1/F2/F3 هو [1, top_x]). لذلك، قد تظهر النقاط التي تتضمن قيمة أي أن يرسم النقاط "الخارجة" في 3D. يمكن الاطلاع على قطع 3D الانضباطي يدوياً في "ضبط يدوي للمؤامرات دوت 3D" في المواد التكميلية.

8-إيجاد الشروح الجينات وروابطها مع الأمراض التي تصيب الإنسان

ملاحظة: الخطوات من 8 إلى 10 سوف توضح كيفية إضافة تعليق توضيحي مورثة من مستوى تسلسل الحمض النووي والبروتين. أولاً، سيتم استرجاعها من قاعدة بيانات ديفيد32الرمز الجيني لكل معرف العلامات البيولوجية من الخطوات المذكورة أعلاه، وستستخدم ثم اثنين من ملقمات ويب الممثل لتحليل هذا الرمز الجيني من مستويات الحمض النووي والبروتين، على التوالي. يوفر الملقم جينيكارد تعليق توضيحي فنية شاملة لرمز معين من الجينات و "الوراثة مندلية على الإنترنت" في قاعدة بيانات الرجل (OMIM) يوفر curation الأكثر شمولاً لجمعيات أمراض الجينات. الملقم أونيبروتكب واحد من قاعدة البروتين الأكثر شمولاً، وخادم نظام التنبؤ المستندة إلى مجموعة (GPS) وتتنبأ إرسال الإشارات الفسفرة للحصول على قائمة كبيرة جداً من مؤنزم.

  1. نسخ ولصق ارتباط ويب لقاعدة بيانات ديفيد في مستعرض ويب وفتح صفحة ويب لقاعدة البيانات هذه. انقر فوق الارتباط تحويل معرف الجينات ينظر في الشكل 4A وإدخال ميزة معرفات 38319_at/38147_at/33238_at من مجموعة فرعية العلامات البيولوجية الأولى من dataset ALL1 (الشكل 4 باء). انقر فوق الارتباط قائمة الجينات وانقر فوق إرسال قائمة كما هو موضح في الشكل 4 باء. استرداد شروح للفائدة، وانقر فوق إظهار قائمة الجينات (الشكل 4). الحصول على القائمة رموز الجينات (الشكل 4).
    ملاحظة: رموز الجينات استرداد هنا ستستخدم لزيادة وظيفية الشروح في الخطوات التالية.
  2. نسخ ولصق ارتباط ويب لقاعدة بيانات "بطاقات الجينات" في مستعرض ويب وقم بفتح صفحة ويب من قاعدة البيانات هذه. البحث الجيني اسم CD3D في مربع الإدخال استعلام قاعدة البيانات، والبحث عن شروح لهذا الجين من "بطاقات الجينات"33،34، كما هو مبين في الجدول 1 و الشكل 5A.
    ملاحظة: بطاقات الجينات هو جينات شاملة قاعدة المعرفة، توفير التسميات وعلم الجينوم، البروتيوميات، وتعريب سوبسيلولار، وسبل المشاركة والوحدات الوظيفية الأخرى. ويوفر أيضا ارتباطات خارجية لمختلف قواعد البيانات الطبية الحيوية الأخرى مثل PDB/PDB_REDO35والجينات Entrez36أوميم37أونيبروتكب38. إذا لم يكن اسم الميزة رمزاً جينات قياسية، استخدام قاعدة البيانات انسيمبل لتحويله39. CD3D هو اسم خلايا تي "مستقبلات T3 دلتا سلسلة" الجينات.
  3. نسخ ولصق ارتباط ويب من قاعدة أوميم في مستعرض ويب وفتح صفحة ويب لقاعدة البيانات هذه. البحث عن اسم أحد الجينات CD3D وتجد شروح لهذا الجين من قاعدة أوميم37، كما هو مبين في الجدول 1 و الشكل 5B.
    ملاحظة: أوميم يعمل الآن كأحد المصادر الأكثر شمولاً وموثوقية الاتصالات الجينات البشرية بالأمراض القابلة للتوريث. OMIM بدأها الدكتور فيكتور أ مكسيك كتالوج للطفرات الجينية المرتبطة بالمرض40. OMIM تغطي الآن أكثر من 15,000 الجينات البشرية وتعمل على 8,500، اعتبارا من كانون الأول/ديسمبر 1st عام 2017.

9-تعليم البروتينات المشفرة والتعديلات بوستترانسلاشونال

  1. نسخ ولصق ارتباط ويب من قاعدة أونيبروتكب في مستعرض ويب وفتح صفحة ويب لقاعدة البيانات هذه. البحث الجيني اسم CD3D في مربع إدخال الاستعلام من أونيبروتكب والبحث عن شروح لهذا الجين من ال38قاعدة البيانات، كما هو مبين في الجدول 1 و الشكل 5.
    ملاحظة: أونيبروتكب يجمع مصدرا غنيا للشروح للبروتينات، بما في ذلك المصطلحات والمعلومات الفنية. كما يوفر قاعدة البيانات هذه روابط إلى قواعد بيانات أخرى تستخدم على نطاق واسع، بما في ذلك PDB/PDB_REDO35وأوميم37فام41.
  2. نسخ ولصق ارتباط ويب من ملقم ويب لتحديد المواقع في مستعرض ويب، وافتح صفحة ويب من ملقم ويب هذا. استرداد تسلسل البروتين مرمزة بواسطة العلامات البيولوجية الجين CD3D من قاعدة البيانات أونيبروتكب38 والتنبؤ بوستترانسلاشونال التعديل (PTM) المخلفات البروتين باستخدام أداة على الإنترنت لتحديد المواقع، كما هو مبين في الجدول 1 و الشكل 5.
    ملاحظة: نظام بيولوجي دينامية ومعقدة، وقواعد البيانات القائمة جمع المعلومات المعروفة فقط. ولذلك، أدوات التنبؤ الطبية على الإنترنت، فضلا عن البرامج دون اتصال قد توفر دليلاً مفيداً تكمل إليه المفترضة. نظام تحديد المواقع المتقدمة وتحسين لأكثر من 12 سنة7،42 ويمكن استخدامها للتنبؤ PTM المخلفات البروتين في43،تسلسل معين ببتيد44. كما تتوفر أيضا أدوات لمختلف المواضيع البحثية، بما في ذلك التنبؤ بموقع سوبسيلولار45 للبروتين والنسخ عامل ملزم زخارف 46 من بين آخرين.

10-تعليم تفاعلات البروتين البروتين والوحدات الوظيفية على الإثراء

  1. نسخ ولصق ارتباط ويب من ملقم ويب سلسلة في مستعرض ويب وفتح صفحة ويب من ملقم ويب هذا. البحث في القائمة للجينات CD3D و P53، والبحث عن خصائصها مدبرة باستخدام قاعدة السلسلة47. قد تنفذ نفس الإجراء باستخدام ملقم ويب آخر، ديفيد32.
    ملاحظة: بالإضافة إلى الشروح المذكورة آنفا للجينات الفردية، هناك العديد من الأدوات المعلوماتية على نطاق واسع للتحقيق في خصائص مجموعة من الجينات. أظهرت دراسة أجريت مؤخرا أن الجينات علامة سيئة على حدة يمكن أن تشكل مجموعة جين تحسنت كثيرا5. ولذلك، الأمر يستحق التكلفة الحسابية للشاشة للمؤشرات الحيوية أكثر تعقيداً. قاعدة السلسلة قد تصور الاتصالات التفاعل المعروفة أو المتوقعة، وقد كشف الخادم ديفيد وحدات وظيفية مع رابطات النمط الظاهري كبير في الجينات المستعلم عنها47،32. وتتوفر أيضا مختلف أدوات التحليل الأخرى في المعلوماتية على نطاق واسع.

11-تصدير مجموعات فرعية العلامات البيولوجية التي تم إنشاؤها والمؤامرات التصور

  1. تصدير مجموعات فرعية تم اكتشاف العلامات البيولوجية كملف نص.csv أو.tsv لمزيد من التحليل. انقر فوق الزر تصدير الجدول أسفل الجدول لجميع المجموعات الكشف عن العلامات البيولوجية واختر تنسيق النص الذي حفظ ك.
  2. تصدير قطع التصور كملف صورة. انقر فوق الزر حفظ تحت كل قطعة واختيار أي تنسيق الصورة حفظ باسم.
    ملاحظة: البرنامج يدعم.png تنسيق بكسل و.svg تنسيق النواقل. بكسل الصور جيدة لعرض على شاشة الكمبيوتر، بينما قد يتم تحويل الصور المتجهة إلى أي قرار مطلوب لأغراض نشر دفتر اليومية.

النتائج

والهدف من سير العمل هذا (الشكل 6) الكشف عن عدة مجموعات فرعية العلامات البيولوجية مع كفاءات مماثلة لمجموعة بيانات تصنيف ثنائي. ويصور اثنين من مجموعات البيانات المثال ALL1 و ALL2 المستخرجة من الكشف عن العلامات البيولوجية نشرت مؤخرا دراسة12،

Discussion

تقدم هذه الدراسة بروتوكولا كشف وتوصيف سهلة لمتابعة حل متعدد العلامات البيولوجية لمجموعة بيانات المحددة من قبل المستخدم تصنيف ثنائي. البرنامج يضع تركيز على سهولة الاستخدام وواجهات مرونة الاستيراد والتصدير لمختلف صيغ الملفات، يسمح لباحث الطبية الحيوية للتحقيق في ما مجموعة البيانات بسهو?...

Disclosures

لدينا لا تضارب في المصالح المتصلة بهذا التقرير.

Acknowledgements

وأيد هذا العمل "برنامج البحوث ذات الأولوية الاستراتيجية" للأكاديمية الصينية للعلوم (XDB13040400) ومنحة بدء التشغيل من جامعة جيلين. تم تقدير المراجعين المجهولين والمستخدمين التجارب الطبية على تعليقاتهم البناءة على تحسين سهولة الاستخدام والأداء الوظيفي لكسولوتيونفيس.

Materials

NameCompanyCatalog NumberComments
Hardware
laptopLenovoX1 carbonAny computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
NameCompanyCatalog NumberComments
Software
Python 3.0WingWareWing PersonalAny python programming and running environments support Python version 3.0 or above

References

  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879 (2017).
  2. Li, Z., et al. Genome-wide association analysis identifies 30 new susceptibility loci for schizophrenia. Nature Genetics. 49, 1576-1583 (2017).
  3. Winkler, T. W., et al. Quality control and conduct of genome-wide association meta-analyses. Nature Protocols. 9, 1192-1212 (2014).
  4. Harrison, R. N. S., et al. Development of multivariable models to predict change in Body Mass Index within a clinical trial population of psychotic individuals. Scientific Reports. 7, 14738 (2017).
  5. Liu, J., et al. Multiple similarly-well solutions exist for biomedical feature selection and classification problems. Scientific Reports. 7, 12830 (2017).
  6. Ye, Y., Zhang, R., Zheng, W., Liu, S., Zhou, F. RIFS: a randomly restarted incremental feature selection algorithm. Scientific Reports. 7, 13013 (2017).
  7. Zhou, F. F., Xue, Y., Chen, G. L., Yao, X. GPS: a novel group-based phosphorylation predicting and scoring method. Biochemical and Biophysical Research Communications. 325, 1443-1448 (2004).
  8. Sanchez, B. N., Wu, M., Song, P. X., Wang, W. Study design in high-dimensional classification analysis. Biostatistics. 17, 722-736 (2016).
  9. Shujie, M. A., Carroll, R. J., Liang, H., Xu, S. Estimation and Inference in Generalized Additive Coefficient Models for Nonlinear Interactions with High-Dimensional Covariates. Annals of Statistics. 43, 2102-2131 (2015).
  10. Li, J. H., et al. MiR-205 as a promising biomarker in the diagnosis and prognosis of lung cancer. Oncotarget. 8, 91938-91949 (2017).
  11. Lyskjaer, I., Rasmussen, M. H., Andersen, C. L. Putting a brake on stress signaling: miR-625-3p as a biomarker for choice of therapy in colorectal cancer. Epigenomics. 8, 1449-1452 (2016).
  12. Ge, R., et al. McTwo: a two-step feature selection algorithm based on maximal information coefficient. BMC Bioinformatics. 17, 142 (2016).
  13. Tumuluru, J. S., McCulloch, R. Application of Hybrid Genetic Algorithm Routine in Optimizing Food and Bioengineering Processes. Foods. 5, (2016).
  14. Gen, M., Cheng, R., Lin, L. . Network models and optimization: Multiobjective genetic algorithm approach. , (2008).
  15. Radovic, M., Ghalwash, M., Filipovic, N., Obradovic, Z. Minimum redundancy maximum relevance feature selection approach for temporal gene expression data. BMC Bioinformatics. 18, 9 (2017).
  16. Ciuculete, D. M., et al. A methylome-wide mQTL analysis reveals associations of methylation sites with GAD1 and HDAC3 SNPs and a general psychiatric risk score. Translational Psychiatry. 7, e1002 (2017).
  17. Lin, H., et al. Methylome-wide Association Study of Atrial Fibrillation in Framingham Heart Study. Scientific Reports. 7, 40377 (2017).
  18. Wang, S., Li, J., Yuan, F., Huang, T., Cai, Y. D. Computational method for distinguishing lysine acetylation, sumoylation, and ubiquitination using the random forest algorithm with a feature selection procedure. combinatorial chemistry & high throughput screening. , (2017).
  19. Zhang, Q., et al. Predicting Citrullination Sites in Protein Sequences Using mRMR Method and Random Forest Algorithm. combinatorial chemistry & high throughput screening. 20, 164-173 (2017).
  20. Cuena-Lombrana, A., Fois, M., Fenu, G., Cogoni, D., Bacchetta, G. The impact of climatic variations on the reproductive success of Gentiana lutea L. in a Mediterranean mountain area. International journal of biometeorology. , (2018).
  21. Coghe, G., et al. Fatigue, as measured using the Modified Fatigue Impact Scale, is a predictor of processing speed improvement induced by exercise in patients with multiple sclerosis: data from a randomized controlled trial. Journal of Neurology. , (2018).
  22. Hong, H., et al. Applying genetic algorithms to set the optimal combination of forest fire related variables and model forest fire susceptibility based on data mining models. The case of Dayu County, China. Science of the Total Environment. 630, 1044-1056 (2018).
  23. Borges, D. L., et al. Photoanthropometric face iridial proportions for age estimation: An investigation using features selected via a joint mutual information criterion. Forensic Science International. 284, 9-14 (2018).
  24. Kohavi, R., John, G. H. Wrappers for feature subset selection. Artificial intelligence. 97, 273-324 (1997).
  25. Yu, L., Liu, H. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research. 5, 1205-1224 (2004).
  26. Wexler, R. B., Martirez, J. M. P., Rappe, A. M. Chemical Pressure-Driven Enhancement of the Hydrogen Evolving Activity of Ni2P from Nonmetal Surface Doping Interpreted via Machine Learning. Journal of American Chemical Society. , (2018).
  27. Wijaya, S. H., Batubara, I., Nishioka, T., Altaf-Ul-Amin, M., Kanaya, S. Metabolomic Studies of Indonesian Jamu Medicines: Prediction of Jamu Efficacy and Identification of Important Metabolites. Molecular Informatics. 36, (2017).
  28. Shangkuan, W. C., et al. Risk analysis of colorectal cancer incidence by gene expression analysis. PeerJ. 5, e3003 (2017).
  29. Chu, C. M., et al. Gene expression profiling of colorectal tumors and normal mucosa by microarrays meta-analysis using prediction analysis of microarray, artificial neural network, classification, and regression trees. Disease Markers. , 634123 (2014).
  30. Fleuret, F. Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research. 5, 1531-1555 (2004).
  31. Pacheco, J., Alfaro, E., Casado, S., Gámez, M., García, N. A GRASP method for building classification trees. Expert Systems with Applications. 39, 3241-3248 (2012).
  32. Jiao, X., et al. DAVID-WS: a stateful web service to facilitate gene/protein list analysis. Bioinformatics. 28, 1805-1806 (2012).
  33. Rappaport, N., et al. Rational confederation of genes and diseases: NGS interpretation via GeneCards, MalaCards and VarElect. Biomedical Engineering OnLine. 16, 72 (2017).
  34. Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D. GeneCards: integrating information about genes, proteins and diseases. Trends in Genet. 13, 163 (1997).
  35. Joosten, R. P., Long, F., Murshudov, G. N., Perrakis, A. The PDB_REDO server for macromolecular structure model optimization. IUCrJ. 1, 213-220 (2014).
  36. Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: gene-centered information at NCBI. Nucleic Acids Research. 39, D52-D57 (2011).
  37. Amberger, J. S., Bocchini, C. A., Schiettecatte, F., Scott, A. F., Hamosh, A. OMIM.org: Online Mendelian Inheritance in Man (OMIM(R)), an online catalog of human genes and genetic disorders. Nucleic Acids Research. 43, D789-D798 (2015).
  38. Boutet, E., et al. the Manually Annotated Section of the UniProt KnowledgeBase: How to Use the Entry View. Methods in Molecular Biology. 1374, 23-54 (2016).
  39. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Res. , (2017).
  40. McKusick, V. A., Amberger, J. S. The morbid anatomy of the human genome: chromosomal location of mutations causing disease. Journal of Medical Genetics. 30, 1-26 (1993).
  41. Finn, R. D., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Research. 44, D279-D285 (2016).
  42. Xue, Y., et al. GPS: a comprehensive www server for phosphorylation sites prediction. Nucleic Acids Research. 33, W184-W187 (2005).
  43. Deng, W., et al. GPS-PAIL: prediction of lysine acetyltransferase-specific modification sites from protein sequences. Scientific Reports. 6, 39787 (2016).
  44. Zhao, Q., et al. GPS-SUMO: a tool for the prediction of sumoylation sites and SUMO-interaction motifs. Nucleic Acids Research. 42, W325-W330 (2014).
  45. Wan, S., Duan, Y., Zou, Q. HPSLPred: An Ensemble Multi-Label Classifier for Human Protein Subcellular Location Prediction with Imbalanced Source. Proteomics. 17, (2017).
  46. Zhang, H., Zhu, L., Huang, D. S. WSMD: weakly-supervised motif discovery in transcription factor ChIP-seq data. Scientific Reports. 7, 3217 (2017).
  47. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, D447-D452 (2015).
  48. Chiaretti, S., et al. Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood. 103, 2771-2778 (2004).
  49. Rowley, J. D., et al. Mapping chromosome band 11q23 in human acute leukemia with biotinylated probes: identification of 11q23 translocation breakpoints with a yeast artificial chromosome. Proceedings of the National Academy of Sciences of the United States of America. 87, 9358-9362 (1990).
  50. Rabbitts, T. H., et al. The chromosomal location of T-cell receptor genes and a T cell rearranging gene: possible correlation with specific translocations in human T cell leukaemia. Embo Journal. 4, 1461-1465 (1985).
  51. Yin, L., et al. SH2D1A mutation analysis for diagnosis of XLP in typical and atypical patients. Human Genetics. 105, 501-505 (1999).
  52. Brandau, O., et al. Epstein-Barr virus-negative boys with non-Hodgkin lymphoma are mutated in the SH2D1A gene, as are patients with X-linked lymphoproliferative disease (XLP). Human Molecular Genetics. 8, 2407-2413 (1999).
  53. Burnett, R. C., Thirman, M. J., Rowley, J. D., Diaz, M. O. Molecular analysis of the T-cell acute lymphoblastic leukemia-associated t(1;7)(p34;q34) that fuses LCK and TCRB. Blood. 84, 1232-1236 (1994).
  54. Taylor, G. M., et al. Genetic susceptibility to childhood common acute lymphoblastic leukaemia is associated with polymorphic peptide-binding pocket profiles in HLA-DPB1*0201. Human Molecular Genetics. 11, 1585-1597 (2002).
  55. Wadia, P. P., et al. Antibodies specifically target AML antigen NuSAP1 after allogeneic bone marrow transplantation. Blood. 115, 2077-2087 (2010).
  56. Wilson, D. M., et al. 3rd et al. Hex1: a new human Rad2 nuclease family member with homology to yeast exonuclease 1. Nucleic Acids Research. 26, 3762-3768 (1998).
  57. O'Sullivan, R. J., et al. Rapid induction of alternative lengthening of telomeres by depletion of the histone chaperone ASF1. Nature Structural & Molecular Biology. 21, 167-174 (2014).
  58. Lee-Sherick, A. B., et al. Aberrant Mer receptor tyrosine kinase expression contributes to leukemogenesis in acute myeloid leukemia. Oncogene. 32, 5359-5368 (2013).
  59. Guyon, I., Elisseeff, A. An introduction to variable and feature selection. Journal of machine learning research. 3, 1157-1182 (2003).
  60. John, G. H., Kohavi, R., Pfleger, K. . Machine learning: proceedings of the eleventh international conference. , 121-129 (1994).
  61. Jain, A., Zongker, D. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence. 19, 153-158 (1997).
  62. Taylor, S. L., Kim, K. A jackknife and voting classifier approach to feature selection and classification. Cancer Informatics. 10, 133-147 (2011).
  63. Andresen, K., et al. Novel target genes and a valid biomarker panel identified for cholangiocarcinoma. Epigenetics. 7, 1249-1257 (2012).
  64. Guo, P., et al. Gene expression profile based classification models of psoriasis. Genomics. 103, 48-55 (2014).
  65. Xie, J., Wang, C. Using support vector machines with a novel hybrid feature selection method for diagnosis of erythemato-squamous diseases. Expert Systems with Applications. 38, 5809-5815 (2011).
  66. Zou, Q., Zeng, J., Cao, L., Ji, R. A novel features ranking metric with application to scalable visual and bioinformatics data classification. Neurocomputing. 173, 346-354 (2016).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Explore More Articles

140

This article has been published

Video Coming Soon

JoVE Logo

Privacy

Terms of Use

Policies

Research

Education

ABOUT JoVE

Copyright © 2025 MyJoVE Corporation. All rights reserved