هذا البروتوكول الحسابي مهم لأنه يسمح بالعمل على التحقيق في الارتباطات بين المكونات الخلوية ، على سبيل المثال ، بروتينات الميتوكوندريا وارتباطاتها بالمرض ، كما ورد في المنشورات الطبية الحيوية. يمكن CaseOLAP LIFT المحققين من استخراج ودمج المعلومات من التقارير الطبية الحيوية وقواعد المعرفة. إذا تم تنظيم هذه النتائج كرسم بياني معرفي ، ويمكن الاستفادة منها للتنبؤ بالعلاقات الجديدة.
تدعم نتائج الأبحاث هذه توليد الفرضيات من خلال تسليط الضوء على قائمة ذات أولوية من ارتباطات أمراض البروتين المحددة والمتوقعة ، وهي مفيدة للكشف عن رؤى جديدة في علم الأمراض والعلاج. يمكن تطبيق سير العمل القابل للتخصيص بدرجة عالية على أي مكون خلوي عبر مصطلح GO الخاص بهم على أي قائمة من الأمراض عبر مصطلح MeSH الخاص بهم ضمن أي نطاق زمني للنشر. يقلل هذا البروتوكول سهل الاستخدام من الخبرة الحسابية المطلوبة للتحليل.
يتم إصدار البرنامج كحاوية عامل إرساء ، ولا يتطلب سوى تخزين وموارد حسابية كافية للتنفيذ. للبدء ، افتح نافذة المحطة الطرفية لتنزيل حاوية عامل إرساء CaseOLAP LIFT ، واكتب عامل الإرساء اسحب CaseOLAP مائلا CaseOLAP_LIFT الأحدث. قم بإنشاء دليل يخزن جميع بيانات البرنامج وإخراجه.
ابدأ تشغيل حاوية عامل الإرساء بالأمر الموضح على الشاشة ، مع استبدال PATH_TO_FOLDER كمسار ملف كامل للمجلد. لبدء البحث المرن داخل الحاوية ، افتح نافذة طرفية جديدة واكتب الأمر الموضح على الشاشة. انتقل إلى مجلد CaseOLAP_LIFT.
تأكد من أن روابط التنزيل وشرطة مائلة للتكوين knowledge_base_links. JSON محدثة ودقيقة لأحدث إصدار من كل مورد قاعدة معارف. لتحديد أنطولوجيا الجينات أو مصطلح GO ، انتقل إلى موقع الويب علم الأنساب.
org، وابحث عن معرفات جميع مصطلحات GO. وبالمثل ، ابحث عن فئات المرض عبر رأس الموضوع الطبي أو معرفات MeSH من موقع الويب الموضح على الشاشة. لتنفيذ وحدة المعالجة المسبقة ، أشر إلى مصطلحات GO المدروسة التي حددها المستخدم باستخدام علامة الشرطة C ، وأرقام شجرة MeSH للمرض باستخدام علامة الشرطة D ، وحدد الاختصارات بعلامة شرطة A.
لتنفيذ وحدة استخراج النص ، اكتب Python ، مسافة ، CaseOLAP_LIFT. py ، مسافة ، text_mining ، وإضافة علامة الشرطة L لإسناد موضوعات المستندات غير المصنفة ، وعلامة الشرطة T لتنزيل النص الكامل للمستندات ذات الصلة بالمرض. تأكد من أن نتائج استخراج النص موجودة في مجلد النتائج.
أشر إلى نتائج استخراج النص لاستخدامها في التحليل عن طريق تحديد إما تحليل جميع البروتينات لتشمل جميع البروتينات المرتبطة وظيفيا ، أو تحليل البروتينات الأساسية لتشمل فقط البروتينات ذات الصلة بمصطلح GO. لتحديد أفضل البروتينات والمسارات لكل مرض ، يتم تحويل درجات CaseOLAP إلى درجة Z داخل كل فئة من فئات المرض. حدد علامة الشرطة Z للإشارة إلى درجة عتبة محددة تعتبر البروتينات فوقها مهمة.
راجع نتائج التحليل واضبطها حسب الضرورة. افتح الملف z_score_cutoff_table. csv لعرض جدول Z-score الذي تم إنشاؤه والذي يحتوي على عدد البروتينات المهمة لكل فئة من فئات الأمراض.
يساعد هذا في إعلام المستخدم بتحديد حد Z-score المناسب. افتح مجلد النتائج وتأكد من وجود الملفات المطلوبة ، بما في ذلك المجلد الذي تم إنشاؤه من المعالجة المسبقة ، في المجلد. تحقق من وجود جميع البروتينات في مجلدات البروتينات الأساسية.
لتصميم الرسم البياني المعرفي ، قم بتضمين شجرة مرض MeSH مع تضمين علامة MeSH. تشمل تفاعلات البروتين والبروتين من السلسلة مع علم PPI ، ومسارات Reactome المشتركة مع تضمين علم PW ، واعتماد عامل النسخ من GRNdb GTEx مع تضمين علم TFD. قم بتشغيل وحدة بناء الرسم البياني المعرفي عن طريق تحديد تحليل البروتينات الأساسية لتضمين البروتينات ذات الصلة بمصطلح GO فقط.
لقياس أوزان الحافة، استخدم مقياس Z-score لدرجات Z غير السالبة بدلا من درجات CaseOLAP الافتراضية. تحقق من الإخراج وتأكد من merged_edges ملفات الرسم البياني المعرفي. TSV و merged_nodes.
ملفات TSV موجودة. أخيرا ، اكتب الأمر الظاهر على الشاشة لتشغيل البرنامج النصي للتنبؤ بالرسم البياني المعرفي للتنبؤ بارتباطات مرض البروتين. يعرض هذا الشكل بروتين الميتوكوندريا المهم لكل فئة من فئات الأمراض.
تم تطبيق تحويل درجة Z على درجات CaseOLAP داخل كل فئة لتحديد البروتينات المهمة باستخدام عتبة ثلاثة. يظهر العدد الإجمالي للبروتينات المهمة لكل فئة مرضية فوق كل مؤامرة كمان. كشف تحليل مسار Reactome لهذه البروتينات عن 12 مسارا مهما لجميع الأمراض.
يتم تقديم مثال على تطبيق التعلم العميق على الرسم البياني المعرفي الخاص بالمرض في هذا الشكل. يتم التنبؤ بالعلاقات الخفية بين البروتينات والمرض ، ويتم عرض الاحتمالات المحسوبة لكلا التنبؤين هنا بقيم تتراوح من صفر إلى واحد ، حيث يشير المرء إلى تنبؤ قوي. التسلسل المحدد أمر بالغ الأهمية لتنفيذ هذا البروتوكول ، لا سيما وحدات المعالجة المسبقة واستخراج النصوص.
تؤثر هاتان الخطوتان بشكل مباشر على تحديد البروتينات والمسارات العليا لكل مرض ، بالإضافة إلى بناء الرسم البياني المعرفي الخاص بالمرض. يتم تصور الرسم البياني المعرفي الناتج بشكل فعال بواسطة أدوات الرسم البياني ، مثل Neo4j و Cytoscape ، ويمكن الاستفادة منه لتنبؤات التعلم العميق المتقدمة للعلاقات الجديدة. يتيح CaseOLAP LIFT دراسة الارتباطات بين أي مكون خلوي وفئات الأمراض.
يدعم الرسم البياني المعرفي الناتج وارتباطات أمراض البروتين المرتبة معالجة اللغة الطبيعية والتحليلات القائمة على الرسم البياني للمتابعة.