يتم تقديم بروتوكول حسابي ، CaseOLAP LIFT ، وحالة استخدام للتحقيق في بروتينات الميتوكوندريا وارتباطاتها بأمراض القلب والأوعية الدموية كما هو موضح في التقارير الطبية الحيوية. يمكن تكييف هذا البروتوكول بسهولة لدراسة المكونات الخلوية والأمراض التي يختارها المستخدم.
وتمثل الكميات المتزايدة بسرعة والهائلة من التقارير الطبية الحيوية، التي يحتوي كل منها على العديد من الكيانات والمعلومات الغنية، موردا غنيا لتطبيقات التنقيب عن النصوص الطبية الحيوية. تمكن هذه الأدوات الباحثين من دمج هذه الاكتشافات وتصورها وترجمتها للكشف عن رؤى جديدة في علم أمراض الأمراض والعلاجات. في هذا البروتوكول ، نقدم CaseOLAP LIFT ، وهو خط أنابيب حسابي جديد للتحقيق في المكونات الخلوية وارتباطاتها المرضية عن طريق استخراج المعلومات التي يختارها المستخدم من مجموعات البيانات النصية (على سبيل المثال ، الأدبيات الطبية الحيوية). يحدد البرنامج البروتينات دون الخلوية وشركائها الوظيفيين ضمن المستندات ذات الصلة بالمرض. يتم تحديد المستندات الإضافية ذات الصلة بالمرض عبر طريقة احتساب ملصق البرنامج. لوضع سياق الارتباطات الناتجة عن أمراض البروتين ودمج المعلومات من العديد من الموارد الطبية الحيوية ذات الصلة ، يتم إنشاء رسم بياني معرفي تلقائيا لمزيد من التحليلات. نقدم حالة استخدام واحدة مع مجموعة من ~ 34 مليون وثيقة نصية تم تنزيلها عبر الإنترنت لتقديم مثال على توضيح دور بروتينات الميتوكوندريا في الأنماط الظاهرية المتميزة لأمراض القلب والأوعية الدموية باستخدام هذه الطريقة. علاوة على ذلك ، تم تطبيق نموذج التعلم العميق على الرسم البياني المعرفي الناتج للتنبؤ بالعلاقات غير المبلغ عنها سابقا بين البروتينات والمرض ، مما أدى إلى 1,583 ارتباطا مع الاحتمالات المتوقعة >0.90 ومع منطقة تحت منحنى خصائص تشغيل المستقبل (AUROC) تبلغ 0.91 في مجموعة الاختبار. يتميز هذا البرنامج بسير عمل آلي وقابل للتخصيص بدرجة عالية ، مع نطاق واسع من البيانات الخام المتاحة للتحليل ؛ لذلك ، باستخدام هذه الطريقة ، يمكن تحديد ارتباطات أمراض البروتين بموثوقية معززة داخل مجموعة نصية.
دراسة البروتينات المرتبطة بالأمراض تعزز المعرفة العلمية للإمراض وتساعد على تحديد العلاجات المحتملة. العديد من النصوص الكبيرة من المنشورات الطبية الحيوية ، مثل 34 مليون مقالة في PubMed تحتوي على عناوين المنشورات والملخصات ووثائق النص الكامل ، تبلغ عن نتائج جديدة تربط البروتينات بالأمراض. ومع ذلك ، فإن هذه النتائج مجزأة عبر مصادر مختلفة ويجب دمجها لتوليد رؤى طبية حيوية جديدة. توجد العديد من الموارد الطبية الحيوية لدمج جمعيات أمراض البروتين1،2،3،4،5،6،7. ومع ذلك ، غالبا ما تكون هذه الموارد المنسقة غير مكتملة وقد لا تشمل أحدث نتائج البحوث. تعد مناهج التنقيب عن النصوص ضرورية لاستخراج وتوليف ارتباطات أمراض البروتين في مجموعة نصية كبيرة ، مما يؤدي إلى فهم أكثر شمولا لهذه المفاهيم الطبية الحيوية في الأدبيات العلمية.
توجد مناهج متعددة للتنقيب عن النصوص الطبية الحيوية للكشف عن العلاقات بين البروتين والمرض8،9،10،11،12،13،14 ، ويساهم آخرون جزئيا في تحديد هذه العلاقات من خلال تحديد البروتينات أو الأمراض أو الكيانات الطبية الحيوية الأخرى المذكورة في النص 13،15،16،17 ، 18,19. ومع ذلك ، تفتقر العديد من هذه الأدوات إلى الوصول إلى أحدث الأدبيات ، باستثناء عدد قليل يتم تحديثها بشكل دوري8،11،13،15. وبالمثل ، فإن العديد من الأدوات لها أيضا نطاق محدود من الدراسة ، لأنها تقتصر على أمراض أو بروتينات محددة مسبقا على نطاق واسع 9,13. وهناك عدة نهج تميل أيضا إلى تحديد الإيجابيات الخاطئة داخل النص؛ عالج آخرون هذه المشكلات من خلال قائمة سوداء عالمية قابلة للتفسير لأسماء البروتين9,11 أو أقل تقنيات التعرف على كيان الاسم القابلة للتفسير15,20. في حين أن معظم الموارد تقدم نتائج محسوبة مسبقا فقط ، فإن بعض الأدوات توفر التفاعل عبر تطبيقات الويب أو رمز البرنامجالذي يمكن الوصول إليه 8،9،11.
لمعالجة القيود المذكورة أعلاه ، نقدم البروتوكول التالي ، CaseOLAP مع تضمين الملصق والنص الكامل (CaseOLAP LIFT) ، كمنصة مرنة وقابلة للتخصيص للتحقيق في الارتباطات بين البروتينات (على سبيل المثال ، البروتينات المرتبطة بمكون خلوي) والأمراض من مجموعات البيانات النصية. تتميز هذه المنصة بالتنظيم الآلي للبروتينات الخاصة بمصطلح الأنطولوجيا الجينية (GO) (على سبيل المثال ، البروتينات الخاصة بالعضيات) ، وإسناد تسميات مواضيع المستندات المفقودة ، وتحليل مستندات النص الكامل ، بالإضافة إلى أدوات التحليل والأدوات التنبؤية (الشكل 1 ، الشكل 2 ، والجدول 1). يقوم CaseOLAP LIFT برعاية البروتينات الخاصة بالعضيات باستخدام مصطلحات GO المقدمة من المستخدم (على سبيل المثال ، حجرة العضيات) والبروتينات ذات الصلة وظيفيا باستخدام STRING21 و Reactome 22 و GRNdb23. يتم تحديد وثائق دراسة الأمراض من خلال تسميات رأس الموضوع الطبي المشروح PubMed (MeSH). بالنسبة إلى ~ 15.1٪ من المستندات غير المسماة ، يتم احتساب التسميات إذا تم العثور على مرادف مصطلح MeSH واحد على الأقل في العنوان أو تم العثور على اثنين على الأقل في الملخص. وهذا يمكن من النظر في المنشورات غير المصنفة سابقا في تحليل التنقيب عن النصوص. يسمح CaseOLAP LIFT أيضا للمستخدم بتحديد أقسام المنشورات (على سبيل المثال ، العناوين والملخصات فقط ، أو النص الكامل ، أو طرق استبعاد النص الكامل) ضمن إطار زمني محدد (على سبيل المثال ، 2012-2022). يقوم البرنامج أيضا برعاية قائمة سوداء خاصة بحالة الاستخدام لأسماء البروتين بشكل شبه تلقائي ، مما يقلل بشكل حيوي من ارتباطات أمراض البروتين الإيجابية الكاذبة الموجودة في الأساليب الأخرى. بشكل عام ، تتيح هذه التحسينات قابلية أكبر للتخصيص والأتمتة ، وتوسيع كمية البيانات المتاحة للتحليل ، وإنتاج ارتباطات أكثر ثقة بين أمراض البروتين من مجموعة النصوص الطبية الحيوية الكبيرة.
يتضمن CaseOLAP LIFT المعرفة الطبية الحيوية ويمثل العلاقة بين المفاهيم الطبية الحيوية المختلفة باستخدام الرسم البياني المعرفي ، والذي يتم الاستفادة منه للتنبؤ بالعلاقات الخفية في الرسم البياني. في الآونة الأخيرة ، تم تطبيق طرق الحساب القائمة على الرسم البياني على الإعدادات البيولوجية ، بما في ذلك دمج وتنظيم المفاهيم الطبية الحيوية24،25 ، وإعادة استخدام الأدوية وتطويرها 26،27،28 ، ولاتخاذ القرارات السريرية من بيانات البروتينات 29.
لتوضيح المرافق ل CaseOLAP LIFT في إعداد إنشاء رسم بياني معرفي ، نسلط الضوء على حالة استخدام حول التحقيق في الارتباطات بين بروتينات الميتوكوندريا وثماني فئات من أمراض القلب والأوعية الدموية. تم تحليل الأدلة من ~ 362000 وثيقة ذات صلة بالمرض لتحديد أفضل بروتينات الميتوكوندريا والمسارات المرتبطة بالأمراض. بعد ذلك ، تم دمج هذه البروتينات والبروتينات المرتبطة وظيفيا ونتائج التنقيب عن النصوص في الرسم البياني المعرفي. تم الاستفادة من هذا الرسم البياني في تحليل التنبؤ بالارتباط القائم على التعلم العميق للتنبؤ بارتباطات أمراض البروتين التي لم يتم الإبلاغ عنها حتى الآن في المنشورات الطبية الحيوية.
يصف قسم المقدمة المعلومات الأساسية وأهداف بروتوكولنا. يصف القسم التالي خطوات البروتوكول الحسابي. بعد ذلك ، يتم وصف النتائج التمثيلية لهذا البروتوكول. أخيرا ، نناقش بإيجاز حالات استخدام البروتوكول الحسابي والمزايا والعيوب والتطبيقات المستقبلية.
1. تشغيل حاوية عامل الإرساء
2. تحضير الأمراض والبروتينات
3. التنقيب عن النصوص
4. تحليل النتائج
5. التحليل التنبئي
تم إنتاج نتائج تمثيلية باتباع هذا البروتوكول لدراسة الارتباطات بين بروتينات الميتوكوندريا (الجدول 2) وثماني فئات من أمراض القلب والأوعية الدموية (الجدول 3). في هذه الفئات ، وجدنا 363,567 منشورا منشورا منشورا من عام 2012 إلى أكتوبر 2022 (362,878 منشورا مصنفا حسب البيانات الوصفية ل MeSH ، و 6,923 منشورا مصنفا حسب احتساب الملصق). كان لجميع المنشورات عناوين ، وكان 276,524 يحتوي على ملخصات ، و 51,065 كان النص الكامل متاحا. بشكل عام ، تم تحديد 584 من 1,687 من بروتينات الميتوكوندريا التي تم الاستفسار عنها في المنشورات ، بينما تم تحديد 3,284 من 8,026 بروتينا مرتبطا وظيفيا. في المجموع ، تم تحديد 14 بروتينا فريدا بدرجات مهمة في جميع فئات المرض ، مع عتبة درجة z تبلغ 3.0 (الشكل 5). كشف تحليل مسار Reactome لهذه البروتينات عن 12 مسارا مهما لجميع الأمراض (الشكل 6). تم دمج جميع البروتينات والمسارات والأمراض والدرجات في الرسم البياني المعرفي (الجدول 4). تم الاستفادة من هذا الرسم البياني المعرفي للتنبؤ ب 12,688 جمعية جديدة لأمراض البروتين وتمت تصفيتها بدرجة احتمالية 0.90 للحصول على 1,583 تنبؤا عالي الثقة. يوضح الشكل 7 مثالا بارزا لارتباطين بين البروتين والمرض، موضحا في سياق الكيانات البيولوجية الأخرى ذات الصلة المرتبطة وظيفيا بالبروتينات. وترد مقاييس تقييم النموذج في الجدول 5.
الشكل 1: عرض ديناميكي لسير العمل. يمثل هذا الرقم الخطوات الرئيسية الأربع في سير العمل هذا. أولا ، يتم تنسيق البروتينات ذات الصلة بناء على شروط GO المقدمة من المستخدم (على سبيل المثال ، المكونات الخلوية) ، ويتم إعداد فئات الأمراض بناء على معرفات MeSH للمرض التي يوفرها المستخدم. ثانيا ، يتم حساب الارتباطات بين البروتينات والأمراض في خطوة التنقيب عن النصوص. يتم تنزيل المنشورات ضمن نطاق زمني معين وفهرستها. يتم تحديد منشورات دراسة الأمراض (عبر ملصقات MeSH واختياريا عبر الملصقات المنسوبة) ، ويتم تنزيل نصوصها الكاملة وفهرستها. يتم الاستعلام عن أسماء البروتين داخل المنشورات واستخدامها لحساب درجات ارتباط البروتين والمرض. بعد ذلك ، بعد التنقيب عن النص ، تساعد هذه الدرجات في تحديد أهم ارتباطات البروتين والمسار. أخيرا ، يتم إنشاء رسم بياني معرفي يشمل هذه البروتينات والأمراض وعلاقاتها داخل قاعدة المعرفة الطبية الحيوية. يتم التنبؤ بارتباطات جديدة بين البروتين والمرض بناء على الرسم البياني المعرفي المبني. تستخدم هذه الخطوات أحدث البيانات المتاحة من قواعد المعرفة الطبية الحيوية و PubMed. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.
الشكل 2: البنية التقنية لسير العمل. التفاصيل الفنية لسير العمل هذا موضحة في هذا الشكل. يوفر المستخدم أرقام شجرة MeSH لفئات المرض ومصطلح (مصطلحات) GO. يتم تنزيل المستندات النصية من PubMed ، ويتم تحديد المستندات ذات الصلة بالمرض بناء على ملصقات MeSH المقدمة ، وتتلقى المستندات التي لا تحتوي على تسميات MeSH التي تشير إلى الموضوع تسميات الفئات المنسوبة. يتم الحصول على البروتينات المرتبطة بمصطلح (مصطلحات) GO المقدمة. يتم توسيع مجموعة البروتين هذه لتشمل البروتينات المرتبطة وظيفيا عبر تفاعلات البروتين والبروتين ، والمسارات البيولوجية المشتركة ، والاعتماد على عامل النسخ. يتم الاستعلام عن هذه البروتينات في الوثائق ذات الصلة بالمرض ويتم تسجيلها بواسطة CaseOLAP. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.
الشكل 3: مثال على مستند تمت معالجته. يتم تقديم مثال على مستند نصي مفهرس تم تحليله هنا. بالترتيب ، تشير الحقول ذات الصلة إلى اسم الفهرس (_index ، _type) ، معرف PubMed (_id ، pmid) ، الأقسام الفرعية للوثيقة (العنوان ، الملخص ، full_text ، المقدمة ، الأساليب ، النتائج ، المناقشة) ، والبيانات الوصفية الأخرى (السنة ، MeSH ، الموقع ، المجلة). لأغراض العرض فقط، يتم اقتطاع الأقسام الفرعية للمستند بعلامات حذف. يحتوي حقل MeSH على موضوعات المستند ، والتي قد يتم توفيرها أحيانا من خلال خطوة تضمين التسمية. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.
الشكل 4: مخطط الرسم البياني المعرفي والموارد الطبية الحيوية. يوضح هذا الشكل مخطط الرسم البياني المعرفي. تمثل كل عقدة وحافة نوع عقدة أو حافة ، على التوالي. يتم ترجيح الحواف بين أمراض القلب والأوعية الدموية (CVDs) والبروتينات من خلال درجات CaseOLAP. يتم ترجيح حواف تفاعل البروتين والبروتين (PPI) من خلال درجات ثقة STRING. حواف الاعتماد على عامل النسخ المشتق من GRNdb / GTEx (TFD) ، وحواف شجرة المرض المشتقة من MeSH ، وحواف المسار المشتقة من المفاعل غير مرجحة. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.
الشكل 5: أهم ارتباطات أمراض البروتين. يعرض هذا الشكل بروتينات الميتوكوندريا المهمة لكل فئة من فئات الأمراض. تم تطبيق تحويل درجة Z على درجات CaseOLAP داخل كل فئة لتحديد البروتينات المهمة باستخدام عتبة 3.0. (أعلى) عدد بروتينات الميتوكوندريا المهمة لكل مرض: تصور مخططات الكمان هذه توزيع درجات z للبروتينات في كل فئة من فئات الأمراض. يظهر العدد الإجمالي للبروتينات المهمة لكل فئة مرضية فوق كل مؤامرة كمان. تم تحديد ما مجموعه 14 بروتينا فريدا على أنها مهمة في جميع الأمراض ، وكانت بعض البروتينات مهمة لأمراض متعددة. (أسفل) البروتينات الأعلى تسجيلا: تعرض خريطة الحرارة أفضل 10 بروتينات حصلت على أعلى متوسط درجات z في جميع الأمراض. لا تمثل القيم الفارغة أي درجة تم الحصول عليها بين البروتين والمرض. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.
الشكل 6: أهم ارتباطات المسار والمرض. يوضح هذا الشكل أهم المسارات البيولوجية المرتبطة بفئات الأمراض المدروسة ، كما هو محدد من خلال تحليل مسار المفاعل. تمت تصفية جميع تحليلات المسار باستخدام p < 0.05. تمثل قيم خريطة الحرارة متوسط درجة z لجميع البروتينات داخل المسار. (أعلى) المسارات المحفوظة بين جميع الأمراض: بشكل عام ، تم تحديد 14 بروتينا ذات صلة بجميع فئات الأمراض ، وتم الكشف عن 12 مسارا محفوظا بين جميع فئات الأمراض. تم بناء مخطط شجيري بناء على الهيكل الهرمي للمسار لربط المسارات بوظائف بيولوجية مماثلة. يمثل ارتفاع التشوه الصخري العمق النسبي داخل التسلسل الهرمي للمسار. الوظائف البيولوجية الواسعة لها أطراف أطول ، والمسارات الأكثر تحديدا لها أطراف أقصر. (أسفل) مسارات مميزة لفئة المرض: تم إجراء تحليل المسار باستخدام البروتينات التي حققت درجة z كبيرة في كل مرض. يتم عرض المسارات الثلاثة الأولى ذات القيم p الأقل المرتبطة بكل مرض والإشارة إليها بالعلامات النجمية. يمكن أن تكون المسارات ضمن المراكز الثلاثة الأولى في أمراض متعددة. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.
الشكل 7: تطبيق التعلم العميق لإكمال الرسم البياني المعرفي. يتم تقديم مثال على تطبيق التعلم العميق على الرسم البياني المعرفي الخاص بالمرض في هذا الشكل. يتم التنبؤ بالعلاقات الخفية بين البروتينات والمرض ، ويشار إليها باللون الأزرق. يتم عرض الاحتمالات المحسوبة لكلا التنبؤين ، بقيم تتراوح من 0.0 إلى 1.0 ومع 1.0 تشير إلى تنبؤ قوي. يتم تضمين العديد من البروتينات ذات التفاعلات المعروفة ، والتي تمثل تفاعلات البروتين والبروتين ، والاعتماد على عامل النسخ ، والمسارات البيولوجية المشتركة. للتصور ، يتم عرض رسم بياني فرعي لبعض العقد ذات الصلة بالمثال المميز. مفتاح: IHD = مرض نقص تروية القلب. R-HSA-1430728 = التمثيل الغذائي. O14949 = الوحدة الفرعية المعقدة للسيتوكروم b-c1 8 ؛ P17568 = نازعة هيدروجين NADH (يوبيكوينون) 1 وحدة فرعية فرعية بيتا 7 ؛ Q9NYF8 عامل النسخ المرتبط ب Bcl-2 1 ، النتيجة: 7.24 × 10−7 ؛ P49821 = نازعة هيدروجين NADH (يوبيكوينون) فلافوبروتين 1 ، الميتوكوندريا ، النتيجة: 1.06 × 10−5 ؛ P31930 = الوحدة الفرعية المعقدة للسيتوكروم b-c1 1 ، الميتوكوندريا ، النتيجة: 4.98 × 10−5 ؛ P99999 = السيتوكروم ج ، النتيجة: 0.399. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.
الجدول 1: سير العمل وخطوات تحديد المعدل. يعرض هذا الجدول تقديرات تقريبية للوقت الحسابي لكل مرحلة من مراحل سير العمل. ستؤدي خيارات تضمين مكونات خط الأنابيب إلى تغيير إجمالي وقت التشغيل اللازم لإكمال التحليل. يختلف تقدير الوقت الإجمالي وفقا للموارد الحسابية المتاحة، بما في ذلك مواصفات الأجهزة وإعدادات البرامج. كتقدير تقريبي ، استغرق البروتوكول 36 ساعة من وقت التشغيل النشط للتنفيذ على خادمنا الحسابي ، مع ستة نوى ، و 32 جيجابايت من ذاكرة الوصول العشوائي ، و 2 تيرابايت من التخزين ، ولكن هذا قد يكون أسرع أو أبطأ على الأجهزة الأخرى. الرجاء الضغط هنا لتنزيل هذا الجدول.
الجدول 2: التجميع التلقائي للبروتينات المكونة الخلوية. يوضح هذا الجدول عدد البروتينات المرتبطة بمكون خلوي معين (أي مصطلح GO) ، والبروتينات المرتبطة وظيفيا بها عبر تفاعلات البروتين والبروتين (PPI) ، والمسارات المشتركة (PW) ، والاعتماد على عامل النسخ (TFD). عدد البروتينات الكلية هو عدد البروتينات من جميع الفئات السابقة مجتمعة. تم الحصول على جميع البروتينات ذات الصلة وظيفيا باستخدام المعلمات الافتراضية ل CaseOLAP LIFT. الرجاء الضغط هنا لتنزيل هذا الجدول.
الجدول 3: إحصاءات احتساب تسمية MeSH. يعرض هذا الجدول فئات الأمراض ، وأرقام شجرة MeSH المستخدمة كمصطلح أصلي لجميع الأمراض المدرجة في الفئة ، وعدد مقالات PubMed الموجودة في كل فئة من 2012-2022 ، وعدد المقالات الإضافية المضمنة بناء على خطوة احتساب التسمية. الرجاء الضغط هنا لتنزيل هذا الجدول.
الجدول 4: إحصاءات بناء الرسم البياني المعرفي. يصف هذا الجدول إحصائيات حجم الرسم البياني المعرفي الذي تم إنشاؤه، بما في ذلك العقد المختلفة وأنواع الحواف. تمثل درجات CaseOLAP العلاقة بين فئة البروتين وأمراض القلب والأوعية الدموية (CVD). الرجاء الضغط هنا لتنزيل هذا الجدول.
الجدول 5: إحصاءات التنبؤ بالرسم البياني المعرفي وعمليات التحقق من الصحة. يوضح هذا الجدول مقاييس التقييم للتنبؤ بارتباط الرسم البياني المعرفي لارتباطات أمراض البروتين الجديدة / المخفية. تم تقسيم حواف الرسم البياني المعرفي إلى مجموعات بيانات تدريب واختبار 70/30 ، وتم الحفاظ على اتصال الرسم البياني للحواف في كلتا مجموعتي البيانات. تشير الدقة إلى نسبة التنبؤات المصنفة بشكل صحيح ، بينما تصحح الدقة المتوازنة اختلال التوازن الطبقي. تشير الخصوصية إلى نسبة التنبؤات السلبية المصنفة بشكل صحيح. تشير الدقة إلى نسبة التنبؤات الإيجابية الصحيحة من بين جميع التنبؤات الإيجابية ، بينما يشير الاستدعاء إلى نسبة التنبؤات الإيجابية الصحيحة من جميع الحواف الإيجابية (أي ارتباطات أمراض البروتين التي تم تحديدها عن طريق التنقيب عن النصوص). درجة F1 هي الوسيلة التوافقية للدقة والتذكر. تصف المنطقة الواقعة أسفل منحنى خصائص تشغيل المستقبل (AUROC) مدى تميز النموذج بين التنبؤات الإيجابية والسلبية ، حيث يشير 1.0 إلى مصنف مثالي. تقيس المنطقة الواقعة تحت منحنى الاستدعاء الدقيق (AUPRC) المفاضلة بين الدقة والاستدعاء عند عتبات احتمالية متفاوتة ، مع القيم الأعلى التي تشير إلى أداء أفضل. الرجاء الضغط هنا لتنزيل هذا الجدول.
يمكن CaseOLAP LIFT الباحثين من التحقيق في الارتباطات بين البروتينات الوظيفية (على سبيل المثال ، البروتينات المرتبطة بمكون خلوي أو عملية بيولوجية أو وظيفة جزيئية) والفئات البيولوجية (مثل الأمراض). يجب تنفيذ البروتوكول الموصوف بالتسلسل المحدد ، مع كون قسم البروتوكول 2 وقسم البروتوكول 3 أهم الخطوات ، حيث يعتمد قسم البروتوكول 4 وقسم البروتوكول 5 على نتائجهما. كبديل لقسم البروتوكول 1 ، يمكن استنساخ رمز CaseOLAP LIFT والوصول إليه من مستودع GitHub (https://github.com/CaseOLAP/caseolap_lift). تجدر الإشارة إلى أنه على الرغم من الاختبار أثناء تطوير البرنامج ، قد تحدث أخطاء. إذا كان الأمر كذلك ، فيجب تكرار الخطوة الفاشلة. إذا استمرت المشكلة، فمن المستحسن تكرار قسم البروتوكول 1 لضمان استخدام أحدث إصدار من حاوية عامل الإرساء. يتوفر مزيد من المساعدة من خلال إنشاء مشكلة في مستودع GitHub للحصول على دعم إضافي.
تدعم هذه الطريقة توليد الفرضيات من خلال تمكين الباحثين من تحديد الكيانات ذات الأهمية والكشف عن الارتباطات المحتملة بينها ، والتي قد لا تكون متاحة بسهولة في الموارد الطبية الحيوية الحالية. تسمح الارتباطات الناتجة عن أمراض البروتين للباحثين باكتساب رؤى جديدة من خلال المقاييس القابلة للتفسير للدرجات: تشير درجات الشعبية إلى البروتينات الأكثر دراسة فيما يتعلق بالمرض ، وتشير درجات التميز إلى الأمراض الأكثر تميزا للبروتين ، ودرجة CaseOLAP المجمعة هي مزيج من الاثنين. لمنع التعريفات الإيجابية الخاطئة (على سبيل المثال ، بسبب المترادفات) ، تستخدم بعض أدوات التنقيب عن النصوص قائمة سوداء من المصطلحات لتجنب 9,11. وبالمثل ، يستخدم CaseOLAP LIFT أيضا قائمة سوداء ولكنه يسمح للمستخدم بتخصيص القائمة السوداء وفقا لحالة الاستخدام الخاصة به. على سبيل المثال ، عند دراسة مرض الشريان التاجي (CAD) ، لا ينبغي اعتبار "CAD" اسما للبروتين "deoxyribonuclease المنشط بالكاسباس". ومع ذلك ، عند دراسة مواضيع أخرى ، قد يشير "CAD" عادة إلى البروتين.
يتكيف CaseOLAP LIFT مع كمية البيانات المتاحة للتنقيب عن النصوص. تخفف وظيفة النطاق الزمني من العبء الحسابي وتخلق مرونة لتوليد الفرضيات (على سبيل المثال ، دراسة كيفية تغير المعرفة العلمية حول ارتباط مرض البروتين بمرور الوقت). وفي الوقت نفسه ، فإن مكونات تضمين التسمية والنص الكامل تعزز نطاق البيانات المتاحة للتنقيب عن النصوص. يتم تعطيل كلا المكونين بشكل افتراضي لتقليل التكاليف الحسابية ، ولكن قد يقرر المستخدم تضمين أي من المكونين. إن تصنيف التسمية متحفظ ، ويصنف معظم المنشورات بشكل صحيح (دقة 87٪) ولكنه يفتقد تسميات الفئات الأخرى (تذكر 2٪). تعتمد هذه الطريقة حاليا على دليل إرشادي قائم على القواعد يطابق الكلمات الرئيسية للمرض ، وهناك خطط لتحسين الأداء من خلال استخدام تقنيات نمذجة موضوع المستند. نظرا لأن العديد من التقارير غير المصنفة تميل إلى أن تكون منشورات حديثة ، فإن الدراسات التي تبحث في نطاق زمني حديث (على سبيل المثال ، جميع المنشورات خلال آخر 3 سنوات) يتم تقديمها بشكل أفضل عن طريق تعطيل إسناد التصنيف. يزيد مكون النص الكامل من وقت التشغيل ومتطلبات التخزين. والجدير بالذكر أن أقلية فقط من الوثائق لديها النص الكامل المتاح (~ 14٪ من الوثائق في دراستنا). بافتراض أن أسماء البروتين المذكورة في قسم طرق المنشورات أقل احتمالا أن تكون مرتبطة بموضوعات المرض ، يوصى بالاستعلام عن مقالات النص الكامل باستثناء قسم الطرق.
تعد درجات ارتباط البروتين والمرض الناتجة مفيدة للتحليلات التقليدية مثل التجميع أو تقليل الأبعاد أو تحليلات التخصيب (على سبيل المثال ، GO ، المسارات) ، مع تضمين بعض التنفيذ في حزمة البرامج هذه. لوضع هذه الدرجات في سياقها ضمن المعرفة الطبية الحيوية الحالية ، يتم إنشاء رسم بياني معرفي تلقائيا ويمكن استكشافه باستخدام أدوات تصور الرسم البياني (على سبيل المثال ، Neo4j32 ، Cytoscape33). يمكن أيضا استخدام الرسم البياني المعرفي للتحليلات التنبؤية (على سبيل المثال ، التنبؤ بالارتباطات للعلاقات غير المبلغ عنها بين البروتين والمرض ، والكشف المجتمعي عن شبكات البروتين ، وطرق جمع الجوائز في مسارات المشي).
لقد درسنا مقاييس تقييم النموذج لارتباطات أمراض البروتين المتوقعة (الجدول 5). يعين النموذج درجة احتمال بين 0.0 و 1.0 لكل ارتباط بالبروتين والمرض ، مع درجات أقرب إلى 1.0 تشير إلى مستوى أعلى من الثقة في التنبؤ. أشار التقييم الداخلي لأداء النموذج ، والذي استند إلى مقاييس مختلفة بما في ذلك AUROC والدقة والدقة المتوازنة والنوعية والاستدعاء ، إلى الأداء العام الممتاز في عمله. ومع ذلك ، سلط التقييم الضوء أيضا على درجة ضعيفة إلى حد ما لدقة (0.15) للنموذج ، مما أدى إلى انخفاض درجة AUPRC و F1. ستساعد الدراسات المستقبلية لتحسين هذا المقياس على رفع الأداء العام للنموذج. نتصور أنه يمكن تحقيق ذلك من خلال تنفيذ نماذج أكثر تطورا لتضمين الرسم البياني المعرفي والتنبؤ بالرسم البياني. استنادا إلى دقة النموذج البالغة 0.15 ، يجب أن يتوقع الباحثون ما يقرب من 15٪ من عمليات تحديد الهوية الإيجابية. على وجه الخصوص ، من بين جميع ارتباطات أمراض البروتين البالغ عددها 12,688 التي تنبأ بها النموذج ، فإن ما يقرب من 15٪ هي ارتباطات إيجابية حقيقية. يمكن التخفيف من ذلك من خلال النظر فقط في ارتباطات أمراض البروتين ذات درجة احتمالية عالية (على سبيل المثال ، >0.90) ؛ في حالة الاستخدام الخاصة بنا ، أدت التصفية بحد احتمال 0.90 إلى تنبؤات عالية الثقة ل 1583 جمعية. قد يجد المحققون أنه من المفيد أيضا فحص هذه التنبؤات يدويا لضمان صحة عالية (انظر الشكل 7 كمثال). حدد تقييم خارجي لتوقعاتنا أنه من بين 310 ارتباطات لأمراض البروتين من قاعدة بيانات منسقة واسعة النطاق DisGeNet19 ، تم تحديد 103 في دراستنا للتنقيب عن النصوص ، وتم التنبؤ ب 88 ارتباطا إضافيا من خلال تحليل الرسم البياني المعرفي الخاص بنا بدرجة احتمالية >0.90.
بشكل عام ، يتميز CaseOLAP LIFT بمرونة محسنة وسهولة الاستخدام في تصميم تحليلات مخصصة للارتباطات بين مجموعات البروتين الوظيفية وفئات متعددة من الأمراض في مجموعة النصوص الكبيرة. يتم تبسيط هذه الحزمة في واجهة سطر أوامر جديدة سهلة الاستخدام ويتم إصدارها كحاوية عامل إرساء ، وبالتالي تقليل المشكلات المرتبطة بتكوين بيئات البرمجة وتبعيات البرامج. يمكن تكييف خط أنابيب CaseOLAP LIFT لدراسة بروتينات الميتوكوندريا في أمراض القلب والأوعية الدموية بسهولة. على سبيل المثال ، يمكن أن تتضمن التطبيقات المستقبلية لهذه التقنية التحقيق في الارتباطات بين أي بروتينات مرتبطة بأي مصطلحات GO وأي فئة طبية حيوية. علاوة على ذلك ، فإن ارتباطات أمراض البروتين المصنفة التي حددتها منصة التنقيب عن النصوص هذه مهمة في إعداد مجموعة البيانات لاستخدام تقنيات اللغة الطبيعية المتقدمة. يمكن الرسم البياني المعرفي الناتج الباحثين من تحويل هذه النتائج إلى معرفة إعلامية بيولوجيا ويضع الأساس لمتابعة التحليلات القائمة على الرسم البياني.
ليس لدى المؤلفين ما يكشفون عنه.
تم دعم هذا العمل من قبل المعاهد الوطنية للصحة (NIH) R35 HL135772 إلى P.P. ، NIH T32 HL13945 إلى A.R.P. و DS ، NIH T32 EB016640 إلى A.R.P. ، التدريب البحثي لمؤسسة العلوم الوطنية (NRT) 1829071 إلى A.R.P. و DS ، NIH R01 HL146739 ل I.A. ، J.R. ، A.V. ، K.B. ، ووقف TC Laubisch إلى P.P. في جامعة كاليفورنيا في لوس أنجلوس.
Name | Company | Catalog Number | Comments |
Software - Docker | Docker | N/A | docker.com |
Request permission to reuse the text or figures of this JoVE article
Request PermissionExplore More Articles
This article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. All rights reserved