نهج الرسم البياني المعرفي لتوضيح دور المسارات العضية في المرض من خلال التقارير الطبية الحيوية

Alexander  R. Pelletier; Dylan Steinecke; Dibakar Sigdel; Irsyad Adam; J. Harry Caufield; Vladimir Guevara-Gonzalez; Joseph Ramirez; Aarushi Verma; Kaitlyn Bali; Katherine Downs; Wei Wang; Alex Bui; Peipei Ping

doi:10.3791/65084

Summary

يتم تقديم بروتوكول حسابي ، CaseOLAP LIFT ، وحالة استخدام للتحقيق في بروتينات الميتوكوندريا وارتباطاتها بأمراض القلب والأوعية الدموية كما هو موضح في التقارير الطبية الحيوية. يمكن تكييف هذا البروتوكول بسهولة لدراسة المكونات الخلوية والأمراض التي يختارها المستخدم.

Abstract

وتمثل الكميات المتزايدة بسرعة والهائلة من التقارير الطبية الحيوية، التي يحتوي كل منها على العديد من الكيانات والمعلومات الغنية، موردا غنيا لتطبيقات التنقيب عن النصوص الطبية الحيوية. تمكن هذه الأدوات الباحثين من دمج هذه الاكتشافات وتصورها وترجمتها للكشف عن رؤى جديدة في علم أمراض الأمراض والعلاجات. في هذا البروتوكول ، نقدم CaseOLAP LIFT ، وهو خط أنابيب حسابي جديد للتحقيق في المكونات الخلوية وارتباطاتها المرضية عن طريق استخراج المعلومات التي يختارها المستخدم من مجموعات البيانات النصية (على سبيل المثال ، الأدبيات الطبية الحيوية). يحدد البرنامج البروتينات دون الخلوية وشركائها الوظيفيين ضمن المستندات ذات الصلة بالمرض. يتم تحديد المستندات الإضافية ذات الصلة بالمرض عبر طريقة احتساب ملصق البرنامج. لوضع سياق الارتباطات الناتجة عن أمراض البروتين ودمج المعلومات من العديد من الموارد الطبية الحيوية ذات الصلة ، يتم إنشاء رسم بياني معرفي تلقائيا لمزيد من التحليلات. نقدم حالة استخدام واحدة مع مجموعة من ~ 34 مليون وثيقة نصية تم تنزيلها عبر الإنترنت لتقديم مثال على توضيح دور بروتينات الميتوكوندريا في الأنماط الظاهرية المتميزة لأمراض القلب والأوعية الدموية باستخدام هذه الطريقة. علاوة على ذلك ، تم تطبيق نموذج التعلم العميق على الرسم البياني المعرفي الناتج للتنبؤ بالعلاقات غير المبلغ عنها سابقا بين البروتينات والمرض ، مما أدى إلى 1,583 ارتباطا مع الاحتمالات المتوقعة >0.90 ومع منطقة تحت منحنى خصائص تشغيل المستقبل (AUROC) تبلغ 0.91 في مجموعة الاختبار. يتميز هذا البرنامج بسير عمل آلي وقابل للتخصيص بدرجة عالية ، مع نطاق واسع من البيانات الخام المتاحة للتحليل ؛ لذلك ، باستخدام هذه الطريقة ، يمكن تحديد ارتباطات أمراض البروتين بموثوقية معززة داخل مجموعة نصية.

Introduction

دراسة البروتينات المرتبطة بالأمراض تعزز المعرفة العلمية للإمراض وتساعد على تحديد العلاجات المحتملة. العديد من النصوص الكبيرة من المنشورات الطبية الحيوية ، مثل 34 مليون مقالة في PubMed تحتوي على عناوين المنشورات والملخصات ووثائق النص الكامل ، تبلغ عن نتائج جديدة تربط البروتينات بالأمراض. ومع ذلك ، فإن هذه النتائج مجزأة عبر مصادر مختلفة ويجب دمجها لتوليد رؤى طبية حيوية جديدة. توجد العديد من الموارد الطبية الحيوية لدمج جمعيات أمراض البروتين¹،²،³،⁴،⁵،⁶^،⁷. ومع ذلك ، غالبا ما تكون هذه الموارد المنسقة غير مكتملة وقد لا تشمل أحدث نتائج البحوث. تعد مناهج التنقيب عن النصوص ضرورية لاستخراج وتوليف ارتباطات أمراض البروتين في مجموعة نصية كبيرة ، مما يؤدي إلى فهم أكثر شمولا لهذه المفاهيم الطبية الحيوية في الأدبيات العلمية.

توجد مناهج متعددة للتنقيب عن النصوص الطبية الحيوية للكشف عن العلاقات بين البروتين والمرض⁸،⁹،^10،11،12،13،¹⁴ ، ويساهم آخرون جزئيا في تحديد هذه العلاقات من خلال تحديد البروتينات أو الأمراض أو الكيانات الطبية الحيوية الأخرى المذكورة في النص 13،15،¹⁶،¹⁷ ^،^18,19. ومع ذلك ، تفتقر العديد من هذه الأدوات إلى الوصول إلى أحدث الأدبيات ، باستثناء عدد قليل يتم تحديثها بشكل دوري⁸،¹¹،¹³^،¹⁵. وبالمثل ، فإن العديد من الأدوات لها أيضا نطاق محدود من الدراسة ، لأنها تقتصر على أمراض أو بروتينات محددة مسبقا على نطاق واسع ^9,13. وهناك عدة نهج تميل أيضا إلى تحديد الإيجابيات الخاطئة داخل النص؛ عالج آخرون هذه المشكلات من خلال قائمة سوداء عالمية قابلة للتفسير لأسماء البروتين^9,11 أو أقل تقنيات التعرف على كيان الاسم القابلة للتفسير^15,20. في حين أن معظم الموارد تقدم نتائج محسوبة مسبقا فقط ، فإن بعض الأدوات توفر التفاعل عبر تطبيقات الويب أو رمز البرنامج^الذي يمكن الوصول إليه ^8،⁹^،¹¹.

لمعالجة القيود المذكورة أعلاه ، نقدم البروتوكول التالي ، CaseOLAP مع تضمين الملصق والنص الكامل (CaseOLAP LIFT) ، كمنصة مرنة وقابلة للتخصيص للتحقيق في الارتباطات بين البروتينات (على سبيل المثال ، البروتينات المرتبطة بمكون خلوي) والأمراض من مجموعات البيانات النصية. تتميز هذه المنصة بالتنظيم الآلي للبروتينات الخاصة بمصطلح الأنطولوجيا الجينية (GO) (على سبيل المثال ، البروتينات الخاصة بالعضيات) ، وإسناد تسميات مواضيع المستندات المفقودة ، وتحليل مستندات النص الكامل ، بالإضافة إلى أدوات التحليل والأدوات التنبؤية (الشكل 1 ، الشكل 2 ، والجدول 1). يقوم CaseOLAP LIFT برعاية البروتينات الخاصة بالعضيات باستخدام مصطلحات GO المقدمة من المستخدم (على سبيل المثال ، حجرة العضيات) والبروتينات ذات الصلة وظيفيا باستخدام STRING²¹ و Reactome 22 و GRNdb²³. يتم تحديد وثائق دراسة الأمراض من خلال تسميات رأس الموضوع الطبي المشروح PubMed (MeSH). بالنسبة إلى ~ 15.1٪ من المستندات غير المسماة ، يتم احتساب التسميات إذا تم العثور على مرادف مصطلح MeSH واحد على الأقل في العنوان أو تم العثور على اثنين على الأقل في الملخص. وهذا يمكن من النظر في المنشورات غير المصنفة سابقا في تحليل التنقيب عن النصوص. يسمح CaseOLAP LIFT أيضا للمستخدم بتحديد أقسام المنشورات (على سبيل المثال ، العناوين والملخصات فقط ، أو النص الكامل ، أو طرق استبعاد النص الكامل) ضمن إطار زمني محدد (على سبيل المثال ، 2012-2022). يقوم البرنامج أيضا برعاية قائمة سوداء خاصة بحالة الاستخدام لأسماء البروتين بشكل شبه تلقائي ، مما يقلل بشكل حيوي من ارتباطات أمراض البروتين الإيجابية الكاذبة الموجودة في الأساليب الأخرى. بشكل عام ، تتيح هذه التحسينات قابلية أكبر للتخصيص والأتمتة ، وتوسيع كمية البيانات المتاحة للتحليل ، وإنتاج ارتباطات أكثر ثقة بين أمراض البروتين من مجموعة النصوص الطبية الحيوية الكبيرة.

يتضمن CaseOLAP LIFT المعرفة الطبية الحيوية ويمثل العلاقة بين المفاهيم الطبية الحيوية المختلفة باستخدام الرسم البياني المعرفي ، والذي يتم الاستفادة منه للتنبؤ بالعلاقات الخفية في الرسم البياني. في الآونة الأخيرة ، تم تطبيق طرق الحساب القائمة على الرسم البياني على الإعدادات البيولوجية ، بما في ذلك دمج وتنظيم المفاهيم الطبية الحيوية²⁴،25 ، وإعادة استخدام الأدوية وتطويرها 26،27،28 ^، ولاتخاذ القرارات السريرية من بيانات البروتينات ²⁹.

لتوضيح المرافق ل CaseOLAP LIFT في إعداد إنشاء رسم بياني معرفي ، نسلط الضوء على حالة استخدام حول التحقيق في الارتباطات بين بروتينات الميتوكوندريا وثماني فئات من أمراض القلب والأوعية الدموية. تم تحليل الأدلة من ~ 362000 وثيقة ذات صلة بالمرض لتحديد أفضل بروتينات الميتوكوندريا والمسارات المرتبطة بالأمراض. بعد ذلك ، تم دمج هذه البروتينات والبروتينات المرتبطة وظيفيا ونتائج التنقيب عن النصوص في الرسم البياني المعرفي. تم الاستفادة من هذا الرسم البياني في تحليل التنبؤ بالارتباط القائم على التعلم العميق للتنبؤ بارتباطات أمراض البروتين التي لم يتم الإبلاغ عنها حتى الآن في المنشورات الطبية الحيوية.

يصف قسم المقدمة المعلومات الأساسية وأهداف بروتوكولنا. يصف القسم التالي خطوات البروتوكول الحسابي. بعد ذلك ، يتم وصف النتائج التمثيلية لهذا البروتوكول. أخيرا ، نناقش بإيجاز حالات استخدام البروتوكول الحسابي والمزايا والعيوب والتطبيقات المستقبلية.

Protocol

1. تشغيل حاوية عامل الإرساء

قم بتنزيل حاوية عامل الإرساء CaseOLAP LIFT باستخدام النافذة الطرفية والكتابة في caseolap / caseolap_lift: latest.
قم بإنشاء دليل يخزن جميع بيانات البرنامج وإخراجه (مثل mkdir caseolap_lift_shared_folder).
ابدأ تشغيل حاوية عامل الإرساء باستخدام الأمر docker run --name caseolap_lift -it -v PATH_TO_FOLDER : / caseolap_lift_shared_folder caseolap / caseolap_lift: latest bash مع PATH_TO_FOLDER كمسار ملف كامل للمجلد (على سبيل المثال ، / Users / caseolap / caseolap_lift_shared_folder). سيتم إصدار الأوامر المستقبلية من القسم 2 في هذه النافذة الطرفية.
ابدأ البحث المرن داخل الحاوية. في نافذة طرفية جديدة ، اكتب docker exec -it --user elastic caseolap_lift bash / workspace / start_elastic_search.sh.
ملاحظة: في هذا البروتوكول ، يتم تشغيل CaseOLAP LIFT بشكل تفاعلي ، مع تنفيذ كل خطوة بالتتابع. يمكن أيضا تنفيذ هذا التحليل من طرف إلى طرف عن طريق تمريره كملف معلمات .txt. المعلمات .txt المستخدمة في هذه الدراسة موجودة في / مساحة العمل / caseolap_lift / المعلمات .txt. للوصول إلى مزيد من التفاصيل حول كل خطوة، قم بتشغيل الأمر باستخدام علامة - -help ، أو قم بزيارة الوثائق الموجودة على مستودع GitHub (https://github.com/CaseOLAP/caseolap_lift).

2. تحضير الأمراض والبروتينات

انتقل إلى مجلد caseolap_lift باستخدام cd / workspace / caseolap_lift
تأكد من أن ارتباطات التنزيل في config/knowledge_base_links.json محدثة ودقيقة لأحدث إصدار من كل مورد قاعدة معارف. بشكل افتراضي ، يتم تنزيل الملفات مرة واحدة فقط ؛ لتحديث هذه الملفات وإعادة تنزيلها، قم بتشغيل خطوة المعالجة المسبقة باستخدام -R في الخطوة 2.4.
حدد مصطلح GO وفئات المرض لاستخدامها في هذه الدراسة. ابحث عن معرفات جميع مصطلحات GO ومعرفات MeSH في http://geneontology.org/ و https://meshb.nlm.nih.gov/ ، على التوالي.
قم بتنفيذ وحدة المعالجة المسبقة باستخدام خيارات سطر الأوامر. تجمع خطوة المعالجة المسبقة هذه أمراضا محددة ، وتسرد البروتينات المراد دراستها ، وتجمع مرادفات البروتين للتنقيب عن النصوص. حدد مصطلحات GO المدروسة التي حددها المستخدم باستخدام العلم -c وأرقام شجرة MeSH المرضية باستخدام العلم -d ، وحدد الاختصارات باستخدام -a.
مثال على الأمر:
بايثون caseolap_lift.py المعالجة المسبقة -A "CM ARR CHD VD IHD CCD VOO OTH" -D "C14.280.238,C14.280.434 C14.280.067,C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195,C14.280.282,C14.280.383,C14.280.470,
C14.280.945 ، C14.280.459 ، C14.280.720 " -c "GO: 0005739" - تضمين المرادفات - تضمين PPI -K 1 -s 0.99 - تضمين pw -n 4 -r 0.5 - تضمين tfd
افحص الفئات .txt و core_proteins.txt وملفات proteins_of_interest.txt من الخطوة السابقة في مجلد الإخراج . تأكد من صحة جميع فئات الأمراض في الفئات .txt وأنه يتم تحديد كمية معقولة من البروتينات في غضون core_proteins.txt و proteins_of_interest.txt. إذا لزم الأمر ، كرر الخطوة 2.4 ، وقم بتعديل المعلمات لتشمل عددا أكبر أو أقل من البروتينات.
ملاحظة: يتم تحديد عدد البروتينات المدرجة في الدراسة من خلال --include-ppi و --include-pw و --include-tfd لتشمل تفاعلات البروتين والبروتين ، والبروتينات ذات مسارات التفاعل المشتركة ، والبروتينات ذات الاعتماد على عامل النسخ ، على التوالي. يتم تحديد وظائفها المحددة بعلامات إضافية مثل -k و -s و -n و -r (انظر الوثائق).

3. التنقيب عن النصوص

تأكد من العثور على الفئات .txt و core_proteins.txt و proteins_of_interest.txt الملفات من الخطوة السابقة في مجلد الإخراج. استخدم هذه الملفات كمدخل للتنقيب عن النص. اختياريا ، اضبط التكوينات المتعلقة بتحليل المستند وفهرسته في مجلد التكوين . راجع إصدارا سابقا من بروتوكول CaseOLAP للحصول على مزيد من التفاصيل حول التكوين واستكشاف الأخطاء وإصلاحها⁸.
قم بتنفيذ وحدة التنقيب عن النص باستخدام caseolap_lift.py text_mining python. أضف علامة - l لإسناد موضوعات المستندات غير المصنفة وعلامة -t لتنزيل النص الكامل للمستندات ذات الصلة بالمرض. تحدد العلامات الاختيارية الأخرى نطاقا زمنيا للمنشورات المراد تنزيلها (-d) وتوفر خيارات لفحص أسماء البروتين (الموضحة في الخطوة 3.3). يتم عرض عينة من مستند تم تحليله في الشكل 3.
مثال على الأمر: python caseolap_lift.py text_mining -d "2012-10-01,2022-10-01" -l -t
ملاحظة: يتم إنفاق الجزء الأكبر من وقت البروتوكول الحسابي على الخطوة 3.2 ، والتي يمكن أن تمتد لأكثر من 24 ساعة. سيعتمد وقت التشغيل على حجم مجموعة النص المراد تنزيلها، والتي ستعتمد أيضا على النطاق الزمني وما إذا كان قد تم تمكين وظيفة تضمين التسمية والنص الكامل.
(موصى به) فحص أسماء البروتين. تساهم أسماء البروتين المحددة في المنشورات ذات الصلة بالمرض في ارتباطات أمراض البروتين ولكنها عرضة للإيجابيات الكاذبة (أي المترادفات مع كلمات أخرى). لمعالجة هذا الأمر ، قم بتعداد المترادفات المحتملة في قائمة سوداء (config / remove_these_synonyms.txt) بحيث يتم استبعادها من الخطوات النهائية.
1. البحث عن أسماء لفحصها: ضمن مجلد النتائج ، ابحث عن أسماء البروتين ذات أعلى تردد تحت all_proteins أو core_proteins (ranked_synonyms / ranked_synonyms_TOTAL.txt) وأسماء البروتين ذات أعلى الدرجات أسفل المجلدات في ranked_proteins اعتمادا على النتيجة (الدرجات) محل الاهتمام. إذا كان هناك العديد من الأسماء ، فقم بإعطاء الأولوية لفحص الأسماء ذات الدرجات الأعلى.
2. فحص الأسماء: اكتب python caseolap_lift.py text_mining -c متبوعا باسم بروتين لعرض ما يصل إلى 10 منشورات تحتوي على أسماء. ثم ، لكل اسم ، تحقق مما إذا كان الاسم خاصا بالبروتين.
3. أعد حساب الدرجات: اكتب python caseolap_lift.py text_mining -s. كرر الخطوات 3.1 والخطوة 3.2 والخطوة 3.3 حتى تظهر الأسماء في الخطوة 3.1 صحيحة.

4. تحليل النتائج

تأكد من وجود نتائج التنقيب عن النص في مجلد النتائج (على سبيل المثال ، أدلة النتيجة / all_proteins والنتيجة / core_proteins والملفات المرتبطة بها) ، والتي سيتم استخدامها كمدخلات لخطوة التحليل. على وجه التحديد ، تم الإبلاغ عن درجة تشير إلى قوة كل ارتباط مرض البروتين في caseolap .csv ينتج عن التنقيب عن النص. حدد مجموعة نتائج التنقيب عن النص التي يجب استخدامها للتحليل عن طريق تحديد إما --analyze_core_proteins لتضمين البروتينات المرتبطة بمصطلح GO فقط أو --analyze_all_proteins لتضمين جميع البروتينات المرتبطة وظيفيا.
تحديد أهم البروتينات والمسارات لكل مرض. يتم تعريف الارتباطات الهامة لأمراض البروتين على أنها تلك التي تتجاوز درجاتها عتبة محددة. تقوم Z-score بتحويل درجات CaseOLAP داخل كل فئة من فئات المرض ، والنظر في البروتينات ذات الدرجات الأعلى من عتبة محددة (يشار إليها بعلامة -z ) على أنها مهمة.
ملاحظة: يتم تحديد المسارات البيولوجية المهمة لكل مرض تلقائيا باستخدام بروتينات مهمة كمدخلات لتحليل مسار المفاعل. يتم الإبلاغ عن جميع هذه البروتينات في result_table.csv الناتجة في مجلد analysis_results ، ويتم إنشاء الأشكال ذات الصلة ونتائج تحليل المسار تلقائيا في مجلد analysis_results.
مثال على الأمر: python caseolap_lift.py analyze_results -z 3.0 --analyze_core_proteins
راجع نتائج التحليل، واضبطها حسب الضرورة. يعتمد عدد البروتينات ، وبالتالي مسارات المفاعل المخصب المهمة لكل فئة من فئات المرض على عتبة درجة z المستخدمة في التحليل. يشير جدول z-score ، الذي تم إنشاؤه عند الناتج / analysis_results / zscore_cutoff_table.csv ، إلى عدد البروتينات المهمة لكل فئة من فئات المرض للمساعدة في اختيار عتبة z-score بأعلى مستوى ممكن مع إنتاج العديد من البروتينات المهمة لكل فئة مرض.

5. التحليل التنبئي

إنشاء رسم بياني معرفي.
1. تأكد من وجود الملفات المطلوبة في مجلد النتائج ، بما في ذلك مجلد kg الذي تم إنشاؤه من المعالجة المسبقة (الخطوة 2.4) وcaseolap.csv من نتائج استخراج النص ضمن مجلدات all_proteins أو core_proteins (الخطوة 3.2).
2. تصميم الرسم البياني المعرفي. استنادا إلى المهمة النهائية، قم بتضمين أو استبعاد مكونات الرسم البياني المعرفي الكامل. يتكون الرسم البياني المعرفي من درجات أمراض البروتين من التنقيب عن النص والصلات بموارد قاعدة المعرفة المستخدمة في الخطوة 2.4 (الشكل 4). قم بتضمين شجرة مرض MeSH مع العلم --include_mesh ، وتفاعلات البروتين والبروتين من STRING مع --include_ppi ، ومسارات المتفاعلات المشتركة مع --include_pw ، واعتماد عامل النسخ من GRNdb / GTEx مع --include_tfd.
3. قم بتشغيل وحدة إنشاء الرسم البياني المعرفي. حدد مجموعة نتائج التنقيب عن النص التي يجب استخدامها للتحليل عن طريق تحديد --analyze_core_proteins لتضمين البروتينات ذات الصلة بمصطلح GO فقط أو --analyze_all_proteins لتضمين جميع البروتينات المرتبطة وظيفيا. بشكل افتراضي ، يتم تحميل درجات CaseOLAP الخام كأوزان حافة بين البروتين وعقد المرض ؛ لقياس أوزان الحافة، أشر إلى --use_z_score أو درجات z غير السالبة باستخدام --scale_z_score.
  مثال على الأمر: caseolap_lift.py prepare_knowledge_graph python --scale_z_score
توقع الارتباطات الجديدة بين البروتين والمرض.
1. تأكد من إخراج ملفات الرسم البياني المعرفي، merged_edges.tsv و merged_nodes.tsv، من الخطوة السابقة (الخطوة 5.1.3).
2. قم بتشغيل البرنامج النصي للتنبؤ بالرسم البياني المعرفي للتنبؤ بارتباطات أمراض البروتين التي لم يتم الإبلاغ عنها حتى الآن في الأدبيات العلمية عن طريق كتابة python kg_analysis / run_kg_analysis.py. يتم تنفيذ ذلك مع GraPE³⁰ ويستخدم DistMult³¹ لإنتاج تضمين الرسم البياني المعرفي ، والذي يستخدمه الإدراك متعدد الطبقات للتنبؤ بارتباطات أمراض البروتين. في مجلد الإخراج/kg_analysis، يتم حفظ التنبؤات ذات الاحتمالية المتوقعة >0.90 (التنبؤات.csv) ومقاييس تقييم النموذج (eval_results.csv).
  ملاحظة: في هذا العمل، تم تصميم معلمات النموذج المختار (على سبيل المثال، طريقة التضمين، ونموذج التنبؤ بالارتباط، والمعلمات الفائقة) للدراسة التمثيلية. هذه المدونة بمثابة مثال ونقطة انطلاق للتحليلات الأخرى. لاستكشاف معلمات النموذج ، راجع وثائق GraPE (https://github.com/AnacletoLAB/grape).

النتائج

تم إنتاج نتائج تمثيلية باتباع هذا البروتوكول لدراسة الارتباطات بين بروتينات الميتوكوندريا (الجدول 2) وثماني فئات من أمراض القلب والأوعية الدموية (الجدول 3). في هذه الفئات ، وجدنا 363,567 منشورا منشورا منشورا من عام 2012 إلى أكتوبر 2022 (362,878 منشورا مصنفا حسب البيانات الوصفية ل MeSH ، و 6,923 منشورا مصنفا حسب احتساب الملصق). كان لجميع المنشورات عناوين ، وكان 276,524 يحتوي على ملخصات ، و 51,065 كان النص الكامل متاحا. بشكل عام ، تم تحديد 584 من 1,687 من بروتينات الميتوكوندريا التي تم الاستفسار عنها في المنشورات ، بينما تم تحديد 3,284 من 8,026 بروتينا مرتبطا وظيفيا. في المجموع ، تم تحديد 14 بروتينا فريدا بدرجات مهمة في جميع فئات المرض ، مع عتبة درجة z تبلغ 3.0 (الشكل 5). كشف تحليل مسار Reactome لهذه البروتينات عن 12 مسارا مهما لجميع الأمراض (الشكل 6). تم دمج جميع البروتينات والمسارات والأمراض والدرجات في الرسم البياني المعرفي (الجدول 4). تم الاستفادة من هذا الرسم البياني المعرفي للتنبؤ ب 12,688 جمعية جديدة لأمراض البروتين وتمت تصفيتها بدرجة احتمالية 0.90 للحصول على 1,583 تنبؤا عالي الثقة. يوضح الشكل 7 مثالا بارزا لارتباطين بين البروتين والمرض، موضحا في سياق الكيانات البيولوجية الأخرى ذات الصلة المرتبطة وظيفيا بالبروتينات. وترد مقاييس تقييم النموذج في الجدول 5.

figure-results-1432
الشكل 1: عرض ديناميكي لسير العمل. يمثل هذا الرقم الخطوات الرئيسية الأربع في سير العمل هذا. أولا ، يتم تنسيق البروتينات ذات الصلة بناء على شروط GO المقدمة من المستخدم (على سبيل المثال ، المكونات الخلوية) ، ويتم إعداد فئات الأمراض بناء على معرفات MeSH للمرض التي يوفرها المستخدم. ثانيا ، يتم حساب الارتباطات بين البروتينات والأمراض في خطوة التنقيب عن النصوص. يتم تنزيل المنشورات ضمن نطاق زمني معين وفهرستها. يتم تحديد منشورات دراسة الأمراض (عبر ملصقات MeSH واختياريا عبر الملصقات المنسوبة) ، ويتم تنزيل نصوصها الكاملة وفهرستها. يتم الاستعلام عن أسماء البروتين داخل المنشورات واستخدامها لحساب درجات ارتباط البروتين والمرض. بعد ذلك ، بعد التنقيب عن النص ، تساعد هذه الدرجات في تحديد أهم ارتباطات البروتين والمسار. أخيرا ، يتم إنشاء رسم بياني معرفي يشمل هذه البروتينات والأمراض وعلاقاتها داخل قاعدة المعرفة الطبية الحيوية. يتم التنبؤ بارتباطات جديدة بين البروتين والمرض بناء على الرسم البياني المعرفي المبني. تستخدم هذه الخطوات أحدث البيانات المتاحة من قواعد المعرفة الطبية الحيوية و PubMed. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

figure-results-2778
الشكل 2: البنية التقنية لسير العمل. التفاصيل الفنية لسير العمل هذا موضحة في هذا الشكل. يوفر المستخدم أرقام شجرة MeSH لفئات المرض ومصطلح (مصطلحات) GO. يتم تنزيل المستندات النصية من PubMed ، ويتم تحديد المستندات ذات الصلة بالمرض بناء على ملصقات MeSH المقدمة ، وتتلقى المستندات التي لا تحتوي على تسميات MeSH التي تشير إلى الموضوع تسميات الفئات المنسوبة. يتم الحصول على البروتينات المرتبطة بمصطلح (مصطلحات) GO المقدمة. يتم توسيع مجموعة البروتين هذه لتشمل البروتينات المرتبطة وظيفيا عبر تفاعلات البروتين والبروتين ، والمسارات البيولوجية المشتركة ، والاعتماد على عامل النسخ. يتم الاستعلام عن هذه البروتينات في الوثائق ذات الصلة بالمرض ويتم تسجيلها بواسطة CaseOLAP. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

figure-results-3787
الشكل 3: مثال على مستند تمت معالجته. يتم تقديم مثال على مستند نصي مفهرس تم تحليله هنا. بالترتيب ، تشير الحقول ذات الصلة إلى اسم الفهرس (_index ، _type) ، معرف PubMed (_id ، pmid) ، الأقسام الفرعية للوثيقة (العنوان ، الملخص ، full_text ، المقدمة ، الأساليب ، النتائج ، المناقشة) ، والبيانات الوصفية الأخرى (السنة ، MeSH ، الموقع ، المجلة). لأغراض العرض فقط، يتم اقتطاع الأقسام الفرعية للمستند بعلامات حذف. يحتوي حقل MeSH على موضوعات المستند ، والتي قد يتم توفيرها أحيانا من خلال خطوة تضمين التسمية. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

figure-results-4626
الشكل 4: مخطط الرسم البياني المعرفي والموارد الطبية الحيوية. يوضح هذا الشكل مخطط الرسم البياني المعرفي. تمثل كل عقدة وحافة نوع عقدة أو حافة ، على التوالي. يتم ترجيح الحواف بين أمراض القلب والأوعية الدموية (CVDs) والبروتينات من خلال درجات CaseOLAP. يتم ترجيح حواف تفاعل البروتين والبروتين (PPI) من خلال درجات ثقة STRING. حواف الاعتماد على عامل النسخ المشتق من GRNdb / GTEx (TFD) ، وحواف شجرة المرض المشتقة من MeSH ، وحواف المسار المشتقة من المفاعل غير مرجحة. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

figure-results-5425
الشكل 5: أهم ارتباطات أمراض البروتين. يعرض هذا الشكل بروتينات الميتوكوندريا المهمة لكل فئة من فئات الأمراض. تم تطبيق تحويل درجة Z على درجات CaseOLAP داخل كل فئة لتحديد البروتينات المهمة باستخدام عتبة 3.0. (أعلى) عدد بروتينات الميتوكوندريا المهمة لكل مرض: تصور مخططات الكمان هذه توزيع درجات z للبروتينات في كل فئة من فئات الأمراض. يظهر العدد الإجمالي للبروتينات المهمة لكل فئة مرضية فوق كل مؤامرة كمان. تم تحديد ما مجموعه 14 بروتينا فريدا على أنها مهمة في جميع الأمراض ، وكانت بعض البروتينات مهمة لأمراض متعددة. (أسفل) البروتينات الأعلى تسجيلا: تعرض خريطة الحرارة أفضل 10 بروتينات حصلت على أعلى متوسط درجات z في جميع الأمراض. لا تمثل القيم الفارغة أي درجة تم الحصول عليها بين البروتين والمرض. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

figure-results-6492
الشكل 6: أهم ارتباطات المسار والمرض. يوضح هذا الشكل أهم المسارات البيولوجية المرتبطة بفئات الأمراض المدروسة ، كما هو محدد من خلال تحليل مسار المفاعل. تمت تصفية جميع تحليلات المسار باستخدام p < 0.05. تمثل قيم خريطة الحرارة متوسط درجة z لجميع البروتينات داخل المسار. (أعلى) المسارات المحفوظة بين جميع الأمراض: بشكل عام ، تم تحديد 14 بروتينا ذات صلة بجميع فئات الأمراض ، وتم الكشف عن 12 مسارا محفوظا بين جميع فئات الأمراض. تم بناء مخطط شجيري بناء على الهيكل الهرمي للمسار لربط المسارات بوظائف بيولوجية مماثلة. يمثل ارتفاع التشوه الصخري العمق النسبي داخل التسلسل الهرمي للمسار. الوظائف البيولوجية الواسعة لها أطراف أطول ، والمسارات الأكثر تحديدا لها أطراف أقصر. (أسفل) مسارات مميزة لفئة المرض: تم إجراء تحليل المسار باستخدام البروتينات التي حققت درجة z كبيرة في كل مرض. يتم عرض المسارات الثلاثة الأولى ذات القيم p الأقل المرتبطة بكل مرض والإشارة إليها بالعلامات النجمية. يمكن أن تكون المسارات ضمن المراكز الثلاثة الأولى في أمراض متعددة. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

figure-results-7827
الشكل 7: تطبيق التعلم العميق لإكمال الرسم البياني المعرفي. يتم تقديم مثال على تطبيق التعلم العميق على الرسم البياني المعرفي الخاص بالمرض في هذا الشكل. يتم التنبؤ بالعلاقات الخفية بين البروتينات والمرض ، ويشار إليها باللون الأزرق. يتم عرض الاحتمالات المحسوبة لكلا التنبؤين ، بقيم تتراوح من 0.0 إلى 1.0 ومع 1.0 تشير إلى تنبؤ قوي. يتم تضمين العديد من البروتينات ذات التفاعلات المعروفة ، والتي تمثل تفاعلات البروتين والبروتين ، والاعتماد على عامل النسخ ، والمسارات البيولوجية المشتركة. للتصور ، يتم عرض رسم بياني فرعي لبعض العقد ذات الصلة بالمثال المميز. مفتاح: IHD = مرض نقص تروية القلب. R-HSA-1430728 = التمثيل الغذائي. O14949 = الوحدة الفرعية المعقدة للسيتوكروم b-c1 8 ؛ P17568 = نازعة هيدروجين NADH (يوبيكوينون) 1 وحدة فرعية فرعية بيتا 7 ؛ Q9NYF8 عامل النسخ المرتبط ب Bcl-2 1 ، النتيجة: 7.24 × 10⁻⁷ ؛ P49821 = نازعة هيدروجين NADH (يوبيكوينون) فلافوبروتين 1 ، الميتوكوندريا ، النتيجة: 1.06 × 10⁻⁵ ؛ P31930 = الوحدة الفرعية المعقدة للسيتوكروم b-c1 1 ، الميتوكوندريا ، النتيجة: 4.98 × 10⁻⁵ ؛ P99999 = السيتوكروم ج ، النتيجة: 0.399. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

الجدول 1: سير العمل وخطوات تحديد المعدل. يعرض هذا الجدول تقديرات تقريبية للوقت الحسابي لكل مرحلة من مراحل سير العمل. ستؤدي خيارات تضمين مكونات خط الأنابيب إلى تغيير إجمالي وقت التشغيل اللازم لإكمال التحليل. يختلف تقدير الوقت الإجمالي وفقا للموارد الحسابية المتاحة، بما في ذلك مواصفات الأجهزة وإعدادات البرامج. كتقدير تقريبي ، استغرق البروتوكول 36 ساعة من وقت التشغيل النشط للتنفيذ على خادمنا الحسابي ، مع ستة نوى ، و 32 جيجابايت من ذاكرة الوصول العشوائي ، و 2 تيرابايت من التخزين ، ولكن هذا قد يكون أسرع أو أبطأ على الأجهزة الأخرى. الرجاء الضغط هنا لتنزيل هذا الجدول.

الجدول 2: التجميع التلقائي للبروتينات المكونة الخلوية. يوضح هذا الجدول عدد البروتينات المرتبطة بمكون خلوي معين (أي مصطلح GO) ، والبروتينات المرتبطة وظيفيا بها عبر تفاعلات البروتين والبروتين (PPI) ، والمسارات المشتركة (PW) ، والاعتماد على عامل النسخ (TFD). عدد البروتينات الكلية هو عدد البروتينات من جميع الفئات السابقة مجتمعة. تم الحصول على جميع البروتينات ذات الصلة وظيفيا باستخدام المعلمات الافتراضية ل CaseOLAP LIFT. الرجاء الضغط هنا لتنزيل هذا الجدول.

الجدول 3: إحصاءات احتساب تسمية MeSH. يعرض هذا الجدول فئات الأمراض ، وأرقام شجرة MeSH المستخدمة كمصطلح أصلي لجميع الأمراض المدرجة في الفئة ، وعدد مقالات PubMed الموجودة في كل فئة من 2012-2022 ، وعدد المقالات الإضافية المضمنة بناء على خطوة احتساب التسمية. الرجاء الضغط هنا لتنزيل هذا الجدول.

الجدول 4: إحصاءات بناء الرسم البياني المعرفي. يصف هذا الجدول إحصائيات حجم الرسم البياني المعرفي الذي تم إنشاؤه، بما في ذلك العقد المختلفة وأنواع الحواف. تمثل درجات CaseOLAP العلاقة بين فئة البروتين وأمراض القلب والأوعية الدموية (CVD). الرجاء الضغط هنا لتنزيل هذا الجدول.

الجدول 5: إحصاءات التنبؤ بالرسم البياني المعرفي وعمليات التحقق من الصحة. يوضح هذا الجدول مقاييس التقييم للتنبؤ بارتباط الرسم البياني المعرفي لارتباطات أمراض البروتين الجديدة / المخفية. تم تقسيم حواف الرسم البياني المعرفي إلى مجموعات بيانات تدريب واختبار 70/30 ، وتم الحفاظ على اتصال الرسم البياني للحواف في كلتا مجموعتي البيانات. تشير الدقة إلى نسبة التنبؤات المصنفة بشكل صحيح ، بينما تصحح الدقة المتوازنة اختلال التوازن الطبقي. تشير الخصوصية إلى نسبة التنبؤات السلبية المصنفة بشكل صحيح. تشير الدقة إلى نسبة التنبؤات الإيجابية الصحيحة من بين جميع التنبؤات الإيجابية ، بينما يشير الاستدعاء إلى نسبة التنبؤات الإيجابية الصحيحة من جميع الحواف الإيجابية (أي ارتباطات أمراض البروتين التي تم تحديدها عن طريق التنقيب عن النصوص). درجة F1 هي الوسيلة التوافقية للدقة والتذكر. تصف المنطقة الواقعة أسفل منحنى خصائص تشغيل المستقبل (AUROC) مدى تميز النموذج بين التنبؤات الإيجابية والسلبية ، حيث يشير 1.0 إلى مصنف مثالي. تقيس المنطقة الواقعة تحت منحنى الاستدعاء الدقيق (AUPRC) المفاضلة بين الدقة والاستدعاء عند عتبات احتمالية متفاوتة ، مع القيم الأعلى التي تشير إلى أداء أفضل. الرجاء الضغط هنا لتنزيل هذا الجدول.

Discussion

يمكن CaseOLAP LIFT الباحثين من التحقيق في الارتباطات بين البروتينات الوظيفية (على سبيل المثال ، البروتينات المرتبطة بمكون خلوي أو عملية بيولوجية أو وظيفة جزيئية) والفئات البيولوجية (مثل الأمراض). يجب تنفيذ البروتوكول الموصوف بالتسلسل المحدد ، مع كون قسم البروتوكول 2 وقسم البروتوكول 3 أهم الخطوات ، حيث يعتمد قسم البروتوكول 4 وقسم البروتوكول 5 على نتائجهما. كبديل لقسم البروتوكول 1 ، يمكن استنساخ رمز CaseOLAP LIFT والوصول إليه من مستودع GitHub (https://github.com/CaseOLAP/caseolap_lift). تجدر الإشارة إلى أنه على الرغم من الاختبار أثناء تطوير البرنامج ، قد تحدث أخطاء. إذا كان الأمر كذلك ، فيجب تكرار الخطوة الفاشلة. إذا استمرت المشكلة، فمن المستحسن تكرار قسم البروتوكول 1 لضمان استخدام أحدث إصدار من حاوية عامل الإرساء. يتوفر مزيد من المساعدة من خلال إنشاء مشكلة في مستودع GitHub للحصول على دعم إضافي.

تدعم هذه الطريقة توليد الفرضيات من خلال تمكين الباحثين من تحديد الكيانات ذات الأهمية والكشف عن الارتباطات المحتملة بينها ، والتي قد لا تكون متاحة بسهولة في الموارد الطبية الحيوية الحالية. تسمح الارتباطات الناتجة عن أمراض البروتين للباحثين باكتساب رؤى جديدة من خلال المقاييس القابلة للتفسير للدرجات: تشير درجات الشعبية إلى البروتينات الأكثر دراسة فيما يتعلق بالمرض ، وتشير درجات التميز إلى الأمراض الأكثر تميزا للبروتين ، ودرجة CaseOLAP المجمعة هي مزيج من الاثنين. لمنع التعريفات الإيجابية الخاطئة (على سبيل المثال ، بسبب المترادفات) ، تستخدم بعض أدوات التنقيب عن النصوص قائمة سوداء من المصطلحات لتجنب ^9,11. وبالمثل ، يستخدم CaseOLAP LIFT أيضا قائمة سوداء ولكنه يسمح للمستخدم بتخصيص القائمة السوداء وفقا لحالة الاستخدام الخاصة به. على سبيل المثال ، عند دراسة مرض الشريان التاجي (CAD) ، لا ينبغي اعتبار "CAD" اسما للبروتين "deoxyribonuclease المنشط بالكاسباس". ومع ذلك ، عند دراسة مواضيع أخرى ، قد يشير "CAD" عادة إلى البروتين.

يتكيف CaseOLAP LIFT مع كمية البيانات المتاحة للتنقيب عن النصوص. تخفف وظيفة النطاق الزمني من العبء الحسابي وتخلق مرونة لتوليد الفرضيات (على سبيل المثال ، دراسة كيفية تغير المعرفة العلمية حول ارتباط مرض البروتين بمرور الوقت). وفي الوقت نفسه ، فإن مكونات تضمين التسمية والنص الكامل تعزز نطاق البيانات المتاحة للتنقيب عن النصوص. يتم تعطيل كلا المكونين بشكل افتراضي لتقليل التكاليف الحسابية ، ولكن قد يقرر المستخدم تضمين أي من المكونين. إن تصنيف التسمية متحفظ ، ويصنف معظم المنشورات بشكل صحيح (دقة 87٪) ولكنه يفتقد تسميات الفئات الأخرى (تذكر 2٪). تعتمد هذه الطريقة حاليا على دليل إرشادي قائم على القواعد يطابق الكلمات الرئيسية للمرض ، وهناك خطط لتحسين الأداء من خلال استخدام تقنيات نمذجة موضوع المستند. نظرا لأن العديد من التقارير غير المصنفة تميل إلى أن تكون منشورات حديثة ، فإن الدراسات التي تبحث في نطاق زمني حديث (على سبيل المثال ، جميع المنشورات خلال آخر 3 سنوات) يتم تقديمها بشكل أفضل عن طريق تعطيل إسناد التصنيف. يزيد مكون النص الكامل من وقت التشغيل ومتطلبات التخزين. والجدير بالذكر أن أقلية فقط من الوثائق لديها النص الكامل المتاح (~ 14٪ من الوثائق في دراستنا). بافتراض أن أسماء البروتين المذكورة في قسم طرق المنشورات أقل احتمالا أن تكون مرتبطة بموضوعات المرض ، يوصى بالاستعلام عن مقالات النص الكامل باستثناء قسم الطرق.

تعد درجات ارتباط البروتين والمرض الناتجة مفيدة للتحليلات التقليدية مثل التجميع أو تقليل الأبعاد أو تحليلات التخصيب (على سبيل المثال ، GO ، المسارات) ، مع تضمين بعض التنفيذ في حزمة البرامج هذه. لوضع هذه الدرجات في سياقها ضمن المعرفة الطبية الحيوية الحالية ، يتم إنشاء رسم بياني معرفي تلقائيا ويمكن استكشافه باستخدام أدوات تصور الرسم البياني (على سبيل المثال ، Neo4j³² ، Cytoscape³³). يمكن أيضا استخدام الرسم البياني المعرفي للتحليلات التنبؤية (على سبيل المثال ، التنبؤ بالارتباطات للعلاقات غير المبلغ عنها بين البروتين والمرض ، والكشف المجتمعي عن شبكات البروتين ، وطرق جمع الجوائز في مسارات المشي).

لقد درسنا مقاييس تقييم النموذج لارتباطات أمراض البروتين المتوقعة (الجدول 5). يعين النموذج درجة احتمال بين 0.0 و 1.0 لكل ارتباط بالبروتين والمرض ، مع درجات أقرب إلى 1.0 تشير إلى مستوى أعلى من الثقة في التنبؤ. أشار التقييم الداخلي لأداء النموذج ، والذي استند إلى مقاييس مختلفة بما في ذلك AUROC والدقة والدقة المتوازنة والنوعية والاستدعاء ، إلى الأداء العام الممتاز في عمله. ومع ذلك ، سلط التقييم الضوء أيضا على درجة ضعيفة إلى حد ما لدقة (0.15) للنموذج ، مما أدى إلى انخفاض درجة AUPRC و F1. ستساعد الدراسات المستقبلية لتحسين هذا المقياس على رفع الأداء العام للنموذج. نتصور أنه يمكن تحقيق ذلك من خلال تنفيذ نماذج أكثر تطورا لتضمين الرسم البياني المعرفي والتنبؤ بالرسم البياني. استنادا إلى دقة النموذج البالغة 0.15 ، يجب أن يتوقع الباحثون ما يقرب من 15٪ من عمليات تحديد الهوية الإيجابية. على وجه الخصوص ، من بين جميع ارتباطات أمراض البروتين البالغ عددها 12,688 التي تنبأ بها النموذج ، فإن ما يقرب من 15٪ هي ارتباطات إيجابية حقيقية. يمكن التخفيف من ذلك من خلال النظر فقط في ارتباطات أمراض البروتين ذات درجة احتمالية عالية (على سبيل المثال ، >0.90) ؛ في حالة الاستخدام الخاصة بنا ، أدت التصفية بحد احتمال 0.90 إلى تنبؤات عالية الثقة ل 1583 جمعية. قد يجد المحققون أنه من المفيد أيضا فحص هذه التنبؤات يدويا لضمان صحة عالية (انظر الشكل 7 كمثال). حدد تقييم خارجي لتوقعاتنا أنه من بين 310 ارتباطات لأمراض البروتين من قاعدة بيانات منسقة واسعة النطاق DisGeNet¹⁹ ، تم تحديد 103 في دراستنا للتنقيب عن النصوص ، وتم التنبؤ ب 88 ارتباطا إضافيا من خلال تحليل الرسم البياني المعرفي الخاص بنا بدرجة احتمالية >0.90.

بشكل عام ، يتميز CaseOLAP LIFT بمرونة محسنة وسهولة الاستخدام في تصميم تحليلات مخصصة للارتباطات بين مجموعات البروتين الوظيفية وفئات متعددة من الأمراض في مجموعة النصوص الكبيرة. يتم تبسيط هذه الحزمة في واجهة سطر أوامر جديدة سهلة الاستخدام ويتم إصدارها كحاوية عامل إرساء ، وبالتالي تقليل المشكلات المرتبطة بتكوين بيئات البرمجة وتبعيات البرامج. يمكن تكييف خط أنابيب CaseOLAP LIFT لدراسة بروتينات الميتوكوندريا في أمراض القلب والأوعية الدموية بسهولة. على سبيل المثال ، يمكن أن تتضمن التطبيقات المستقبلية لهذه التقنية التحقيق في الارتباطات بين أي بروتينات مرتبطة بأي مصطلحات GO وأي فئة طبية حيوية. علاوة على ذلك ، فإن ارتباطات أمراض البروتين المصنفة التي حددتها منصة التنقيب عن النصوص هذه مهمة في إعداد مجموعة البيانات لاستخدام تقنيات اللغة الطبيعية المتقدمة. يمكن الرسم البياني المعرفي الناتج الباحثين من تحويل هذه النتائج إلى معرفة إعلامية بيولوجيا ويضع الأساس لمتابعة التحليلات القائمة على الرسم البياني.

Disclosures

ليس لدى المؤلفين ما يكشفون عنه.

Acknowledgements

تم دعم هذا العمل من قبل المعاهد الوطنية للصحة (NIH) R35 HL135772 إلى P.P. ، NIH T32 HL13945 إلى A.R.P. و DS ، NIH T32 EB016640 إلى A.R.P. ، التدريب البحثي لمؤسسة العلوم الوطنية (NRT) 1829071 إلى A.R.P. و DS ، NIH R01 HL146739 ل I.A. ، J.R. ، A.V. ، K.B. ، ووقف TC Laubisch إلى P.P. في جامعة كاليفورنيا في لوس أنجلوس.

Materials

Name	Company	Catalog Number	Comments
Software - Docker	Docker	N/A	docker.com

References

The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
Rehm, H. L., et al. ClinGen - The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
Caulfield, M., et al. The National Genomics Research and Healthcare Knowledgebase. , (2019).
Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043(2017).
Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108(2019).
Yu, K. -H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135(2021).
Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680(2016).
Wei, C. -H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171(2013).
Wei, C. -H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96(2021).
Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304(2022).
Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726(2017).
Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118(2021).
Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
Neo4j Graph Data Platform. , Available from: https://neo4j.com/ (2022).
Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Explore More Articles

200

This article has been published

Video Coming Soon

Keep me updated: