التعدين عبارة المستندة إلى مجموعة النظراء وتحليل الرابطة الفئة العبارة المعرفة من قبل المستخدم في المنشورات الطبية الحيوية

Please note that all translations are automatically generated. Click here for the English version.

8.6K Views

•

09:20 min

•

February 23rd, 2019

DOI :

10.3791/59108-v

February 23rd, 2019

•

Dibakar Sigdel*¹^,², Vincent Kyi*¹^,², Aiden Zhang*¹, Shaun P. Setty³, David A. Liem¹^,²^,⁴, Yu Shi⁵, Xuan Wang⁵, Jiaming Shen⁵, Wei Wang¹^,⁶^,⁷, JiaWei Han⁵, Peipei Ping¹^,²^,⁴^,⁶

¹The NIH BD2K Center of Excellence in Biomedical Computing, University of California, Los Angeles, ²Department of Physiology, University of California, Los Angeles, ³Department of Pediatric and Adult Congenital Heart Surgery, Miller Children's and Women's Hospital and Long Beach Memorial Hospital, ⁴Department of Medicine/Cardiology, University of California, Los Angeles, ⁵NIH BD2K Program Centers of Excellence for Big Data Computing -- KnowEng Center, Department of Computer Science, University of Illinois at Urbana-Champaign (UIUC), ⁶Scalable Analytics Institute (ScAi), University of California, Los Angeles, ⁷Department of Computer Science, University of California, Los Angeles

Transcript

يوفر بروتوكولنا إجراءً خطوة بخطوة لبناء منصة تعدين عبارة تعتمد على السحابة لجمعية فئة الكيان المحددة من قبل المستخدم ، لتقييم ارتباط البروتينات أو الجينوم أو المواد الكيميائية بأمراض محددة. وتتمثل المزايا الرئيسية لهذه التقنية في تحسين كفاءتها على تقييم رابطة الكيانات اليدوية، وتعزيز إمكانية الوصول واستخدام أدوات التعدين للعبارات من أجل تطبيقات البحوث الطبية الحيوية الواسعة الانتشار. يمكن للمستخدمين تحديد الكيانات والفئات ذات الاهتمام ضمن المنشورات الطبية الحيوية، أو ضمن المستندات النصية المرتبطة بكلمات رئيسية محددة.

يمكن للمستخدمين الجدد اتباع بروتوكولنا والمراجع الواردة في المخطوطة، ويمكنهم إثارة مشكلات فنية داخل مستودع GitHub. إن العرض المرئي لهذه المسألة يضيف المزيد من الوضوح إلى كيفية تنفيذ البروتوكول، ويشجع على تنفيذ أدوات التعدين النصية الجديدة. لإنشاء مكعب نص، قم أولاً بتنزيل أحدث عناوين الموضوعات الطبية المتوفرة، أو شجرة الشبكة.

رمز 2018 شبكة شجرة هو MESHTree2018. bin، ويجب إدخالها في دليل الإدخال. حدد فئات الاهتمام باستخدام واصف شبكة واحد أو أكثر، وجمع معرفات شبكة لفئة.

حفظ أسماء الفئات في textcube_config. json في الدليل التكوين ، وإضافة الفئات التي تم جمعها من شبكة من الشبكات في خط مفصولة بمسافة. حفظ ملف الفئة كفئات.

txt في دليل الإدخال. تحدد هذه الخوارزمية تلقائياً كافة واصفات الشبكة التابعة. تأكد من أن mesh2pmid.

json هو في دليل البيانات. إذا تم تحديث شجرة شبكة مع اسم مختلف في دليل الإدخال تأكد من أن يتم تمثيل هذا بشكل صحيح في مسار بيانات الإدخال في run_textcube. py ملف.

لإنشاء بنية مستند تسمى text-cube، أدخل run_textcube بيثون. py في المحطة لإنشاء مجموعة من الوثائق لكل فئة. قد يقع مستند واحد ضمن فئات متعددة.

بمجرد إكمال الخطوة إنشاء مكعب النص تأكد من حفظ خلية إلى جدول PMID في دليل البيانات textcube_cell2pmid.json. يتم حفظ PMID إلى جدول تعيين الخلايا في دليل البيانات textcube_pmid2cell.json. يتم حفظ مجموعة من كافة مصطلحات شبكة تابعة للخلية في دليل البيانات meshterms_per_cat.json.

ويتم حفظ إحصاءات البيانات نص مكعب في دليل البيانات كما textcube_stat.txt. ثم انتقل إلى دليل السجل لقراءة رسائل السجل في textcube_log. txt، في حالة فشل هذه العملية.

إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل التصحيح من إنشاء مكعب النص في ملف السجل. بالنسبة لعدد الكيانات، قم بإنشاء كيانات معرفة من قبل المستخدم، ووضع كيان واحد واختصاراته في سطر واحد، مفصولاً برمز الخط العمودي. حفظ ملف الكيان ككيانات.

txt في دليل الإدخال، وتأكد من أن ملقم Elasticsearch قيد التشغيل. إذا كانت قاعدة بيانات مفهرسة تسمى PubMed موجودة في الملقم Elasticsearch، تأكد من وجود textcube_pmid2cell. json ملف في دليل البيانات ، وأدخل run_entitycount بيثون.

py في المحطة الطرفية لتنفيذ عملية حساب كيان. عند كافة المستندات من قاعدة بيانات الفهرس وعدد الكيانات في كل مستند تم حسابها، وتم جمع PMIDs التي تم العثور على الكيانات، حفظ النتائج النهائية كـ entitycount. txt و entityfound_pmid2cell.

json في دليل البيانات. ثم افتح دليل السجل لقراءة رسائل السجل في entitycount_log. txt، في حالة فشل هذه العملية.

إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل تصحيح الكيانات في ملف السجل. تأكد من أن كافة البيانات الإدخال موجودة في دليل البيانات. هذه هي بيانات الإدخال لتحديث بيانات التعريف.

لإعداد مجموعة من البيانات الوصفية، أدخل run_metadata_update بيثون. py في المحطة لتحديث البيانات الوصفية. بمجرد اكتمال تحديث بيانات التعريف، تأكد من أن metadata_pmid2pcount.

(metadata_cell2pmid) يتم حفظ ملفات json في دليل البيانات. انتقل إلى دليل السجل لقراءة رسائل السجل في metadata_update_log.

txt ملف، في حالة فشل هذه العملية. إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل التصحيح تحديث بيانات التعريف في ملف السجل. بالنسبة إلى حساب نقاط المعالجة التحليلية الدلالية على الإنترنت المدركة للسياق، تأكد من وجود metadata_pmid2pcount.

(metadata_cell2pmid) json الملفات في دليل البيانات. هذه هي بيانات الإدخال لحساب النقاط.

أدخل run_caseolap_score بيثون. py في المحطة الطرفية لتنفيذ علم الدلالات علم السياق تحليلية على الإنترنت حساب درجة المعالجة للكيانات استناداً إلى فئات المعرفة من قبل المستخدم. النتيجة هي نتاج النزاهة والشعبية والتميز.

بمجرد اكتمال حساب النقاط، تأكد من حفظ النتائج في دليل النتائج. ثم الوصول إلى دليل السجل لقراءة رسائل السجل في caseolab_score_log. txt ملف، في حالة فشل هذه العملية.

إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل التصحيح من حساب نقاط caseolab في ملف السجل. وباستخدام البيانات الوصفية والإحصاءات التي تم الحصول عليها من الفئات الفرعية الأربع للرضع والأطفال والمراهقين والبالغين، يمكن عرض مقارنة بين عدد الوثائق بين الخلايا النصية المكعبة. هنا، تحتوي الفئة الفرعية للبالغين على أعلى عدد في جميع الخلايا، مع وجود أكبر عدد من الوثائق المشتركة لدى البالغين والمراهقين، وتحتوي على الكيان موضع الاهتمام لهذا التحليل التمثيلي.

تقييم رابطة فئة العمر البروتين كنقاط معالجة تحليلية دلالية على الإنترنت مدركة للسياق ، تمكنت من تحديد أفضل 10 بروتينات مرتبطة بالفئات الفرعية للرضيع والطفل والمراهقين والبالغين. هنا، يتم عرض البيانات الوصفية التي تم الحصول عليها والإحصاءات الخاصة بفئات الأمراض الغذائية والأيضية الفرعية. يحتوي مرض التمثيل الغذائي على الفئة الفرعية على ما يقرب من ثلاثة أضعاف عدد الوثائق مثل الاضطرابات الغذائية الفئة الفرعية.

الأمراض الأيضية والاضطرابات الغذائية الفئات الفرعية لديها 7، 101 وثائق مشتركة. ومن الجدير بالذكر أن هذه الوثائق تشمل الكيان الذي يهم الدراسة التمثيلية. يتم تقاسم أكثر من نصف جميع البروتينات بين الفئات الفرعية ، مع ما يقرب من نصف جميع البروتينات المرتبطة في الفئة الفرعية لمرض التمثيل الغذائي فريدة من نوعها لتلك الفئة الفرعية ، ومع الاضطرابات الغذائية الفئة الفرعية التي تظهر سوى عدد قليل من البروتينات الفريدة.

وستتيح الفئات المستقلة والمتميزة ومجموعة من جميع المرادفات والاختصارات الخاصة بالكيان أفضل النتائج. وبما أن رابطة فئة الكيان تُقدَّم كقيمة رقمية، فإن هذا يفتح الباب أمام تنفيذ تقنيات التعلم المفقودة مثل تجميع المكونات وتحليلها. هذه التقنية تسهل اكتشاف العلاقات الخفية أو التي لم يتم تحديدها من قبل داخل هذه الجمعيات ، مما يمهد الطريق لفهم أعمق للعمليات البيولوجية.

Summary

Explore More Videos

Chapters in this video

0:04

Title

1:13

Text-Cube Creation

3:34

Entity Count

4:55

Metadata Update

5:50

Context-Aware Semantic Online Analytical Processing (CaseOLAP) Score Calculation

7:00

Results: Representative Case Analyses

8:38

Conclusion

Related Videos

article

أداء استخراج البيانات والتحليل التكاملي لمؤشر الحيوية في سرطان الثدي باستخدام قواعد بيانات متعددة يمكن الوصول اليها علنا

8.9K Views

article

منصة آلة افتراضية للمهنيين غير الكمبيوتر لاستخدام التعلم العميق لتصنيف التسلسلات البيولوجية للبيانات الميتاجنومية

3.9K Views

article

التعدين الإرشادي للأنماط الجينية الهرمية ومواقع الجينوم الملحقة في المجموعات البكتيرية

2.1K Views

article

نهج الرسم البياني المعرفي لتوضيح دور المسارات العضية في المرض من خلال التقارير الطبية الحيوية

1.6K Views

article

عالية الدقة الكمية متشابك بروتيوم من التنميط ماوس مناطق الدماغ بعد السمعية التمييز التعلم

10.5K Views

article

نهج استخراج بيانات تعريف لتقارير الحالات السريرية لتمكين المتقدم فهم المفاهيم الطبية الحيوية

15.8K Views

article

مقارنه التحليل الببليوغرافي باستخدام PubMed و Scopus وقواعد بيانات الويب للعلوم

31.1K Views

article

سير عمل Metaproteomics السريري يتم تنفيذه داخل منصة Galaxy Bioinformatics لتحليل تفاعلات المضيف والميكروبيوم الكامنة وراء الأمراض البشرية

492 Views

article

سير عمل Metaproteomics السريري يتم تنفيذه داخل منصة Galaxy Bioinformatics لتحليل تفاعلات المضيف والميكروبيوم الكامنة وراء الأمراض البشرية

492 Views

article

سير عمل Metaproteomics السريري يتم تنفيذه داخل منصة Galaxy Bioinformatics لتحليل تفاعلات المضيف والميكروبيوم الكامنة وراء الأمراض البشرية

492 Views

Copyright © 2025 MyJoVE Corporation. All rights reserved