يوفر بروتوكولنا إجراءً خطوة بخطوة لبناء منصة تعدين عبارة تعتمد على السحابة لجمعية فئة الكيان المحددة من قبل المستخدم ، لتقييم ارتباط البروتينات أو الجينوم أو المواد الكيميائية بأمراض محددة. وتتمثل المزايا الرئيسية لهذه التقنية في تحسين كفاءتها على تقييم رابطة الكيانات اليدوية، وتعزيز إمكانية الوصول واستخدام أدوات التعدين للعبارات من أجل تطبيقات البحوث الطبية الحيوية الواسعة الانتشار. يمكن للمستخدمين تحديد الكيانات والفئات ذات الاهتمام ضمن المنشورات الطبية الحيوية، أو ضمن المستندات النصية المرتبطة بكلمات رئيسية محددة.
يمكن للمستخدمين الجدد اتباع بروتوكولنا والمراجع الواردة في المخطوطة، ويمكنهم إثارة مشكلات فنية داخل مستودع GitHub. إن العرض المرئي لهذه المسألة يضيف المزيد من الوضوح إلى كيفية تنفيذ البروتوكول، ويشجع على تنفيذ أدوات التعدين النصية الجديدة. لإنشاء مكعب نص، قم أولاً بتنزيل أحدث عناوين الموضوعات الطبية المتوفرة، أو شجرة الشبكة.
رمز 2018 شبكة شجرة هو MESHTree2018. bin، ويجب إدخالها في دليل الإدخال. حدد فئات الاهتمام باستخدام واصف شبكة واحد أو أكثر، وجمع معرفات شبكة لفئة.
حفظ أسماء الفئات في textcube_config. json في الدليل التكوين ، وإضافة الفئات التي تم جمعها من شبكة من الشبكات في خط مفصولة بمسافة. حفظ ملف الفئة كفئات.
txt في دليل الإدخال. تحدد هذه الخوارزمية تلقائياً كافة واصفات الشبكة التابعة. تأكد من أن mesh2pmid.
json هو في دليل البيانات. إذا تم تحديث شجرة شبكة مع اسم مختلف في دليل الإدخال تأكد من أن يتم تمثيل هذا بشكل صحيح في مسار بيانات الإدخال في run_textcube. py ملف.
لإنشاء بنية مستند تسمى text-cube، أدخل run_textcube بيثون. py في المحطة لإنشاء مجموعة من الوثائق لكل فئة. قد يقع مستند واحد ضمن فئات متعددة.
بمجرد إكمال الخطوة إنشاء مكعب النص تأكد من حفظ خلية إلى جدول PMID في دليل البيانات textcube_cell2pmid.json. يتم حفظ PMID إلى جدول تعيين الخلايا في دليل البيانات textcube_pmid2cell.json. يتم حفظ مجموعة من كافة مصطلحات شبكة تابعة للخلية في دليل البيانات meshterms_per_cat.json.
ويتم حفظ إحصاءات البيانات نص مكعب في دليل البيانات كما textcube_stat.txt. ثم انتقل إلى دليل السجل لقراءة رسائل السجل في textcube_log. txt، في حالة فشل هذه العملية.
إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل التصحيح من إنشاء مكعب النص في ملف السجل. بالنسبة لعدد الكيانات، قم بإنشاء كيانات معرفة من قبل المستخدم، ووضع كيان واحد واختصاراته في سطر واحد، مفصولاً برمز الخط العمودي. حفظ ملف الكيان ككيانات.
txt في دليل الإدخال، وتأكد من أن ملقم Elasticsearch قيد التشغيل. إذا كانت قاعدة بيانات مفهرسة تسمى PubMed موجودة في الملقم Elasticsearch، تأكد من وجود textcube_pmid2cell. json ملف في دليل البيانات ، وأدخل run_entitycount بيثون.
py في المحطة الطرفية لتنفيذ عملية حساب كيان. عند كافة المستندات من قاعدة بيانات الفهرس وعدد الكيانات في كل مستند تم حسابها، وتم جمع PMIDs التي تم العثور على الكيانات، حفظ النتائج النهائية كـ entitycount. txt و entityfound_pmid2cell.
json في دليل البيانات. ثم افتح دليل السجل لقراءة رسائل السجل في entitycount_log. txt، في حالة فشل هذه العملية.
إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل تصحيح الكيانات في ملف السجل. تأكد من أن كافة البيانات الإدخال موجودة في دليل البيانات. هذه هي بيانات الإدخال لتحديث بيانات التعريف.
لإعداد مجموعة من البيانات الوصفية، أدخل run_metadata_update بيثون. py في المحطة لتحديث البيانات الوصفية. بمجرد اكتمال تحديث بيانات التعريف، تأكد من أن metadata_pmid2pcount.
(metadata_cell2pmid) يتم حفظ ملفات json في دليل البيانات. انتقل إلى دليل السجل لقراءة رسائل السجل في metadata_update_log.
txt ملف، في حالة فشل هذه العملية. إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل التصحيح تحديث بيانات التعريف في ملف السجل. بالنسبة إلى حساب نقاط المعالجة التحليلية الدلالية على الإنترنت المدركة للسياق، تأكد من وجود metadata_pmid2pcount.
(metadata_cell2pmid) json الملفات في دليل البيانات. هذه هي بيانات الإدخال لحساب النقاط.
أدخل run_caseolap_score بيثون. py في المحطة الطرفية لتنفيذ علم الدلالات علم السياق تحليلية على الإنترنت حساب درجة المعالجة للكيانات استناداً إلى فئات المعرفة من قبل المستخدم. النتيجة هي نتاج النزاهة والشعبية والتميز.
بمجرد اكتمال حساب النقاط، تأكد من حفظ النتائج في دليل النتائج. ثم الوصول إلى دليل السجل لقراءة رسائل السجل في caseolab_score_log. txt ملف، في حالة فشل هذه العملية.
إذا تم إكمال العملية بنجاح، سيتم طباعة رسائل التصحيح من حساب نقاط caseolab في ملف السجل. وباستخدام البيانات الوصفية والإحصاءات التي تم الحصول عليها من الفئات الفرعية الأربع للرضع والأطفال والمراهقين والبالغين، يمكن عرض مقارنة بين عدد الوثائق بين الخلايا النصية المكعبة. هنا، تحتوي الفئة الفرعية للبالغين على أعلى عدد في جميع الخلايا، مع وجود أكبر عدد من الوثائق المشتركة لدى البالغين والمراهقين، وتحتوي على الكيان موضع الاهتمام لهذا التحليل التمثيلي.
تقييم رابطة فئة العمر البروتين كنقاط معالجة تحليلية دلالية على الإنترنت مدركة للسياق ، تمكنت من تحديد أفضل 10 بروتينات مرتبطة بالفئات الفرعية للرضيع والطفل والمراهقين والبالغين. هنا، يتم عرض البيانات الوصفية التي تم الحصول عليها والإحصاءات الخاصة بفئات الأمراض الغذائية والأيضية الفرعية. يحتوي مرض التمثيل الغذائي على الفئة الفرعية على ما يقرب من ثلاثة أضعاف عدد الوثائق مثل الاضطرابات الغذائية الفئة الفرعية.
الأمراض الأيضية والاضطرابات الغذائية الفئات الفرعية لديها 7، 101 وثائق مشتركة. ومن الجدير بالذكر أن هذه الوثائق تشمل الكيان الذي يهم الدراسة التمثيلية. يتم تقاسم أكثر من نصف جميع البروتينات بين الفئات الفرعية ، مع ما يقرب من نصف جميع البروتينات المرتبطة في الفئة الفرعية لمرض التمثيل الغذائي فريدة من نوعها لتلك الفئة الفرعية ، ومع الاضطرابات الغذائية الفئة الفرعية التي تظهر سوى عدد قليل من البروتينات الفريدة.
وستتيح الفئات المستقلة والمتميزة ومجموعة من جميع المرادفات والاختصارات الخاصة بالكيان أفضل النتائج. وبما أن رابطة فئة الكيان تُقدَّم كقيمة رقمية، فإن هذا يفتح الباب أمام تنفيذ تقنيات التعلم المفقودة مثل تجميع المكونات وتحليلها. هذه التقنية تسهل اكتشاف العلاقات الخفية أو التي لم يتم تحديدها من قبل داخل هذه الجمعيات ، مما يمهد الطريق لفهم أعمق للعمليات البيولوجية.