Method Article
* These authors contributed equally
نقدم بروتوكول ورمز البرمجة المرتبطة بها، فضلا عن عينات البيانات الفوقية لدعم تعريف تلقائية المستندة إلى مجموعة النظراء لرابطة العبارات-فئة تمثل مفاهيم فريدة من نوعها في مجال المعارف المحدد المستخدم في الأدبيات الطبية الحيوية. يمكن أن تيسر الرابطة عبارة-الفئة كمياً بموجب هذا البروتوكول في عمق التحليل في مجال المعرفة المحددة.
وقد تجاوزت التراكم السريع للبيانات النصية الطبية القدرة البشرية curation اليدوي والتحليل، مما استلزم رواية أدوات النص-التعدين لاستخراج الأفكار البيولوجية من كميات كبيرة من التقارير العلمية. خط الأنابيب سياق علم "الدلالات على الإنترنت تحليلية معالجة" (كاسيولاب)، وضعت في عام 2016، يوضحها بنجاح علاقات الفئة العبارة المعرفة من قبل المستخدم من خلال تحليل البيانات النصية. وقد كاسيولاب العديد من التطبيقات الطبية الحيوية.
وقد وضعنا بروتوكولا لبيئة المستندة إلى مجموعة النظراء الداعمة لنهاية إلى نهاية العبارة-التعدين ومنصة تحليلات. لدينا بروتوكول يتضمن بيانات تجهيزها (مثل تحميل واستخراج وتحليل الوثائق والنصوص)، والفهرسة والبحث مع الاستيكسيرتش، إنشاء هيكل وثيقة فنية ودعا النص إلى المكعب، والتحديد الكمي لعلاقات عبارة-الفئة باستخدام خوارزمية كاسيولاب الأساسية.
لدينا بيانات تجهيزها يولد تعيينات مفتاح القيمة لجميع الوثائق المعنية. معالجة البيانات المفهرسة للاضطلاع ببحث عن الوثائق بما في ذلك الكيانات، مما يسهل كذلك إنشاء المكعب النص وحساب نقاط كاسيولاب. يتم تفسير عشرات كاسيولاب الخام التي يتم الحصول عليها باستخدام سلسلة من التحليلات التكاملية، بما في ذلك الحد من أبعاد، والتكتل، الزمانية، والتحليلات الجغرافية. بالإضافة إلى ذلك، يتم استخدام عشرات كاسيولاب لإنشاء قاعدة بيانات رسومية، الذي يتيح لرسم الخرائط الدلالية للوثائق.
كاسيولاب يحدد علاقات الفئة العبارة في الدقيقة (يحدد العلاقات)، بما يتفق (استنساخه بدرجة عالية)، وكفاءة (عمليات 100,000 الكلمات/sec). وفي أعقاب هذا البروتوكول، يمكن للمستخدمين الوصول في بيئة الحوسبة السحابية لدعم تطبيقات من كاسيولاب والتكوينات الخاصة بهم. يوفر إمكانية الوصول المحسن هذا المنهاج ويخول للمجتمع الطبي الحيوي أدوات عبارة-التعدين لتطبيقات البحوث الطبية الحيوية على نطاق واسع.
دليل التقييم الملايين من ملفات نصية لدراسة الرابطة عبارة-الفئة (على سبيل المثال.، العمرية لرابطة البروتين) لا تضاهي بالكفاءة المقدمة بطريقة حسابية مؤتمتة. أننا نريد لإدخال منهاج علم السياق "الدلالي على الإنترنت تحليلية تجهيز" (كاسيولاب) المستندة إلى مجموعة النظراء كأسلوب العبارة-التعدين للحساب الآلي من العبارة-الفئة الرابطة في سياق الطب الحيوي.
منصة كاسيولاب، الذي عرف أولاً في عام 20161، فعالة جداً مقارنة بالأساليب التقليدية لإدارة البيانات وحساب بسبب إدارتها الوثيقة الفنية ودعا النص إلى المكعب2،3، 4، التي توزع الوثائق مع الحفاظ على التسلسل الهرمي والأحياء الأساسية. قد طبقت في البحوث الطبية الحيوية5 دراسة جمعية كيان-الفئة. منصة كاسيولاب يتكون من ست خطوات رئيسية بما في ذلك تحميل واستخراج البيانات وتحليل، والفهرسة، إنشاء المكعب النص، عد الكيان، وحساب نقاط كاسيولاب؛ وهو المحور الرئيسي للبروتوكول (الشكل 1، الشكل 2، الجدول 1).
تنفيذ خوارزمية كاسيولاب، يضع المستخدم فئات الاهتمام (مثل المرض، وعلامات وأعراض، والفئات العمرية، والتشخيص) والكيانات ذات الأهمية (مثل البروتينات، والأدوية). مثال واحد من الفئة المدرجة في هذه المادة هو 'الفئات العمرية'، الذي 'الرضع'، 'الطفل'، 'المراهقات'، و 'الكبار' الفئات الفرعية كخلايا النص إلى المكعب وأسماء البروتين (المترادفات) والمختصرات ككيانات. عناوين المواضيع الطبية (مش) تنفذ إلى استرداد المنشورات المقابلة لفئات محددة (الجدول 2). واصفات مش تنتظم في بنية شجرة هرمية للسماح بالبحث عن المنشورات في مختلف مستويات خصوصية (عينة هو موضح في الشكل 3). ويستخدم النظام الأساسي كاسيولاب بيانات الفهرسة والبحث عن وظيفة curation للوثائق المرتبطة بكيان والتي زيادة تيسير المستند إلى تعيين كيان العد وحساب نقاط كاسيولاب.
تتوفر تفاصيل حساب نقاط كاسيولاب في المنشورات السابقة1،5. هذه النتيجة يتم حسابها باستخدام معايير محددة مرتبة استناداً إلى هيكل وثيقة النص إلى المكعب. والنتيجة النهائية هي نتاج النزاهةو شعبية، و التمايز. ويصف سلامة ما إذا كان كيان ممثل هو وحدة دلالية لا يتجزأ مجتمعة تشير إلى مفهوم ذات مغزى. يتم أخذ سلامة العبارة المعرفة من قبل المستخدم لأن 1.0 أنها تقف كعبارة قياسية في الأدب. يمثل التميز النسبي أهمية العبارة في مجموعة فرعية واحدة من الوثائق مقارنة ببقية الخلايا الأخرى. أول مرة يحسب أهمية كيان في خلية معينة عن طريق مقارنة حدوث اسم البروتين في مجموعة البيانات المستهدفة ويوفر درجة التميز تم تسويتها. يمثل شعبية يظهر حقيقة أن العبارة مع أعلى درجة شعبية أكثر تواترا في مجموعة فرعية واحدة من الوثائق. أسماء البروتين نادرة في خلية مرتبة منخفضة، في حين زيادة في تواتر ذكر عودة تناقص بسبب تنفيذ الدالة اللوغاريتمية للتردد. قياس الكمية هذه المفاهيم الثلاثة يعتمد على التردد (1) مصطلح الكيان على خلية وعبر (2) عدد من الوثائق بعد ذلك الكيان (تردد الوثيقة) داخل الخلية وعبر الخلايا والخلايا.
وقد درسنا سيناريوهين الممثل باستخدام إحدى وحدات dataset PubMed ولدينا الخوارزمية. ونحن مهتمون في البروتينات المتقدرية كيف ترتبط بفئتين فريدة من واصفات مش؛ "الفئات العمرية" و "أمراض التغذية والتمثيل الغذائي". على وجه التحديد، يمكننا استرداد المنشورات 15,728,250 من منشورات 20 عاماً، جمعتها PubMed (من عام 1998 إلى عام 2018)، فيما بينها، خلاصات فريد 8,123,458 كامل مش واصفات. وبناء على ذلك، 1,842 البروتين المتقدرية البشرية أسماء (بما في ذلك المختصرات ومرادفات)، اكتسب من أونيبروت (uniprot.org) وكذلك من MitoCarta2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do >)، يتم بشكل منتظم درست. فدرست روابطها مع هذه المنشورات 8,899,019 والكيانات باستخدام لدينا البروتوكول؛ نحن بني نص-مكعب وتحسب كل منها عشرات كاسيولاب.
ملاحظة: قمنا بتطوير هذا البروتوكول استناداً إلى لغة البرمجة بايثون. لتشغيل هذا البرنامج، يكون لديك "بيثون أناكوندا" وبوابة مثبتة مسبقاً على الجهاز. تعتمد الأوامر المنصوص عليها في هذا البروتوكول في بيئة Unix. يوفر هذا البروتوكول التفصيل لتحميل البيانات من قاعدة بيانات PubMed (MEDLINE)، وتحليل البيانات، وإعداد سحابة الحوسبة منصة للتعدين العبارة والتحديد الكمي لجمعية كيان-فئة المعرفة من قبل المستخدم.
1. الحصول على إعداد البيئة البرمجية وبايثون
2-تحميل الوثائق
3-توزيع الوثائق
4. مش لرسم خرائط PMID
5-الوثيقة الفهرسة
6-نص مكعب إنشاء
7-العدد الكيان
8. تحديث بيانات التعريف
9-حساب نقاط كاسيولاب
لإنتاج نتائج العينة، قمنا بتنفيذ خوارزمية كاسيولاب في الموضوع هما العناوين/واصفات: "الفئات العمرية" و "التغذية والايض الأمراض" كحالات الاستخدام.
الفئات العمرية. نحن نخبة من جميع الفئات الفرعية 4 من "الفئات العمرية" (الرضع والأطفال والمراهقين والكبار) كخلايا في نص-مكعب. وترد في الجدول 3Aإحصاءات وبيانات التعريف التي تم الحصول عليها. يتم عرض مقارنة عدد من الوثائق بين الخلايا النص إلى المكعب في الشكل 6A. الكبار يحتوي على الوثائق 172,394 وهو أعلى رقم عبر كافة الخلايا. الفئات الفرعية الكبار والمراهقين بأعلى عدد من المستندات المشتركة (26,858 الوثائق). جدير بالذكر أن هذه الوثائق تضمنت الكيان لمصلحتنا فقط (أي البروتينات mitochondrial). ويمثل رسم تخطيطي متداخل في الشكل 6B عدد الكيانات (أي البروتينات mitochondrial) الموجودة داخل كل خلية، وداخل عدة أوجه التداخل فيما بين الخلايا. عدد البروتينات المشتركة في إطار جميع الفئات العمرية هو 162. ويصور الفئة الكبار أعلى عدد من البروتينات فريدة من نوعها (151) متبوعاً بالطفل (16) والرضع (8) والمراهقين (1). قمنا بحساب الرابطة مجموعة البروتين-العمر كنقاط كاسيولاب. أعلى 10 البروتينات (استناداً إلى درجة كاسيولاب متوسط) المرتبطة بالفئات الفرعية للرضع والأطفال، والمراهقين والبالغين هي ستيرول 26-hydroxylase، سلسلة ب ألفا كريستالين، ألفا D-1 25 hydroxyvitamin-hydroxylase، سيروترانسفيرين، synthase سيترات، لام-سيريل-الحمض الريبي النووي النقال، أتباسي الصوديوم/البوتاسيوم-نقل وحدة فرعية ألفا-3 الجلوتاثيون S-ترانسفيراز أوميغا-1، أوكسيدوريدوكتاز نادف: أدرينودوكسين والببتيد Mitochondrial الميثيونين سلفوكسيد ريدكتيز (كما هو موضح في الشكل 6). يعرض الفئة البالغين 10 heatmap الخلايا بكثافة أعلى بالمقارنة بالخلايا heatmap من المراهقين والأطفال والرضع فئة فرعية، مشيراً إلى أن المعرض البروتينات المتقدرية أعلى 10 روابط أقوى للفئة الكبار. وقد البروتين المتقدرية ستيرول 26-hydroxylase رابطات عالية في جميع الفئات الفرعية العمر الذي يتضح من الخلايا heatmap مع كثافة أعلى مقارنة بالخلايا heatmap من البروتينات المتقدرية 9 أخرى. ويبين توزيع الفرق المطلق في النتيجة بين الفريقين الإحصائية التالية نطاق الموزون مع فاصل ثقة 99%: (1) يعني الفرق بين 'أدلت' و 'إينفت' تقع في النطاق (0.029 0.042)، (2) يعني الفرق بين 'أدلت' و 'CHLD' تقع في النطاق (0.021 0.030)، (3) يعني الفرق بين 'أدلت' و 'ادول' يكمن في النطاق (0.020 0.029)، (4) يعني الفرق بين الأكاذيب 'ادول' و 'إينفت' في النطاق (0.015 إلى 0.022)، (5) يعني الفرق بين 'ادول' و 'CHLD' تقع في النطاق (0.007 إلى 0.010)، (6) يعني الفرق بين الأكاذيب 'CHLD' و 'إينفت' في النطاق (0.011 إلى 0.016).
أمراض التغذية والتمثيل الغذائي. نحن نخبة من الفئات الفرعية 2 "التغذية والايض الأمراض" (أي الأمراض الأيضية واضطرابات التغذية) إنشاء خلايا 2 في نص-مكعب. وترد في الجدول 3إحصاءات وبيانات التعريف التي تم الحصول عليها. يتم عرض مقارنة عدد من الوثائق بين الخلايا النص إلى المكعب في الشكل 7 ألف. الأمراض الأيضية فرعية تتضمن الوثائق 54,762 متبوعاً بالوثائق 19,181 في الاضطرابات الغذائية. الفئات الفرعية للأمراض الأيضية واضطرابات التغذية قد 7,101 المستندات المشتركة. جدير بالذكر أن هذه الوثائق تضمنت الكيان لمصلحتنا فقط (أي البروتينات mitochondrial). ويمثل رسم تخطيطي متداخل في الشكل 7B عدد الكيانات الموجودة داخل كل خلية، وداخل عدة أوجه التداخل بين الخلايا. قمنا بحساب البروتين-"الغذائية والأمراض الأيضية" الرابطة كنقاط كاسيولاب. هي البروتينات أعلى 10 (استناداً إلى درجة كاسيولاب متوسط) المرتبطة بهذه الحالة باستخدام ستيرول 26-hydroxylase، ب ألفا كريستالين سلسلة، L-سيريل-الحمض الريبي النووي النقال، وسترات synthase، الحمض الريبي النووي النقال بسيودوريديني synthase أ، ألفا D-1 25 hydroxyvitamin-hydroxylase، الجلوتاثيون S-ترانسفيراز أوميغا-1، نادف: أوكسيدوريدوكتاز أدرينودوكسين، الببتيد Mitochondrial الميثيونين سلفوكسيد ريدكتيز، مثبط منشط البلاسمينوجين 1 (كما هو موضح في الشكل 7). أكثر من النصف (54%) جميع البروتينات هي مشتركة بين فئات فرعية من الأمراض الأيضية والاضطرابات الغذائية (البروتينات 397). من المثير للاهتمام، ما يقرب من نصف (43%) البروتينات المرتبطة بها جميعا في الفئة الفرعية الأمراض الأيضية فريدة من نوعها (بروتينات 300)، بينما يحمل الاضطرابات الغذائية فقط بعض البروتينات فريدة من نوعها (35). يعرض سلسلة ألفا كريستالين ب رابطة أقوى للأمراض الأيضية فئة فرعية. يعرض المتقدرية 26 ستيرول-hydroxylase، رابطة أقوى في الفئة الاضطرابات الغذائية، مشيراً إلى أن هذا البروتين المتقدرية ارتباطاً وثيقا في دراسات تصف الاضطرابات الغذائية. ويبين توزيع الفرق المطلق في النتيجة بين الفريقين 'أوبك' و 'NTD' الإحصائية النطاق (0.046 إلى 0.061) للفرق يعني كفاصل ثقة 99%.
رقم 1. عرض ديناميكي لسير العمل كاسيولاب. ويمثل هذا الرقم 5 خطوات رئيسية في سير العمل كاسيولاب. في الخطوة 1، يبدأ سير العمل عن طريق تحميل واستخراج الوثائق النصية (على سبيل المثال، من مجلات). في الخطوة 2، يتم تحليل البيانات المستخرجة إنشاء قاموس بيانات لكل وثيقة، فضلا عن شبكة لرسم خرائط PMID. في الخطوة 3، تتم فهرسة البيانات تسهيل البحث عن كيان بسرعة وكفاءة. في الخطوة 4، يجري تنفيذ معلومات الفئة المتوفرة من قبل المستخدم (على سبيل المثال.، الجذر مش لكل خلية) لبناء نص-مكعب. في الخطوة 5، يتم تنفيذ عملية العد الكيان على بيانات مؤشر لحساب عشرات كاسيولاب. وتتكرر هذه الخطوات بطريقة تكرارية لتحديث النظام بأحدث المعلومات المتاحة في قاعدة بيانات عامة (مثلاً: PubMed). الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-
رقم 2. الهندسة التقنية لسير العمل كاسيولاب. ويمثل هذا الرقم التفاصيل التقنية لسير العمل كاسيولاب. يتم الحصول على البيانات من مستودع PubMed من ملقم PubMed FTP. المستخدم يتصل بملقم سحابة (مثلاً، اتصال أوس) عبر أجهزتهم ويقوم بإنشاء خط "أنابيب تحميل" التنزيلات واستخراج البيانات إلى مستودع محلية في مجموعة النظراء. هيكلة البيانات المستخرجة والتحقق من وتعرض بشكل سليم مع خط "أنابيب تحليل البيانات". في نفس الوقت، يتم إنشاء شبكة لجدول تعيين PMID أثناء الخطوة التحليل، الذي يستخدم في بناء النص إلى المكعب. يتم تخزين البيانات المحللة JSON مثل تنسيق قيمة مفتاح القاموس مع البيانات الأولية للوثيقة (مثلاً PMID، شبكة، سنة النشر). ويحسن الفهرسة خطوة أخرى البيانات قبل تنفيذ الاستيكسيرتش للتعامل مع البيانات المجمعة. بعد ذلك، يتم إنشاء النص-المكعب مع فئات المعرفة من قبل المستخدم بتنفيذ شبكة لرسم خرائط PMID. عند الانتهاء من تشكيل النص إلى المكعب وخطوات الفهرسة، هو إجراء تعداد لكيان. وتنفذ الكيان عد البيانات الفوقية نص إلى المكعب. وأخيراً، نقاط كاسيولاب يحسب على أساس هيكل مكعب النص الأساسي. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-
الشكل 3. عينة وثيقة تم تحليلها. يعرض عينة بيانات المحللة في هذا الشكل. يتم ترتيب البيانات المحللة كزوج قيمة المفتاح ومتوافق مع الفهرسة ووثيقة إنشاء بيانات التعريف. في هذا الشكل، PMID (على سبيل المثال، "25896987") بمثابة مفتاح وجمع المعلومات المرتبطة بها (مثل العنوان، ودفتر اليومية، نشر التاريخ، مجردة والمواد، وإدارة وشبكة الموقع) كقيمة. التطبيق الأولى لمثل هذه البيانات الأولية للوثيقة هو بناء شبكة ل PMID رسم الخرائط (الشكل 5 و الجدول 2)، الذي يجري تنفيذه في وقت لاحق لإنشاء المكعب-النص وحساب نقاط كاسيولاب مع الكيانات توفيرها بواسطة المستخدم و فئات. الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-
الشكل 4. عينة شجرة مش. 'العمر المجموعات مش شجرة مقتبس من شجرة هيكل البيانات المتاحة في قاعدة بيانات المعهد الوطني للصحة (مش شجرة 2018، < https://meshb.nlm.nih.gov/treeView>). واصفات مش تنفذ مع انتهاء عقده معرفات (مثلاً، الأشخاص [M01]، الفئات العمرية [M01.060]، المراهقين [M01.060.057], بالغ [M01.060.116]، والطفل [M01.060.406]، الرضع [M01.060.703]) جمع الوثائق ذات الصلة إلى واصف مش محددة ( الجدول 3A). الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-
الرقم 5. شبكة لرسم خرائط PMID في الفئات العمرية. هذا الرقم يمثل عدد المستندات النصية (بعضها مرتبط مع PMID) التي جمعت تحت واصفات مش في "الفئات العمرية" أنها مؤامرة فقاعة. يتم إنشاء الشبكة لرسم خرائط PMID لتوفير العدد الدقيق للوثائق التي تم جمعها ضمن واصفات مش. عدد إجمالي للوثائق فريدة من نوعها 3,062,143 جمعت تحت 18 واصفات مش المتحدرة منه (انظر الجدول 2). ارتفاع عدد بميدس المحدد ضمن واصف مش محددة، أكبر نصف قطر الفقاعة يمثل واصف مش. على سبيل المثال، جمعت أكبر عدد من الوثائق تحت واصف عيون "الكبار" (وثائق 1,786,371)، بينما أقل عدد من الوثائق والنصوص جمعت تحت واصف مش "الرضيع، بوستماتوري" (وثائق 62).
يرد مثال إضافي مش PMID إلى تعيين "التغذية والتمثيل الغذائي أمراض" (https://caseolap.github.io/mesh2pmid-mapping/bubble/meta.html). عدد إجمالي للوثائق فريدة من نوعها 422,039 جمعت تحت واصفات مش سليلا 361 في "أمراض التغذية والتمثيل الغذائي". جمعت أكبر عدد من الوثائق تحت واصف مش "السمنة" (77,881 الوثائق) تليها "السكري، اكتب 2" (61,901 الوثائق)، بينما "مرض تخزين الجليكوجين، اكتب الثامن" عرضت أقل عدد من الوثائق (الوثيقة 1 ). جدول ذات صلة متاحة أيضا على الإنترنت في (https://github.com/CaseOLAP/mesh2pmid-mapping/blob/master/data/diseaseall.csv). الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-
الشكل 6. "الفئات العمرية" كحالة استخدام. هذا الرقم ويعرض النتائج من حالة استخدام منهاج كاسيولاب. وفي هذه الحالة، تنفذ البروتين الأسماء والمختصرات بهم (انظر النموذج في الجدول 4) ككيانات و "الفئات العمرية" بما في ذلك الخلايا: الرضع (إينفت) والطفل (CHLD) والمراهقين (ادول) والكبار (أدلت)، يتم تطبيقها كفئات فرعية (انظر الجدول 3 أ). (A) عدد من الوثائق في "الفئات العمرية": تظهر هذه الخريطة الحرارة عدد الوثائق الموزعة عبر الخلايا "الذين تتراوح أعمارهم بين الجماعات" (للحصول على مزيد من التفاصيل انظر إنشاء المكعب نص البروتوكول 4 و الجدول 3 أ). هو عرض عدد أكبر من الوثائق بكثافة أكثر قتامة من heatmap الخلية (انظر الجدول). وقد تضمنت وثيقة واحدة في خلية واحدة أو أكثر. Heatmap يعرض عدد الوثائق داخل خلية على طول موقف قطري (مثلاً، أدلت يحتوي على الوثائق 172,394 وهو أعلى رقم عبر كافة الخلايا). ويمثل موقف نوندياجونال عدد الوثائق التي تقع تحت خليتين (مثلاً، أدلت وادول أن المستندات المشتركة 26,858). (ب) . عد الكيان في "الفئات العمرية": رسم تخطيطي متداخل يمثل عدد البروتينات الموجودة في الخلايا الأربعة الذين يمثلون "الفئات العمرية" (إينفت، CHLD، ادول، وأدلت). عدد البروتينات المشتركة في إطار كافة الخلايا من 162. ويصور العمرية أدلت أكبر عدد من البروتينات فريدة من نوعها (151) تليها CHLD (16)، إينفت (8) وادول (1). (ج) كاسيولاب نقاط العرض في "الفئات العمرية": يتم عرض البروتينات 10 الأعلى مع كاسيولاب متوسط أعلى الدرجات في كل مجموعة في خريطة حرارة. يقدم أعلى درجة كاسيولاب بكثافة أكثر قتامة من heatmap الخلية (انظر الجدول). يتم عرض أسماء البروتين في العمود الأيسر، ويتم عرض الخلايا (إينفت، CHLD، ادول، أدلت) على طول المحور س. وتظهر بعض البروتينات رابطة قوية لفئة عمرية محددة (مثلاً، ستيرول 26-hydroxylase وسلسلة ألفا كريستالين ب ولسيريل-الحمض الريبي النووي النقال لها روابط قوية مع أدلت، بينما ATPase الصوديوم/البوتاسيوم-نقل وحدة فرعية ألفا-3 له ارتباط قوي مع إينفت). الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-
رقم 7. "الغذائية والأمراض الأيضية" كحالة استخدام: هذا الرقم ويعرض النتائج من آخر حالة استخدام منهاج كاسيولاب. وفي هذه الحالة، تنفذ البروتين الأسماء والمختصرات بهم (انظر النموذج في الجدول 4) ككيانات و "التغذية وأمراض التمثيل الغذائي" بما في ذلك الخلايا اثنين: تنفذ كالأمراض الأيضية (مليون برميل يوميا) والاضطرابات الغذائية (NTD) فئات فرعية (انظر الجدول 3 (ب)). (أ)- عدد من الوثائق في "أمراض التغذية والتمثيل الغذائي": هذا heatmap يصف العدد الوثائق والنصوص في خلايا "أمراض التغذية والتمثيل الغذائي" (للاطلاع على تفاصيل بشأن إنشاء المكعب النص انظر البروتوكول 4 والجدول 3 ). هو عرض عدد أكبر من الوثائق بكثافة أكثر قتامة من heatmap الخلية (انظر الجدول). وقد تضمنت وثيقة واحدة في خلية واحدة أو أكثر. Heatmap ويعرض العدد الإجمالي للوثائق داخل خلية على طول موقف قطري (مثلاً، مليون برميل يوميا يحتوي على الوثائق 54,762 وهو أعلى رقم عبر الخلايا اثنين). ويمثل موقف نوندياجونال عدد مستندات مشتركة من قبل الخلايا اثنين (مثلاً، مليون برميل يوميا والأمراض الاستوائية المهملة قد 7,101 المستندات المشتركة). (ب)- العد الكيان في "أمراض التغذية والتمثيل الغذائي": رسم تخطيطي متداخل يمثل عدد البروتينات الموجودة في الخليتين تمثل "التغذية والايض الأمراض" (مليون برميل يوميا والأمراض الاستوائية المهملة). عدد البروتينات داخل الخلايا اثنين هو 397. يصور الخلية مليون برميل يوميا 300 البروتينات فريدة من نوعها، والخلية NTD يصور 35 البروتينات فريدة من نوعها. (ج)- كاسيولاب نقاط العرض في "أمراض التغذية والتمثيل الغذائي": البروتينات أعلى 10 مع كاسيولاب متوسط أعلى الدرجات في "أمراض التغذية والتمثيل الغذائي" ترد في خريطة حرارة. يقدم أعلى درجة كاسيولاب بكثافة أكثر قتامة من heatmap الخلية (انظر الجدول). يتم عرض أسماء البروتين في العمود الأيسر، ويتم عرض الخلايا (مليون برميل يوميا والأمراض الاستوائية المهملة) على طول المحور س. إظهار بعض البروتينات رابطة قوية لفئة محددة من أمراض (مثل سلسلة ب ألفا كريستالين له ارتباط عال بالأمراض الأيضية وستيرول 26-hydroxylase له ارتباط عال مع الاضطرابات الغذائية). الرجاء انقر هنا لمشاهدة نسخة أكبر من هذا الرقم-
الوقت المنقضي (بالنسبة المئوية من إجمالي الوقت) | الخطوات في منهاج كاسيولاب | الخوارزمية وبنية البيانات من النظام الأساسي كاسيولاب | تعقيد الخوارزمية وهيكل البيانات | تفاصيل الخطوات |
40% | تحميل و تحليل | التكرار وشجرة تحليل الخوارزميات | التكرار مع حلقة متداخلة والضرب المستمر: O(n^2)، س (سجل n). حيث 'n' هو ليس للتكرار. | تنزيل خط الأنابيب تتكرر كل إجراء على ملفات متعددة. التحليل في وثيقة واحدة تدير كل إجراء أكثر من هيكل شجرة XML البيانات الخام. |
30% | الفهرسة والبحث وإنشاء المكعب النص | التكرار، خوارزميات البحث عن طريق الاستيكسيرتش (الفرز، مؤشر لوسين، أولوية قوائم الانتظار، وآلات الدولة المحدودة، بت twiddling الخارقة، استعلامات regex) | التعقيد تتصل الاستيكسيرتش (https://www.elastic.co/) | يتم فهرسة المستندات بتنفيذ عملية التكرار على قاموس البيانات. وتنفذ إنشاء مكعب نص بيانات التعريف المستند ومعلومات الفئة المتوفرة من قبل المستخدم. |
30% | الكيان العد والحساب كاسيولاب | التكرار في النزاهة، شعبية، تميز الحساب | O(1)، O(n^2)، تعقيدات متعددة تتصل كاسيولاب حساب نقاط استناداً إلى أنواع التكرار. | يسرد الوثائق عملية العد الكيان وجعل عملية عد أكثر من القائمة. بيانات العد كيان يستخدم لحساب نقاط كاسيولاب. |
الجدول 1. الخوارزميات والتعقيدات. هذا الجدول ويعرض معلومات عن الوقت الذي تستغرقه (النسبة المئوية من إجمالي الوقت المستغرق) في الإجراءات (مثلاً، تحميل، توزيع)، بنية البيانات والتفاصيل حول خوارزميات المنفذة في منهاج كاسيولاب. كاسيولاب تطبق الفهرسة المهنية وبحث تطبيق يسمى الاستيكسيرتش. يمكن الاطلاع على معلومات إضافية عن التعقيدات المتصلة الاستيكسيرتش والداخلية الخوارزميات في (https://www.elastic.co).
مش واصفات | تجمع عدد من بميدس |
الكبار | 1,786,371 |
الأوسط الذين تتراوح أعمارهم بين | 1,661,882 |
الذين تتراوح أعمارهم بين | 1,198,778 |
المراهقين | 706,429 |
الشباب البالغين | 486,259 |
الطفل | 480,218 |
الذين تتراوح أعمارهم بين، 80 وأكثر | 453,348 |
الطفل، والتعليم ما قبل المدرسي | 285,183 |
الرضع | 218,242 |
الرضع وحديثي الولادة | 160,702 |
الرضع، من السابق لأوانه | 17,701 |
وزن المواليد الرضع، وانخفاض | 5,707 |
المسنين الضعفاء | 4,811 |
وزن المواليد الرضع، منخفضة جداً | 4,458 |
الرضع، والصغيرة للعمر الحملي | 3,168 |
الرضع، من السابق لأوانه جداً | 1,171 |
وزن المواليد الرضع، منخفضة للغاية | 1,003 |
الرضع، بوستماتوري | 62 |
الجدول 2. مش إلى PMID الخرائط الإحصائية. يقدم هذا الجدول كافة واصفات مش سليل من "الفئات العمرية"، والعدد من بميدس التي تم جمعها (الوثائق والنصوص). ويرد في الشكل 5التصور من هذه الإحصاءات.
A | الرضع (إينفت) | الطفل (CHLD) | المراهق (ادول) | الكبار (أدلت) |
مش معرف الجذر | M01.060.703 | M01.060.406 | M01.060.057 | M01.060.116 |
عدد سليل مش واصفات | 9 | 2 | 1 | 6 |
عدد من بميدس المحدد | 16,466 | 26,907 | 35,158 | 172,394 |
عدد الكيانات التي وجدت | 233 | 297 | 257 | 443 |
ب | الأمراض الأيضية (مليون برميل يوميا) | الاضطرابات الغذائية (NTD) | ||
مش معرف الجذر | C18.452 | C18.654 | ||
عدد مش سليل واصفات | 308 | 53 | ||
تجمع عدد من بميدس | 54,762 | 19,181 | ||
عدد الكيانات التي وجدت | 697 | 432 |
الجدول 3. بيانات تعريف المكعب النص. هو عرض طريقة عرض جدولية من بيانات تعريف المكعب النص. توفير معلومات حول الفئات الجداول ومش جذور واصف وذرياتهم، التي تنفذ لجمع الوثائق في كل خلية. ويقدم الجدول أيضا أن الإحصاءات والوثائق التي تم جمعها والكيانات. (A) "الفئات العمرية": هذا عرض جدولي "الفئات العمرية" بما في ذلك الرضع (إينفت) والطفل (CHLD) والمراهقين (ادول) والكبار (أدلت)، ووجدت الجذرية مش معرفات، عدد سليل واصفات مش، وعدد من بميدس المحدد وعدد من الكيانات. (ب) "التغذية والأمراض الأيضية": هذا عرض جدولي "التغذية والتمثيل الغذائي الأمراض" بما في ذلك الأمراض الأيضية (مليون برميل يوميا) والاضطرابات الغذائية (NTD) مع شبكة الجذرية معرفات، عدد واصفي مش سليل، عدد من بميدس مختارة وعدد الكيانات تم العثور عليها.
البروتين الأسماء والمرادفات | الاختصارات |
ن-أسيتيلجلوتاماتي synthase، الميتوكوندريا، الأحماض الأمينية أسيتيلترانسفيراسي، N-أسيتيلجلوتاماتي synthase النموذج الطويل؛ ن-أسيتيلجلوتاماتي synthase النموذج القصير؛ ن-أسيتيلجلوتاماتي synthase يحافظ النموذج المجال] | (EC 2.3.1.1) |
النووية/البروتين حمض ديجليكاسي دي جي--1 (ميلارد ديجليكاسي) (DJ1 السرطاني) (بروتين مرض باركنسون 7) (باركينسون المرتبطة ديجليكاسي) (بروتين دي جي-1) | (المفوضية الأوروبية 3.1.2.-) (المفوضية الأوروبية 3.5.1.-) (المفوضية الأوروبية 3.5.1.124) (دي جي-1) |
بيروفات carboxylase، الميتوكوندريا (بيروفك carboxylase) | (المفوضية الأوروبية 6.4.1.1) (PCB) |
Bcl-2-ربط العنصر 3 (p53 حتى ينظم المغير للمبرمج) | (جفي-1) |
التفاعل BH3 مؤثر وفاة الملك [التفاعل BH3 المجال الموت مؤثر p15 (محاولة p15)؛ التفاعل BH3 المجال الموت مؤثر p13؛ التفاعل BH3 المجال الموت مؤثر p11] | (محاولة p22) (السعر) (محاولة p13) (محاولة p11) |
ATP synthase الوحيدات ألفا، الميتوكوندريا (ATP synthase F1 الوحيدات ألفا) | |
السيتوكروم P450 11B2, الميتوكوندريا (الدوستيرون synthase) (الدوستيرون-توليف إنزيم) (CYPXIB2) (الفسفرة ف-450Aldo) (السيتوكروم P-450_C_18) (ستيرويد 18-hydroxylase) | (الدوس) (المفوضية الأوروبية 1.14.15.4) (المفوضية الأوروبية 1.14.15.5) |
60 كاتشين الحرارة صدمة البروتين، الميتوكوندريا (chaperonin كاتشين 60) (60 تشابيرونين) (CPN60) (الحرارة بروتين الصدمة 60) (Mitochondrial مصفوفة البروتين P1) (بروتين P60 اللمفاويات) | (HSP-60) (Hsp60) (HuCHA60) (المفوضية الأوروبية 3.6.4.9) |
كاسباسي-4 (homolog الجليد والتبخر-3 2) (مبطلات تكساس) [المشقوق إلى: Caspase-4 وحدة فرعية 1؛ Caspase-4 وحدة فرعية 2] | (الصعيد الأهلي-4) (المفوضية الأوروبية 3.4.22.57) (معنوي-2) (ICE(rel)-II) (Mih1) |
الجدول 4. نموذج الجدول الكيان. يعرض هذا الجدول عينة الكيانات التي تنفذ في حالات استخدام اثنين لدينا: "الفئات العمرية" و "أمراض التغذية والتمثيل الغذائي" (الشكل 6 و 7 الشكل، الجدول 3 أ،ب). وتشمل الكيانات البروتين الأسماء والمرادفات والمختصرات. كل كيان (مع المرادفات والمختصرات) واحدة المحدد ويتم تمريرها من خلال عملية البحث عن الكيان عبر البيانات المفهرسة (انظر البروتوكول 3 و 5). وتنتج عملية البحث قائمة بالوثائق التي تزيد من تيسير عملية العد الكيان.
كميات | المعرفة من قبل المستخدم | حساب | معادلة للكمية | معنى الكمية |
سلامة | نعم | لا | سلامة المستخدم تعريف الكيانات تعتبر 1.0. | وتمثل عبارة ذات معنى. القيمة العددية هي 1.0 عندما يكون الفعل عبارة ثابتة. |
شعبية | لا | نعم | المعادلة شعبية في الشكل 1 (خوارزمية وسير العمل) من المرجع 5، القسم 'المواد والأساليب'. | استناداً إلى تكرار المصطلح عبارة ضمن خلية. وطبعت بتواتر المدة الإجمالية للخلية. زيادة في تواتر مصطلح قد تناقص نتيجة. |
التميز | لا | نعم | معادلة التميز في الشكل 1 (خوارزمية وسير العمل) من المرجع 5، القسم 'المواد والأساليب'. | استناداً إلى مصطلح التردد والتردد الوثيقة داخل خلية وعبر الخلايا المجاورة. وطبعت بتواتر المدة الإجمالية وتردد الوثيقة. من الناحية الكمية، وهو احتمال أن عبارة فريدة من نوعها في خلية محددة. |
درجة كاسيولاب | لا | نعم | معادلة نقاط كاسيولاب في الشكل 1 (خوارزمية وسير العمل) من المرجع 5، القسم 'المواد والأساليب'. | استناداً إلى النزاهة وشعبية، والتميز. القيمة العددية دائماً يندرج ضمن 0 إلى 1. الكمية تمثل نقاط كاسيولاب الرابطة عبارة-الفئة |
الجدول 5. المعادلات كاسيولاب: تم تطوير خوارزمية "كاسيولاب" فانجبو تاو وأمام هان et al. في عام 20161. باختصار، يقدم هذا الجدول حساب نقاط كاسيولاب تتألف من ثلاثة مكونات: النزاهة وشعبية، والتمايز، ومعناها الرياضية المرتبطة بها. لدينا حالات استخدام نقاط السلامة للبروتينات هو 1.0 (الدرجة القصوى) لأنها تقف كأسماء الكيانات المنشأة. يمكن تبينه عشرات كاسيولاب في حالات الاستخدام لدينا رقم 6 و رقم 7.
لقد أظهرنا أن الخوارزمية كاسيولاب يمكن إنشاء اقتران عبارة على أساس كمية إلى فئة القائم على المعرفة على كميات كبيرة من البيانات النصية لاستخراج أفكار ذات معنى. بعد أن البروتوكول، يمكن للمرء بناء إطار كاسيولاب لإنشاء مكعب-نص المطلوب وتحديد الكيان-فئة الجمعيات من خلال حساب درجة كاسيولاب. يمكن أن تؤخذ عشرات كاسيولاب الخام التي يتم الحصول عليها للتحليلات التكاملية بما في ذلك الحد من أبعاد، والتجميع، التحليل الزمني والجغرافي، فضلا عن إنشاء قاعدة بيانات رسومية مما يتيح رسم الخرائط الدلالية للوثائق.
تطبيق الخوارزمية. يمكن أن تكون أمثلة الكيانات المعرفة من قبل المستخدم، بخلاف البروتينات، قائمة بأسماء الجينات، والمخدرات وعلامات محددة وأعراض بما في ذلك المختصرات، والمرادفات. وعلاوة على ذلك، هناك العديد من الخيارات لاختيار الفئة لتيسير المعرفة الطبية تحليلات محددة (مثلاً، التشريح [A]، والانضباط والاحتلال [ح] والظواهر والعمليات [ز]). في أن اثنين من حالات الاستخدام، جميع المنشورات العلمية والبيانات النصية الخاصة بهم يتم استردادها من قاعدة بيانات MEDLINE باستخدام ال PubMed كمحرك البحث، وكلاهما يدير "المكتبة الوطنية للطب". ومع ذلك، يجوز تطبيق منهاج كاسيولاب لقواعد البيانات الأخرى للاهتمام الذي يحتوي على الوثائق الطبية الحيوية مع بيانات نصية مثل إدارة الأغذية والعقاقير الضارة الحدث الإبلاغ عن نظام (فارس). وهذا فتح قاعدة بيانات تحتوي على معلومات عن الأحداث الضائرة الطبية والدواء الخطأ التقارير المقدمة إلى إدارة الأغذية والعقاقير. وعلى النقيض من MEDLINE وفارس، قواعد البيانات في المستشفيات التي تحتوي على السجلات الصحية الإلكترونية من المرضى هي ليست مفتوحة للجمهور ومقيدة بموجب قانون المساءلة المعروفة باسم HIPAA وقابلية التأمين الصحي.
خوارزمية كاسيولاب قد طبقت بنجاح إلى أنواع مختلفة من البيانات (على سبيل المثال، المقالات الإخبارية)1. أحرز تنفيذ هذه الخوارزمية في الوثائق الطبية في عام 20185. المتطلبات لتطبيق خوارزمية كاسيولاب أنه يجب تعيين كل من الوثائق مع الكلمات الرئيسية المرتبطة بالمفاهيم (مثل واصفات مش في المنشورات الطبية الحيوية، والكلمات الرئيسية في الأخبار). إذا لم يتم العثور على كلمات رئيسية، واحدة يمكن تطبيقها أوتوفراسي6،7 جمع العبارات الممثل الأعلى وبناء قائمة الكيانات قبل تنفيذ بروتوكول لدينا. لا توفر لنا البروتوكول خطوة لتنفيذ أوتوفراسي.
مقارنة مع خوارزميات أخرى. ما فتئ يتطور مفهوم استخدام بيانات مكعب8،،من910 ونص مكعب2،3،4 منذ عام 2005 مع التطورات الجديدة لجعل استخراج البيانات أكثر قابلية للتطبيق. مفهوم المعالجة التحليلية عبر الإنترنت (OLAP)11،،من1213،14،15 في استخراج البيانات والمعلومات التجارية يعود إلى عام 1993. وبصفة عامة، OLAP، تجمع المعلومات من أنظمة متعددة، ويخزنها في تنسيق متعدد الأبعاد. وهناك أنواع مختلفة من نظم OLAP المنفذة في التنقيب عن البيانات. على سبيل المثال تجهيز المعاملات/التحليلي (1) الهجين (حطاب)16،17،18،OLAP المتعددة الأبعاد (MOLAP) (2)19-مكعب OLAP العلائقية (ROLAP) يستند إلى، و (3)20.
على وجه التحديد، خوارزمية كاسيولاب قد تم مقارنة مع خوارزميات القائمة العديدة، على وجه التحديد، مع هذه التحسينات تجزئة العبارة، بما في ذلك فريق العمل-جيش الدفاع الإسرائيلي + Seg و MCX + Seg MCX سيجفراسي. علاوة على ذلك، تم مقارنة مع ريبفراسي (RP، يعرف أيضا باسم سيجفراسي +) مع اختلافات الاجتثاث الخاصة به، بما في ذلك (1) البرنامج العادي دون سلامة التدبير أدرجت (RP لا INT) و (2) البرنامج العادي دون قياس شعبية تدرج (RP لا POP) روبية (3) دون إدراج مقياس التمايز (RP لا ديس). وترد نتائج قياس الأداء في الدراسة فانجبو تاو et al.1.
لا تزال هناك تحديات في استخراج البيانات التي يمكن إضافة وظائف إضافية أكثر من حفظ واسترجاع البيانات من قاعدة البيانات. سياق علم دلالية "تحليلية معالجة" (كاسيولاب) بشكل منهجي وتنفذ الاستيكسيرتش لبناء قاعدة بيانات فهرسة الملايين من الوثائق (بروتوكول 5). النص-المكعب بنية مستند بناء على البيانات المفهرسة مع الفئات المتوفرة من قبل المستخدم (بروتوكول 6). وهذا يعزز الأداء الوظيفي للوثائق داخل وعبر الخلية من المكعب بالنص وتسمح لنا بحساب تردد مصطلح الكيانات أكثر من وثيقة والوثيقة التردد على خلية محددة (بروتوكول 8). النتيجة النهائية كاسيولاب وتستخدم هذه الحسابات التردد لإخراج النتيجة نهائية (9 البروتوكول). في عام 2018، قمنا بتنفيذ هذه الخوارزمية لدراسة البروتينات إدارة المحتوى في المؤسسة وستة أمراض القلب لتحليل البروتين-المرض الجمعيات. يمكن الاطلاع على تفاصيل هذه الدراسة في الدراسة قبل لييم، دا et al.5. مشيراً إلى أن كاسيولاب يمكن أن تستخدم على نطاق واسع في أوساط الطب الحيوي استكشاف مجموعة متنوعة من الأمراض والآليات.
قيود الخوارزمية. التعدين العبارة نفسها أسلوب لإدارة واسترداد المفاهيم الهامة من البيانات النصية. حين اكتشاف جمعية كيان-الفئة ككمية رياضية (ناقلات)، هذا الأسلوب غير قادر على معرفة الأقطاب (مثلاً، الميل الإيجابي أو السلبي) للرابطة. يمكن للمرء بناء تلخيص كمية من البيانات استخدام هيكل الوثيقة Cude النص مع الكيانات المخصصة والفئات، ولكن لا يمكن التوصل إلى مفهوم نوعية مع جرانولاريتيس المجهري. بعض المفاهيم تتطور بشكل مستمر من الماضي حتى الآن. تلخيص المقدمة لارتباط فئة كيان محدد يشمل جميع حالات في جميع أنحاء الأدب. وهذا قد تفتقر إلى نشر الزمانية للابتكار. في المستقبل، ونخطط لمعالجة أوجه القصور هذه.
تطبيقات في المستقبل- حوالي 90% البيانات المتراكمة في العالم موجود في بيانات النص غير منظم. العثور على عبارة الممثل وفيما يتعلق بالكيانات جزءا لا يتجزأ من النص مهمة هامة جداً لتنفيذ التكنولوجيات الجديدة (مثلاً، "آلة التعلم"، استخراج المعلومات، الذكاء الاصطناعي). لجعل البيانات النصية آلة للقراءة، تحتاج البيانات التي سيتم تنظيمها في قاعدة البيانات التي يمكن تنفيذها في الطبقة التالية من الأدوات. في المستقبل، يمكن أن تكون هذه الخوارزمية خطوة حاسمة في جعل استخراج البيانات أكثر وظيفية لاسترجاع المعلومات والتحديد الكمي للجمعيات كيان-الفئة.
الكتاب ليس لها علاقة بالكشف عن.
هذا العمل كان يدعمها في الجزء الوطني للقلب والرئة والدم المعهد: HL135772 R35 (إلى ص Ping)؛ المعهد الوطني للعلوم الطبية العامة: GM114833 U54 (إلى Ping ص ك. واتسون وجورج وانغ)؛ U54 GM114838 (لهان J.)؛ هدية من هلن & مؤسسة هوغ لاري والدكتور س. سيتي؛ والهبة لوبيش T.C. في جامعة كاليفورنيا (إلى Ping ص).
Name | Company | Catalog Number | Comments |
Request permission to reuse the text or figures of this JoVE article
Request PermissionThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. All rights reserved