हमारा प्रोटोकॉल विशिष्ट रोगों के साथ प्रोटीन, जीनोम या रसायनों के संघ का मूल्यांकन करने के लिए उपयोगकर्ता-परिभाषित इकाई श्रेणी संघ के लिए क्लाउड-आधारित वाक्यांश खनन मंच बनाने के लिए एक कदम-दर-कदम उपाय प्रदान करता है। इस तकनीक के मुख्य फायदे मैनुअल इकाई श्रेणी संघ मूल्यांकन, बढ़ी हुई पहुंच और व्यापक जैव चिकित्सा अनुसंधान अनुप्रयोगों के लिए वाक्यांश खनन उपकरणों के उपयोग पर इसकी बेहतर दक्षता है। उपयोगकर्ता बायोमेडिकल प्रकाशनों के भीतर या विशिष्ट कीवर्ड से जुड़े टेक्स्ट दस्तावेजों के भीतर संस्थाओं और रुचि की श्रेणियों का चयन कर सकते हैं।
नए उपयोगकर्ता हमारे प्रोटोकॉल और पांडुलिपि में दिए गए संदर्भों का पालन कर सकते हैं, और वे हमारे गिटहब भंडार के भीतर तकनीकी मुद्दों को उठा सकते हैं। इस मामले का दृश्य प्रदर्शन प्रोटोकॉल को करने के तरीके में अधिक स्पष्टता जोड़ता है, और उपन्यास पाठ खनन उपकरणों के कार्यान्वयन को प्रोत्साहित करता है। टेक्स्ट-क्यूब बनाने के लिए, सबसे पहले नवीनतम उपलब्ध चिकित्सा विषय शीर्षकों, या जाल पेड़ डाउनलोड करें।
जाल ट्री 2018 के लिए कोड MESHTree2018 है। बिन, और इनपुट निर्देशिका में प्रवेश किया जाना चाहिए। एक या एक से अधिक जाल वर्णनकर्ताओं का उपयोग करके ब्याज की श्रेणियों को परिभाषित करें, और एक श्रेणी के लिए जाल की विज्ञापन एकत्र करें।
textcube_config में श्रेणियों के नाम सहेजें। जर्सन कॉन्फ़िग निर्देशिका में फ़ाइल करते हैं, और एक अंतरिक्ष द्वारा अलग लाइन में जाल की एकत्र श्रेणियों को जोड़ते हैं। श्रेणी फ़ाइल को श्रेणियों के रूप में सहेजें।
इनपुट निर्देशिका में txt। यह एल्गोरिदम स्वचालित रूप से सभी वंशज जाल वर्णनकर्ताओं का चयन करता है। सुनिश्चित करें कि mesh2pmid।
जैसन डाटा डायरेक्टरी में है। यदि जाल पेड़ इनपुट निर्देशिका में एक अलग नाम के साथ अद्यतन किया गया है, सुनिश्चित करें कि यह ठीक से run_textcube में इनपुट डेटा पथ में प्रतिनिधित्व किया है । पाइ फ़ाइल।
टेक्स्ट-क्यूब नामक एक दस्तावेज़ संरचना बनाने के लिए, अजगर run_textcube दर्ज करें। टर्मिनल में पाय प्रत्येक श्रेणी के लिए दस्तावेजों का संग्रह बनाने के लिए। एक ही दस्तावेज़ कई श्रेणियों के तहत आ सकता है।
एक बार पाठ घन निर्माण कदम पूरा हो गया है, सुनिश्चित करें कि PMID तालिका के लिए एक सेल डेटा निर्देशिका में textcube_cell2pmid.json के रूप में सहेजा जाता है । सेल मैपिंग टेबल के लिए एक पीएमआईडी डेटा निर्देशिका में textcube_pmid2cell.json के रूप में सहेजा जाता है । एक सेल के लिए सभी वंशज जाल शर्तों का एक संग्रह डेटा निर्देशिका में meshterms_per_cat.json के रूप में सहेजा जाता है ।
और टेक्स्ट-क्यूब डेटा स्टैटिस्टिक्स डेटा डायरेक्टरी में सेव होते हैं क्योंकि textcube_stat.txt । इसके बाद लॉग डायरेक्टरी में जाकर textcube_log में लॉग मैसेज पढ़ें। यदि यह प्रक्रिया विफल हो जाती है तो यदि यह प्रक्रिया विफल हो जाती है।
यदि प्रक्रिया सफलतापूर्वक पूरी हो जाती है, तो टेक्स्ट-क्यूब क्रिएशन के डिबगिंग संदेश लॉग फाइल में मुद्रित किए जाएंगे। एक इकाई गिनती के लिए, उपयोगकर्ता-परिभाषित संस्थाओं का निर्माण करें, एक इकाई और उसके संक्षिप्त रूपों को एक ही पंक्ति में रखें, जो ऊर्ध्वाधर लाइन प्रतीक द्वारा अलग किया गया है। एंटिटी फाइल को एंटिटीज के रूप में सहेजें।
इनपुट निर्देशिका में txt, और सुनिश्चित करें कि लोचदार सर्वर चल रहा है। यदि प्यूबमेड नामक एक अनुक्रमित डेटाबेस लोचदार सर्वर में मौजूद है, तो textcube_pmid2cell की उपस्थिति की पुष्टि करें। json डेटा निर्देशिका में फ़ाइल, और अजगर run_entitycount दर्ज करें।
एक इकाई गिनती आपरेशन करने के लिए टर्मिनल में py। जब इंडेक्स डेटाबेस से सभी दस्तावेज, और प्रत्येक दस्तावेज़ में संस्थाओं की संख्या गिनी गई है, और जिन पीएमआईडी में संस्थाएं पाई गई थीं, एकत्र की गई हैं, अंतिम परिणामों को इकाईकाउंट के रूप में सहेजें। txt और entityfound_pmid2cell।
डेटा निर्देशिका में जैसन। इसके बाद entitycount_log में लॉग मैसेज पढ़ने के लिए लॉग डायरेक्टरी खोलें। यदि यह प्रक्रिया विफल हो जाती है तो यदि यह प्रक्रिया विफल हो जाती है।
यदि प्रक्रिया सफलतापूर्वक पूरी हो जाती है, तो इकाई गणना के डिबगिंग संदेश लॉग फ़ाइल में मुद्रित किए जाएंगे। सुनिश्चित करें कि सभी इनपुट डेटा डेटा निर्देशिका में हैं। मेटाडेटा अपडेट के लिए ये इनपुट डेटा हैं।
मेटाडेटा का संग्रह तैयार करने के लिए, अजगर run_metadata_update दर्ज करें। मेटाडेटा को अपडेट करने के लिए टर्मिनल में पाय। मेटाडेटा अपडेट पूरा होने के बाद, सुनिश्चित करें कि metadata_pmid2pcount।
जैसन और metadata_cell2pmid। जेएसओएन फाइलें डाटा डायरेक्टरी में सेव हैं। लॉग निर्देशिका में जाओ metadata_update_log में लॉग संदेश पढ़ें।
यदि यह प्रक्रिया विफल हो जाती है तो टीएक्सटी फ़ाइल। यदि प्रक्रिया सफलतापूर्वक पूरी हो जाती है, तो मेटाडेटा अपडेट के डिबगिंग संदेश लॉग फाइल में मुद्रित किए जाएंगे। संदर्भ-जागरूक अर्थ ऑनलाइन विश्लेषणात्मक प्रसंस्करण स्कोर गणना के लिए, metadata_pmid2pcount की उपस्थिति की पुष्टि करें।
जैसन और metadata_cell2pmid। जेएसओएन डेटा निर्देशिका में फाइल करता है। ये स्कोर कैलकुलेशन के इनपुट डेटा हैं।
अजगर run_caseolap_score दर्ज करें। उपयोगकर्ता-परिभाषित श्रेणियों के आधार पर संस्थाओं की संदर्भ-जागरूक अर्थ ऑनलाइन विश्लेषणात्मक प्रसंस्करण स्कोर गणना करने के लिए टर्मिनल में py। स्कोर अखंडता, लोकप्रियता और विशिष्टता का उत्पाद है।
एक बार स्कोर गणना पूरी हो जाने के बाद, पुष्टि करें कि परिणाम निर्देशिका में सहेजे जाते हैं। फिर, caseolab_score_log में लॉग संदेश पढ़ने के लिए लॉग निर्देशिका का उपयोग करें। यदि यह प्रक्रिया विफल हो जाती है तो टीएक्सटी फ़ाइल।
यदि प्रक्रिया सफलतापूर्वक पूरी हो जाती है, तो केसोलैब स्कोर गणना के डिबगिंग संदेश लॉग फाइल में मुद्रित किए जाएंगे। चार शिशु, बच्चे, किशोर और वयस्क आयु वर्ग के उपश्रेणियों से प्राप्त मेटाडेटा और आंकड़ों का उपयोग करके, पाठ-घन कोशिकाओं के बीच दस्तावेजों की संख्या की तुलना प्रदर्शित की जा सकती है। यहां, वयस्क उपश्रेणी में सभी कोशिकाओं में सबसे अधिक संख्या होती है, जिसमें वयस्क और किशोर उपश्रेणियों में साझा दस्तावेजों की सबसे अधिक संख्या होती है, और इस प्रतिनिधि विश्लेषण के लिए ब्याज की इकाई होती है।
एक संदर्भ-जागरूक अर्थ ऑनलाइन विश्लेषणात्मक प्रसंस्करण स्कोर के रूप में प्रोटीन आयु वर्ग संघ का आकलन, शिशु, बच्चे, किशोर और वयस्क उपश्रेणियों से जुड़े शीर्ष 10 प्रोटीन निर्धारित करने में सक्षम थे । यहां, पोषण और मेटाबोलिक रोगों उपश्रेणियों के लिए मेटाडेटा और आंकड़े प्राप्त किए गए हैं। उपश्रेणी मेटाबोलिक रोग में पोषण विकारों के उपश्रेणी के रूप में लगभग तीन गुना अधिक दस्तावेज होते हैं।
मेटाबॉलिक रोग और पोषण संबंधी विकारों के उपश्रेणियों में 7, १०१ साझा दस्तावेज हैं । विशेष रूप से, इन दस्तावेजों में प्रतिनिधि अध्ययन के लिए ब्याज की इकाई शामिल थी। सभी प्रोटीन के आधे से अधिक उपश्रेणियों के बीच साझा कर रहे हैं, मेटाबोलिक रोग उपश्रेणी में जुड़े प्रोटीन के लगभग आधे के साथ कि उपश्रेणी के लिए अद्वितीय है, और पोषण विकारों के साथ केवल कुछ अद्वितीय प्रोटीन का प्रदर्शन ।
स्वतंत्र और विशिष्ट श्रेणियां, और एक इकाई के सभी समानार्थी शब्दों और संक्षिप्त रूपों का संग्रह सर्वोत्तम परिणाम प्रदान करेगा। चूंकि इकाई श्रेणी संघ को संख्यात्मक मूल्य के रूप में प्रस्तुत किया जाता है, इसलिए यह क्लस्टरिंग और सिद्धांत घटक विश्लेषण जैसी लापता सीखने की तकनीकों को लागू करने का दरवाजा खोलता है। यह तकनीक इन संघों के भीतर छिपे हुए या पहले अज्ञात संबंधों की खोज की सुविधा प्रदान करती है, जिससे जैविक प्रक्रियाओं की गहरी समझ का मार्ग प्रशस्त होता है।