הפרוטוקול שלנו מספק מדד שלב אחר שלב לבניית פלטפורמת כריית ביטויים מבוססת ענן עבור שיוך קטגוריית ישויות המוגדרת על-ידי המשתמש, כדי להעריך את הקשר של חלבונים, גנומים או כימיקלים למחלות ספציפיות. היתרונות העיקריים של טכניקה זו הם יעילות משופרת שלה על פני הערכת שיוך קטגוריית ישות ידנית, נגישות משופרת ושימוש בכלי כריית ביטויים עבור יישומי מחקר ביו-רפואיים נרחבים. משתמשים יכולים לבחור ישויות וקטגוריות מעניינות בפרסומים ביו-רפואיים, או בתוך מסמכי טקסט המשויכים למילות מפתח ספציפיות.
משתמשים חדשים יכולים לפעול לפי הפרוטוקול שלנו וההפניות המופיעות בכתב היד, והם יכולים להעלות בעיות טכניות במאגר GitHub שלנו. הדגמה חזותית של עניין זה מוסיפה בהירות רבה יותר לאופן ביצוע הפרוטוקול, ומעודדת יישום של כלי כריית טקסט חדשניים. כדי ליצור קוביית טקסט, הורד תחילה את כותרות הנושאים הרפואיים העדכניות ביותר הזמינות, או את עץ רשת שינוי.
הקוד עבור עץ רשת שינוי 2018 הוא MESHTree2018. סל ויש להזין אותו בספריית הקלט. הגדירו את קטגוריות העניין באמצעות מתאר רשת שינוי אחד או יותר ואספו מזהי רשת שינוי עבור קטגוריה.
שמור את שמות הקטגוריות textcube_config. json במדריך הכתובות config והוסף את הקטגוריות שנאספו של מזהי רשת שינוי בשורה המופרדת באמצעות רווח. שמור את קובץ הקטגוריה כקטגוריות.
txt בספריית הקלט. אלגוריתם זה בוחר באופן אוטומטי את כל מתארי רשת שינוי צאצא. ודא כי רשת 2pmid.
json נמצא בספריית הנתונים. אם עץ רשת שינוי עודכן בשם אחר בספריית הקלט, ודא שזה מיוצג כראוי בנתיב נתוני הקלט run_textcube. קובץ py.
כדי ליצור מבנה מסמך הנקרא קוביית טקסט, הזן run_textcube. py במסוף כדי ליצור אוסף של מסמכים עבור כל קטגוריה. מסמך יחיד עשוי להיחתם תחת קטגוריות מרובות.
לאחר השלמת שלב היצירה של קוביית הטקסט, ודא שתא בטבלת PMID נשמר בספריית הנתונים כ- textcube_cell2pmid.json. PMID לטבלת מיפוי התאים נשמר בספריית הנתונים textcube_pmid2cell.json. אוסף של כל מונחי רשת שינוי צאצא עבור תא נשמר בספריית הנתונים meshterms_per_cat.json.
וסטטיסטיקות הנתונים של קוביית הטקסט נשמרות בספריית הנתונים textcube_stat.txt. לאחר מכן, עבור אל ספריית יומן הרישום כדי לקרוא את הודעות יומן הרישום textcube_log. txt, במקרה שתהליך זה ייכשל.
אם התהליך הושלם בהצלחה, הודעות איתור הבאגים של יצירת קוביית הטקסט יודפסו בקובץ יומן הרישום. עבור ספירת ישויות, צור ישויות המוגדרות על-ידי המשתמש, תוך מיקום ישות אחת וקיצוריה בשורה אחת, כשהם מופרדים באמצעות סימן הקו האנכי. שמור את קובץ הישות כישות.
txt בספריית הקלט וודא שהשרת Elasticsearch פועל. אם קיים מסד נתונים הכלול באינדקס בשם PubMed בשרת Elasticsearch, אשר את נוכחות textcube_pmid2cell. json בספריית הנתונים והזן קובץ פיתון run_entitycount.
py במסוף כדי לבצע פעולת ספירת ישויות. כאשר כל המסמכים ממסד הנתונים של האינדקס ומספר הישויות בכל מסמך נספרו, ומקליטי ה- PMI שבהם נמצאו ישויות נאספו, שמור את התוצאות הסופיות כמספר ישויות. txt entityfound_pmid2cell.
json בספריית הנתונים. לאחר מכן, פתח את ספריית יומן הרישום כדי לקרוא את הודעות יומן הרישום entitycount_log. txt, במקרה שתהליך זה ייכשל.
אם התהליך הושלם בהצלחה, הודעות איתור הבאגים של ספירת הישויות יודפסו בקובץ יומן הרישום. ודא שכל נתוני הקלט נמצאים בספריית הנתונים. אלה הם נתוני הקלט עבור עדכון המטה-נתונים.
כדי להכין אוסף של מטה-נתונים, הזן run_metadata_update. py במסוף כדי לעדכן את המטה-נתונים. לאחר השלמת עדכון המטה-נתונים, ודא metadata_pmid2pcount.
ג'metadata_cell2pmid. קבצי json נשמרים בספריית הנתונים. עבור אל ספריית יומן הרישום כדי לקרוא את הודעות יומן הרישום metadata_update_log.
קובץ txt, במקרה שתהליך זה ייכשל. אם התהליך הושלם בהצלחה, הודעות איתור הבאגים של עדכון המטה-נתונים יודפסו בקובץ יומן הרישום. עבור חישוב ניקוד עיבוד אנליטי מקוון סמנטי מודע להקשר, אשר את נוכחותו של metadata_pmid2pcount.
ג'metadata_cell2pmid. קבצי json בספריית הנתונים. אלה הם נתוני הקלט עבור חישוב הניקוד.
הזן פיתון run_caseolap_score. py במסוף כדי לבצע חישוב ניקוד עיבוד אנליטי מקוון סמנטי מודע להקשר של הישויות המבוססות על קטגוריות המוגדרות על-ידי המשתמש. הציון הוא תוצר של יושרה, פופולריות וייחודיות.
לאחר השלמת חישוב הניקוד, ודא שהתוצאות נשמרות בספריית התוצאות. לאחר מכן, גש לספריה log כדי לקרוא את הודעות יומן הרישום caseolab_score_log. קובץ txt, במקרה שתהליך זה ייכשל.
אם התהליך הושלם בהצלחה, הודעות איתור הבאגים של חישוב הניקוד caseolab יודפסו בקובץ יומן הרישום. באמצעות המטה-נתונים והסטטיסטיקות המתקבלים מארבע קטגוריות המשנה של קבוצת הגיל של התינוק, הילד, המתבגר והמבוגר, ניתן להציג השוואה בין מספר המסמכים בין תאי קוביית הטקסט. כאן, קטגוריית המשנה למבוגרים מכילה את המספר הגבוה ביותר בכל התאים, כאשר קטגוריות המשנה למבוגרים ולמתבגרים הן בעלות המספר הגבוה ביותר של מסמכים משותפים, ומכילות את הישות המעניינים לניתוח מייצג זה.
הערכת הקשר קבוצת גיל החלבון כציון עיבוד אנליטי מקוון סמנטי מודע להקשר, 10 החלבונים המובילים הקשורים לתינוק, ילד, מתבגר וקטגוריות למבוגרים הצליחו להיקבע. כאן, מטא-נתונים וסטטיסטיקות שהתקבלו עבור קטגוריות המשנה של מחלות תזונתיות ומטבוליות מוצגות. המחלה המטבולית התת-קטגורית מכילה כמעט פי שלושה מסמכים מקטגוריית המשנה של הפרעות תזונתיות.
המחלה המטבולית והפרעות תזונתיים קטגוריות יש 7, 101 מסמכים משותפים. יש לציין כי מסמכים אלה כללו את ישות העניין במחקר הייצוגי. יותר ממחצית החלבונים משותפים בין קטגוריות המשנה, כאשר כמעט מחצית מכל החלבונים הקשורים בתת קטגוריית המחלה המטבולית ייחודיים לאותה קטגוריית משנה, ועם תת קטגוריית ההפרעות התזונתיים המציגה רק כמה חלבונים ייחודיים.
קטגוריות עצמאיות ומובחנות, ואוסף של כל המילים ה נרדפות וקיצורים של ישות יספק את התוצאות הטובות ביותר. מאחר שיוך קטגוריית ישות מוצג כערך מספרי, זה פותח את הדלת ליישום טכניקות למידה חסרות כגון קיבוץ באשכולות וניתוח רכיבים עקרוניים. טכניקה זו מקלה על גילוי יחסים נסתרים או לא מזוהים בעבר בתוך אסוציאציות אלה, וסוללת את הדרך להבנה עמוקה יותר של תהליכים ביולוגיים.