Method Article
פרוטוקול חישובי, CaseOLAP LIFT, ומקרה שימוש מוצגים לחקר חלבונים מיטוכונדריאליים והקשר שלהם למחלות לב וכלי דם כמתואר בדוחות ביו-רפואיים. פרוטוקול זה יכול להיות מותאם בקלות לחקר רכיבים תאיים שנבחרו על ידי המשתמש ומחלות.
הכמויות הגדלות במהירות והכמויות העצומות של דוחות ביו-רפואיים, שכל אחד מהם מכיל ישויות רבות ומידע עשיר, מייצגים משאב עשיר ליישומי כריית טקסט ביו-רפואיים. כלים אלה מאפשרים לחוקרים לשלב, להמשיג ולתרגם תגליות אלה כדי לחשוף תובנות חדשות על פתולוגיה וטיפולים של מחלות. בפרוטוקול זה, אנו מציגים את CaseOLAP LIFT, צינור חישובי חדש לחקר רכיבים תאיים והקשרים שלהם למחלות על ידי חילוץ מידע שנבחר על ידי המשתמש ממערכי נתונים טקסטואליים (למשל, ספרות ביו-רפואית). התוכנה מזהה חלבונים תת-תאיים ואת שותפיהם הפונקציונליים בתוך מסמכים רלוונטיים למחלות. מסמכים נוספים הרלוונטיים למחלה מזוהים באמצעות שיטת זקיפת התוויות של התוכנה. כדי לקשר את הקשרים בין מחלות חלבון הנובעות מכך ולשלב מידע ממשאבים ביו-רפואיים רלוונטיים מרובים, גרף ידע נבנה באופן אוטומטי לניתוחים נוספים. אנו מציגים מקרה שימוש אחד עם קורפוס של ~ 34 מיליון מסמכי טקסט שהורדו באינטרנט כדי לספק דוגמה להבהרת תפקידם של חלבונים מיטוכונדריאליים בפנוטיפים שונים של מחלות לב וכלי דם באמצעות שיטה זו. יתר על כן, מודל למידה עמוקה יושם על גרף הידע שהתקבל כדי לחזות קשרים שלא דווחו בעבר בין חלבונים למחלות, וכתוצאה מכך 1,583 קשרים עם הסתברויות חזויות >0.90 ועם שטח מתחת לעקומת ההפעלה של המקלט (AUROC) של 0.91 בקבוצת הבדיקה. תוכנה זו כוללת זרימת עבודה אוטומטית וניתנת להתאמה אישית, עם היקף רחב של נתונים גולמיים הזמינים לניתוח; לכן, באמצעות שיטה זו, ניתן לזהות אסוציאציות של מחלות חלבונים עם אמינות משופרת בתוך קורפוס טקסט.
חקר חלבונים הקשורים למחלות משפר את הידע המדעי של פתוגנזה ומסייע לזהות טיפולים פוטנציאליים. כמה קורפורות טקסט גדולות של פרסומים ביו-רפואיים, כגון 34 מיליון המאמרים של PubMed המכילים כותרות פרסומים, תקצירים ומסמכי טקסט מלא, מדווחים על ממצאים חדשים המקשרים חלבונים עם מחלות. עם זאת, ממצאים אלה מקוטעים על פני מקורות שונים ויש לשלב אותם כדי ליצור תובנות ביו-רפואיות חדשות. קיימים מספר משאבים ביו-רפואיים לשילוב אסוציאציות של מחלות חלבונים 1,2,3,4,5,6,7. עם זאת, משאבים אלה שנאספו לעתים קרובות אינם שלמים ועשויים שלא להקיף את ממצאי המחקר העדכניים ביותר. גישות כריית טקסט חיוניות כדי לחלץ ולסנתז אסוציאציות של מחלות חלבונים בקורפורות טקסט גדולות, מה שיביא להבנה מקיפה יותר של מושגים ביו-רפואיים אלה בספרות המדעית.
קיימות גישות ביו-רפואיות רבות לכריית טקסט כדי לחשוף יחסי חלבון-מחלה 8,9,10,11,12,13,14, ואחרות תורמות בחלקן לקביעת יחסים אלה על ידי זיהוי החלבונים, המחלות או ישויות ביו-רפואיות אחרות המוזכרות בטקסט 13,15,16,17, 18,19. עם זאת, רבים מכלים אלה חסרים גישה לספרות העדכנית ביותר, למעט מעטים המתעדכנים מעת לעת 8,11,13,15. באופן דומה, לכלים רבים יש גם היקף מחקר מוגבל, מכיוון שהם מוגבלים למחלות או חלבונים מוגדרים מראש 9,13. מספר גישות נוטות גם לזיהוי תוצאות חיוביות שגויות בתוך הטקסט; אחרים התייחסו לבעיות אלה באמצעות רשימה שחורה גלובלית וניתנת לפירוש של שמות חלבונים9,11 או פחות טכניקות זיהוי ישויות של שמות הניתנים לפירוש15,20. בעוד שרוב המשאבים מציגים רק תוצאות מחושבות מראש, כלים מסוימים מציעים אינטראקטיביות באמצעות יישומי אינטרנט או קוד תוכנה נגיש 8,9,11.
כדי להתמודד עם המגבלות לעיל, אנו מציגים את הפרוטוקול הבא, CaseOLAP עם זקיפת תוויות וטקסט מלא (CaseOLAP LIFT), כפלטפורמה גמישה וניתנת להתאמה אישית לחקר קשרים בין חלבונים (למשל, חלבונים הקשורים לרכיב תאי) ומחלות ממערכי נתונים של טקסט. פלטפורמה זו כוללת אצירה אוטומטית של חלבונים ספציפיים למונח אונטולוגיה גנטית (GO) (למשל, חלבונים ספציפיים לאברונים), זקיפה של תוויות נושא חסרות במסמך, ניתוח של מסמכי טקסט מלא, כמו גם כלי ניתוח וכלי חיזוי (איור 1, איור 2 וטבלה 1). CaseOLAP LIFT אוצרת חלבונים ספציפיים לאברונים באמצעות מונחי GO שסופקו על-ידי המשתמש (למשל, תא אברונים) וחלבונים הקשורים לתפקוד באמצעות STRING21, Reactome 22 ו-GRNdb23. מסמכים הלומדים מחלות מזוהים על ידי תוויות כותרת הנושא הרפואי (MeSH) שלהם המבוארות ב- PubMed. עבור ~15.1% מהמסמכים ללא תווית, תוויות מיוחסות אם לפחות מונח MeSH אחד נמצא בכותרת או לפחות שניים נמצאים בתקציר. זה מאפשר לפרסומים שלא סווגו בעבר להיחשב בניתוח כריית טקסט. CaseOLAP LIFT גם מאפשר למשתמש לבחור קטעי פרסומים (למשל, כותרות ותקצירים בלבד, טקסט מלא או טקסט מלא למעט שיטות) במסגרת זמן מוגדרת (למשל, 2012-2022). התוכנה גם אוצרת באופן אוטומטי למחצה רשימה שחורה ספציפית למקרה שימוש של שמות חלבונים, ומפחיתה באופן חיוני את האסוציאציות החיוביות הכוזבות למחלות חלבון הקיימות בגישות אחרות. בסך הכל, שיפורים אלה מאפשרים התאמה אישית ואוטומציה רבה יותר, מרחיבים את כמות הנתונים הזמינים לניתוח ומניבים אסוציאציות בטוחות יותר למחלות חלבונים מחברות טקסט ביו-רפואיות גדולות.
CaseOLAP LIFT משלב ידע ביו-רפואי ומייצג את היחסים בין מושגים ביו-רפואיים שונים באמצעות גרף ידע, הממונף לחיזוי קשרים נסתרים בגרף. לאחרונה, שיטות חישוב מבוססות גרפים יושמו על הגדרות ביולוגיות, כולל שילוב וארגון מושגים ביו-רפואיים 24,25, ייעוד מחדש ופיתוח תרופות 26,27,28, ולקבלת החלטות קליניות מנתוני פרוטאומיקה 29.
כדי להדגים את כלי השירות של CaseOLAP LIFT במסגרת בניית גרף ידע, אנו מדגישים מקרה שימוש על חקירת הקשרים בין חלבונים מיטוכונדריאליים ושמונה קטגוריות של מחלות לב וכלי דם. ראיות מ~362,000 מסמכים רלוונטיים למחלות נותחו כדי לזהות את החלבונים והמסלולים המיטוכונדריאליים המובילים הקשורים למחלות. לאחר מכן, חלבונים אלה, החלבונים הקשורים לתפקוד שלהם ותוצאות כריית הטקסט שלהם שולבו בגרף ידע. גרף זה מונף בניתוח חיזוי קישורים מבוסס למידה עמוקה כדי לחזות קשרים בין מחלות חלבונים שלא דווחו עד כה בפרסומים ביו-רפואיים.
פרק המבוא מתאר את מידע הרקע והמטרות של הפרוטוקול שלנו. הסעיף הבא מתאר את השלבים של הפרוטוקול החישובי. לאחר מכן, מתוארות התוצאות המייצגות של פרוטוקול זה. לבסוף, נדון בקצרה במקרי השימוש בפרוטוקול חישובי, יתרונות, חסרונות ויישומים עתידיים.
1. הפעלת מיכל העגינה
2. הכנת המחלות והחלבונים
3. כריית טקסט
4. ניתוח התוצאות
5. ניתוח חיזוי
תוצאות מייצגות הופקו בעקבות פרוטוקול זה כדי לחקור את הקשרים בין חלבונים מיטוכונדריאליים (טבלה 2) לבין שמונה קטגוריות של מחלות לב וכלי דם (טבלה 3). בקטגוריות אלה מצאנו 363,567 פרסומים שפורסמו בין השנים 2012 לאוקטובר 2022 (362,878 סווגו לפי מטא-נתונים של MeSH, 6,923 סווגו לפי זקיפת תווית). לכל הפרסומים היו כותרות, ל-276,524 היו תקצירים, ול-51,065 היה את הטקסט המלא זמין. בסך הכל, 584 מתוך 1,687 החלבונים המיטוכונדריאליים שנשאלו זוהו במסגרת הפרסומים, בעוד 3,284 מתוך 8,026 החלבונים הקשורים לתפקוד זוהו בשאילתות. בסך הכל, 14 חלבונים ייחודיים זוהו עם ציונים משמעותיים בכל קטגוריות המחלה, עם סף ציון z של 3.0 (איור 5). ניתוח מסלול Reactome של חלבונים אלה גילה 12 מסלולים משמעותיים לכל המחלות (איור 6). כל החלבונים, המסלולים, המחלות והציונים שולבו בגרף ידע (טבלה 4). גרף ידע זה מונף כדי לחזות 12,688 קשרים חדשים בין מחלות חלבונים וסונן עם ציון הסתברות של 0.90 כדי להניב 1,583 תחזיות ברמת ביטחון גבוהה. דוגמה מודגשת לשתי אסוציאציות של מחלות חלבונים מוצגת באיור 7, המודגם בהקשר של ישויות ביולוגיות רלוונטיות אחרות הקשורות תפקודית לחלבונים. מדדי הערכת המודל מדווחים בלוח 5.
איור 1: תצוגה דינאמית של זרימת העבודה. איור זה מייצג את ארבעת השלבים העיקריים בזרימת עבודה זו. ראשית, חלבונים רלוונטיים נאספים על בסיס מונחי GO שסופקו על ידי המשתמש (למשל, רכיבים תאיים), וקטגוריות מחלות מוכנות על סמך מזהי MeSH של המחלה שסופקו על ידי המשתמש. שנית, הקשרים בין חלבונים למחלות מחושבים בשלב כריית הטקסט. פרסומים בטווח תאריכים מסוים יורדו ויתווספו לאינדקס. פרסומים החוקרים מחלות מזוהים (באמצעות תוויות MeSH ואופציונלית באמצעות תוויות זקופות), והטקסטים המלאים שלהם יורדים ומאונדקסים. שמות חלבונים נשאלים בתוך הפרסומים ומשמשים לחישוב ציוני הקשר בין חלבונים למחלות. לאחר מכן, לאחר כריית טקסט, ציונים אלה עוזרים לזהות את האסוציאציות המובילות בין חלבונים ומסלולים. לבסוף, נבנה גרף ידע המקיף חלבונים, מחלות והקשרים ביניהם בתוך בסיס הידע הביו-רפואי. קשרים חדשים בין חלבונים למחלות נחזות על סמך גרף הידע המובנה. שלבים אלה משתמשים בנתונים הזמינים העדכניים ביותר מבסיסי הידע הביו-רפואי ומ-PubMed. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
איור 2: ארכיטקטורה טכנית של זרימת העבודה. הפרטים הטכניים של זרימת עבודה זו מתוארים באיור זה. המשתמש מספק את מספרי עץ MeSH של קטגוריות המחלה ואת מונחי GO. מסמכי טקסט מורדים מ- PubMed, מסמכים רלוונטיים למחלות מזוהים על סמך תוויות MeSH שסופקו, ומסמכים ללא תוויות MeSH המציינות נושא מקבלים תוויות קטגוריה זקופות. החלבונים הקשורים למונחי GO שסופקו נרכשים. קבוצת חלבונים זו מורחבת וכוללת חלבונים הקשורים תפקודית באמצעות אינטראקציות חלבון-חלבון, מסלולים ביולוגיים משותפים ותלות בפקטורי שעתוק. חלבונים אלה נשאלים במסמכים רלוונטיים למחלות ומקבלים ניקוד על ידי CaseOLAP. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
איור 3: דוגמה למסמך מעובד. דוגמה למסמך טקסט מנותח הכלול באינדקס מוצגת כאן. לפי הסדר, שדות רלוונטיים מציינים את שם האינדקס (_index, _type), מזהה PubMed (_id, pmid), סעיפי המשנה של המסמך (כותרת, תקציר, full_text, מבוא, שיטות, תוצאות, דיון) ומטה-נתונים אחרים (שנה, MeSH, מיקום, יומן). למטרות תצוגה בלבד, סעיפי המשנה של המסמך נחתכים בשלוש נקודות. השדה MeSH מכיל את נושאי המסמך, שלעתים עשויים להיות מסופקים על-ידי שלב זקיפת התוויות שלנו. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
איור 4: סכימת גרף ידע ומשאבים ביו-רפואיים. איור זה מתאר את סכימת גרף הידע. כל צומת וקצה מייצגים צומת או סוג קצה, בהתאמה. הקצוות בין מחלות לב וכלי דם (CVD) וחלבונים משוקללים על ידי ציוני CaseOLAP. קצוות האינטראקציה חלבון-חלבון (PPI) משוקללים על ידי ציוני ביטחון STRING. קצוות התלות בגורם שעתוק (TFD) הנגזרים מ- GRNdb/GTEx, קצוות עץ המחלה הנגזרים מ- MeSH וקצוות מסלול הנגזרים מריאקטום אינם משוקללים. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
איור 5: הקשרים המובילים בין מחלות חלבון. נתון זה מציג חלבונים מיטוכונדריאליים משמעותיים לכל קטגוריית מחלה. טרנספורמציית ציון Z יושמה על ציוני CaseOLAP בכל קטגוריה כדי לזהות חלבונים משמעותיים באמצעות סף של 3.0. (למעלה) מספר החלבונים המיטוכונדריאליים המשמעותיים לכל מחלה: עלילות כינור אלה מתארות את התפלגות ציוני z עבור חלבונים בכל קטגוריית מחלה. המספר הכולל של חלבונים משמעותיים לכל קטגוריית מחלה מוצג מעל כל חלקת כינור. בסך הכל זוהו 14 חלבונים ייחודיים כמשמעותיים בכל המחלות, וחלק מהחלבונים היו משמעותיים למספר מחלות. (למטה) חלבונים בעלי ניקוד גבוה: מפת החום מציגה את 10 החלבונים המובילים שהשיגו את ציוני z הממוצעים הגבוהים ביותר בכל המחלות. הערכים הריקים אינם מייצגים ציון מתקבל בין החלבון למחלה. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
איור 6: הקשרים המובילים בין מחלות מסלול. איור זה ממחיש את המסלולים הביולוגיים המובילים הקשורים לקטגוריות המחלה הנחקרות, כפי שנקבעו באמצעות ניתוח מסלול ריאקטום. כל ניתוחי המסלולים סוננו עם p < 0.05. ערכי מפת החום מייצגים את ציון z הממוצע של כל החלבונים במסלול. (למעלה) מסלולים שהשתמרו בין כל המחלות: בסך הכל זוהו 14 חלבונים עם רלוונטיות לכל קטגוריות המחלה, ונחשפו 12 מסלולים שמורים בין כל קטגוריות המחלה. דנדרוגרמה נבנתה על בסיס המבנה ההיררכי של המסלול כדי לקשר את המסלולים עם פונקציות ביולוגיות דומות. גובה הדנדרוגרמה מייצג את העומק היחסי בהיררכיית המסלול; לתפקודים ביולוגיים רחבים יש גפיים ארוכות יותר, ולמסלולים ספציפיים יותר יש גפיים קצרות יותר. (למטה) מסלולים ייחודיים לקטגוריית מחלה: ניתוח המסלולים בוצע באמצעות חלבונים שהשיגו ציון Z משמעותי בכל מחלה. שלושת המסלולים המובילים עם ערכי ה-p הנמוכים ביותר הקשורים לכל מחלה מוצגים ומסומנים בכוכביות. המסלולים יכולים להיות בתוך שלושת הראשונים במספר מחלות. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
איור 7: יישום למידה עמוקה להשלמת גרף ידע. דוגמה ליישום למידה עמוקה על גרף ידע ספציפי למחלה מוצגת באיור זה. יחסים נסתרים בין חלבונים למחלות צפויים, ואלה מסומנים בכחול. מוצגות הסתברויות מחושבות עבור שתי התחזיות, עם ערכים הנעים בין 0.0 ל-1.0 ועם 1.0 המציין תחזית חזקה. נכללים מספר חלבונים בעלי אינטראקציות ידועות, המייצגים אינטראקציות חלבון-חלבון, תלות בפקטורי שעתוק ומסלולים ביולוגיים משותפים. לצורך תצוגה חזותית, מוצג תת-גרף של כמה צמתים בעלי רלוונטיות לדוגמה המסומנת. מפתח: IHD = מחלת לב איסכמית; R-HSA-1430728 = מטבוליזם; O14949 = ציטוכרום b-c1 קומפלקס תת-יחידה 8; P17568 = NADH dehydrogenase (יוביקינון) 1 תת-יחידה תת-קומפלקס בטא 7; Q9NYF8 גורם שעתוק משויך Bcl-2 1, ציון: 7.24 x 10−7; P49821 = NADH dehydrogenase (יוביקינון) פלבופרוטאין 1, מיטוכונדריה, ציון: 1.06 x 10−5; P31930 = ציטוכרום B-C1 קומפלקס תת-יחידה 1, מיטוכונדריה, ציון: 4.98 x 10−5; P99999 = ציטוכרום c, ציון: 0.399. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
טבלה 1: שלבי זרימת עבודה והגבלת קצב. טבלה זו מציגה הערכות גסות של הזמן החישובי עבור כל שלב בזרימת העבודה. אפשרויות לכלול רכיבים של הצינור ישנו את זמן הריצה הכולל הדרוש להשלמת הניתוח. הערכת הזמן הכוללת משתנה בהתאם למשאבי החישוב הזמינים, כולל מפרטי החומרה והגדרות התוכנה. כהערכה גסה, לקח לפרוטוקול 36 שעות של זמן ריצה פעיל לפעול בשרת החישובי שלנו, עם שש ליבות, 32 Gb של RAM ו- 2 TB של אחסון, אבל זה עשוי להיות מהיר יותר או איטי יותר במכשירים אחרים. אנא לחץ כאן כדי להוריד טבלה זו.
טבלה 2: הרכבה אוטומטית של חלבוני המרכיבים את התא. טבלה זו מציגה את מספר החלבונים הקשורים לרכיב תאי נתון (כלומר, מונח GO), חלבונים הקשורים אליהם מבחינה תפקודית באמצעות אינטראקציות חלבון-חלבון (PPI), מסלולים משותפים (PW) ותלות בגורם שעתוק (TFD). מספר החלבונים הכולל הוא מספר החלבונים מכל הקטגוריות הקודמות גם יחד. כל החלבונים הקשורים לתפקוד התקבלו באמצעות פרמטרי ברירת המחדל של CaseOLAP LIFT. אנא לחץ כאן כדי להוריד טבלה זו.
טבלה 3: סטטיסטיקה של זקיפת תוויות MeSH. טבלה זו מציגה את קטגוריות המחלה, מספרי עץ MeSH המשמשים כמונח האב של כל המחלות הכלולות בקטגוריה, מספר מאמרי PubMed שנמצאו בכל קטגוריה בין השנים 2012-2022, ומספר המאמרים הנוספים שנכללו בהתבסס על שלב זקיפת התווית. אנא לחץ כאן כדי להוריד טבלה זו.
טבלה 4: גרף ידע סטטיסטיקה של בנייה. טבלה זו מתארת את הנתונים הסטטיסטיים עבור גודל גרף הידע הנבנה, כולל הצמתים וסוגי הקצוות השונים. ציוני CaseOLAP מייצגים את הקשר בין חלבון לבין קטגוריה של מחלות לב וכלי דם (CVD). אנא לחץ כאן כדי להוריד טבלה זו.
טבלה 5: סטטיסטיקות ואימותים של גרף ידע. טבלה זו מדווחת על מדדי ההערכה של קישור גרף הידע לחיזוי קשרים חדשים / נסתרים של מחלות חלבון. קצוות גרף הידע חולקו למערכי נתונים של הדרכה ובדיקה 70/30, וקישוריות הגרפים של הקצוות נשמרה בשני מערכי הנתונים. הדיוק מציין את שיעור התחזיות המסווגות נכון, בעוד שהדיוק המאוזן מתקן את חוסר האיזון המעמדי. הספציפיות מציינת את שיעור התחזיות השליליות המסווגות כראוי. הדיוק מציין את שיעור התחזיות החיוביות הנכונות מתוך כל התחזיות החיוביות, ואילו ההיזכרות מציינת את שיעור התחזיות החיוביות הנכונות מתוך כל הקצוות החיוביים (כלומר, אסוציאציות של מחלות חלבונים שזוהו באמצעות כריית טקסט). ציון F1 הוא הממוצע ההרמוני של הדיוק וההיזכרות. האזור מתחת לעקומת ההפעלה של המקלט (AUROC) מתאר עד כמה המודל מבחין בין תחזיות חיוביות ושליליות, כאשר 1.0 מציין מסווג מושלם. האזור מתחת לעקומת הדיוק-היזכרות (AUPRC) מודד את הפשרה בין דיוק להיזכרות בספי הסתברות משתנים, כאשר ערכים גבוהים יותר מצביעים על ביצועים טובים יותר. אנא לחץ כאן כדי להוריד טבלה זו.
CaseOLAP LIFT מאפשר לחוקרים לחקור קשרים בין חלבונים פונקציונליים (למשל, חלבונים הקשורים למרכיב תאי, תהליך ביולוגי או תפקוד מולקולרי) לבין קטגוריות ביולוגיות (למשל, מחלות). הפרוטוקול המתואר צריך להתבצע ברצף שצוין, כאשר פרוטוקול סעיף 2 ופרוטוקול סעיף 3 הם השלבים הקריטיים ביותר, שכן פרוטוקול סעיף 4 ופרוטוקול סעיף 5 תלויים בתוצאותיהם. כחלופה לפרוטוקול סעיף 1, ניתן לשכפל את קוד CaseOLAP LIFT ולגשת אליו ממאגר GitHub (https://github.com/CaseOLAP/caseolap_lift). יש לציין כי למרות בדיקות במהלך פיתוח התוכנה, באגים עלולים להתרחש. אם כן, יש לחזור על השלב שנכשל. אם הבעיה נמשכת, מומלץ לחזור על פרוטוקול סעיף 1 כדי להבטיח שנעשה שימוש בגירסה העדכנית ביותר של הגורם המכיל של Docker. סיוע נוסף זמין על ידי יצירת בעיה במאגר GitHub לקבלת תמיכה נוספת.
שיטה זו תומכת ביצירת השערות בכך שהיא מאפשרת לחוקרים לזהות ישויות בעלות עניין ולחשוף את הקשרים הפוטנציאליים ביניהן, שייתכן שלא יהיו נגישים בקלות במשאבים ביו-רפואיים קיימים. הקשרים בין חלבונים למחלות מאפשרים לחוקרים לקבל תובנות חדשות באמצעות המדדים הניתנים לפירוש של הציונים: ציוני הפופולריות מציינים את החלבונים הנחקרים ביותר ביחס למחלה, ציוני הייחודיות מצביעים על מחלות הייחודיות ביותר לחלבון, וציון CaseOLAP המשולב הוא שילוב של השניים. כדי למנוע זיהויים חיוביים כוזבים (למשל, עקב הומונימים), חלק מהכלים לכריית טקסט משתמשים ברשימה שחורה של מונחים כדי להימנעמ-9,11. כמו כן, CaseOLAP LIFT משתמש גם ברשימה שחורה אך מאפשר למשתמש להתאים את הרשימה השחורה למקרה השימוש שלו. לדוגמה, כאשר לומדים מחלת עורקים כליליים (CAD), "CAD" לא צריך להיחשב שם עבור חלבון "קספאז מופעל deoxyribonuclease". עם זאת, כאשר לומדים נושאים אחרים, "CAD" עשוי בדרך כלל להתייחס לחלבון.
CaseOLAP LIFT מתאים את עצמו לכמות הנתונים הזמינים לכריית טקסט. פונקציונליות טווח התאריכים מקלה על הנטל החישובי ויוצרת גמישות ליצירת השערות (למשל, לחקור כיצד הידע המדעי על קשר חלבון-מחלה השתנה לאורך זמן). בינתיים, זקיפת התוויות ורכיבי הטקסט המלא משפרים את היקף הנתונים הזמינים לכריית טקסט. שני הרכיבים מושבתים כברירת מחדל כדי להפחית את עלויות החישוב, אך המשתמש עשוי להחליט לכלול כל אחד מהרכיבים. זקיפת התוויות היא שמרנית, והיא מסווגת נכון את רוב הפרסומים (87% דיוק) אך מפספסת תוויות קטגוריה אחרות (2% זוכרים). שיטה זו מסתמכת כיום על היוריסטיקה מבוססת כללים התואמת מילות מפתח של מחלות, ויש תוכניות לשפר את הביצועים באמצעות שימוש בטכניקות מידול נושאי מסמכים. מכיוון שדוחות רבים שאינם מסווגים נוטים להיות פרסומים עדכניים, מחקרים החוקרים טווח תאריכים עדכני (למשל, כל הפרסומים בשלוש השנים האחרונות) מקבלים שירות טוב יותר על ידי השבתת זקיפת התוויות. רכיב הטקסט המלא מגדיל את זמן הריצה ואת דרישות האחסון. יש לציין שרק למיעוט מהמסמכים יש את הטקסט המלא הזמין (~14% מהמסמכים במחקר שלנו). בהנחה ששמות החלבונים המוזכרים בסעיף השיטות של הפרסומים נוטים פחות להיות קשורים לנושאי המחלה, מומלץ לבצע שאילתות במאמרים בטקסט מלא למעט סעיף השיטות.
ציוני הקשר בין מחלות חלבון המתקבלים שימושיים עבור ניתוחים מסורתיים כגון אשכולות, הפחתת ממדיות, או ניתוחי העשרה (למשל, GO, מסלולים), עם יישום מסוים הכלול בחבילת תוכנה זו. כדי לקשר ציונים אלה בתוך הידע הביו-רפואי הקיים, גרף ידע נבנה באופן אוטומטי וניתן לחקור אותו באמצעות כלים להדמיית גרפים (לדוגמה, Neo4j32, Cytoscape33). גרף הידע יכול לשמש גם לניתוחי חיזוי (למשל, חיזוי קישורים של יחסי חלבון-מחלה לא מדווחים, זיהוי קהילתי של רשתות חלבונים, שיטות הליכה בשבילי איסוף פרסים).
בחנו את מדדי הערכת המודל עבור הקשרים החזויים בין חלבונים למחלות (טבלה 5). המודל מקצה ציון הסתברות בין 0.0 ל-1.0 לכל קשר בין חלבון למחלה, כאשר ציונים קרובים יותר ל-1.0 מצביעים על רמה גבוהה יותר של ביטחון בתחזית. ההערכה הפנימית של ביצועי המודל, שהתבססה על מדדים שונים כולל AUROC, דיוק, דיוק מאוזן, ספציפיות וזכירה, הצביעה על ביצועים כוללים מצוינים בעבודתו. עם זאת, ההערכה הדגישה גם ציון גרוע למדי עבור הדיוק (0.15) של הדגם, וכתוצאה מכך ציון AUPRC ו- F1 נמוך יותר. מחקרים עתידיים לשיפור מדד זה יסייעו להעלות את הביצועים הכוללים של המודל. אנו צופים שניתן יהיה להשיג זאת על ידי יישום מודלים מתוחכמים יותר של הטמעת גרפי ידע וחיזוי גרפים. בהתבסס על דיוק המודל של 0.15, החוקרים צריכים לצפות כ -15% זיהויים חיוביים; בפרט, מתוך כל 12,688 הקשרים בין מחלות חלבון שנחזו על ידי המודל, כ -15% הם קשרים חיוביים אמיתיים. ניתן למתן זאת על ידי התחשבות רק בקשר בין מחלות חלבון עם ציון הסתברות גבוה (למשל, 0.90 >); במקרה השימוש שלנו, סינון עם סף הסתברות של 0.90 הוביל לתחזיות ברמת ביטחון גבוהה של 1,583 קשרים. חוקרים עשויים למצוא את זה מועיל גם לבדוק ידנית את התחזיות האלה כדי להבטיח תוקף גבוה (ראו איור 7 כדוגמה). הערכה חיצונית של התחזיות שלנו קבעה כי מתוך 310 אסוציאציות של מחלות חלבונים מתוך מסד נתונים נרחב שאוצר DisGeNet19, 103 זוהו במחקר כריית הטקסט שלנו, ו-88 קשרים נוספים נחזו על ידי ניתוח גרף הידע שלנו עם ציון הסתברות >0.90.
בסך הכל, CaseOLAP LIFT כולל גמישות ושימושיות משופרות בעיצוב ניתוחים מותאמים אישית של הקשרים בין קבוצות חלבונים פונקציונליים וקטגוריות מרובות של מחלות בטקסט גדול. חבילה זו יעילה בממשק שורת פקודה חדש וידידותי למשתמש ומשוחררת כגורם מכיל של Docker, ובכך מפחיתה את הבעיות הקשורות לקביעת התצורה של סביבות התכנות ויחסי התלות בין התוכנה. ניתן להתאים בקלות את צינור CaseOLAP LIFT לחקר חלבונים מיטוכונדריאליים במחלות לב וכלי דם; לדוגמה, יישומים עתידיים של טכניקה זו יכולים לכלול חקירת הקשרים בין חלבונים כלשהם הקשורים למונחי GO כלשהם לבין כל קטגוריה ביו-רפואית. יתר על כן, הקשרים המדורגים בין חלבונים למחלות שזוהו על ידי פלטפורמת כריית טקסט זו חשובים בהכנת מערך הנתונים לשימוש בטכניקות מתקדמות של שפה טבעית. גרף הידע המתקבל מאפשר לחוקרים להמיר ממצאים אלה לידע אינפורמטיבי ביולוגי ומניח את הבסיס לניתוחי מעקב מבוססי גרפים.
למחברים אין מה לחשוף.
עבודה זו נתמכה על ידי המכונים הלאומיים לבריאות (NIH) R35 HL135772 ל- P.P., NIH T32 HL13945 ל- A.R.P. ו- D.S., NIH T32 EB016640 ל- A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 ל- A.R.P. ו- D.S., NIH R01 HL146739 עבור I.A., J.R., A.V., K.B. ו- TC Laubisch Endowment to P.P. ב- UCLA.
Name | Company | Catalog Number | Comments |
Software - Docker | Docker | N/A | docker.com |
Request permission to reuse the text or figures of this JoVE article
Request PermissionThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. All rights reserved