גישת גרף ידע להבהרת תפקידם של מסלולים אברונים במחלות באמצעות דוחות ביו-רפואיים

Alexander  R. Pelletier; Dylan Steinecke; Dibakar Sigdel; Irsyad Adam; J. Harry Caufield; Vladimir Guevara-Gonzalez; Joseph Ramirez; Aarushi Verma; Kaitlyn Bali; Katherine Downs; Wei Wang; Alex Bui; Peipei Ping

doi:10.3791/65084

Summary

פרוטוקול חישובי, CaseOLAP LIFT, ומקרה שימוש מוצגים לחקר חלבונים מיטוכונדריאליים והקשר שלהם למחלות לב וכלי דם כמתואר בדוחות ביו-רפואיים. פרוטוקול זה יכול להיות מותאם בקלות לחקר רכיבים תאיים שנבחרו על ידי המשתמש ומחלות.

Abstract

הכמויות הגדלות במהירות והכמויות העצומות של דוחות ביו-רפואיים, שכל אחד מהם מכיל ישויות רבות ומידע עשיר, מייצגים משאב עשיר ליישומי כריית טקסט ביו-רפואיים. כלים אלה מאפשרים לחוקרים לשלב, להמשיג ולתרגם תגליות אלה כדי לחשוף תובנות חדשות על פתולוגיה וטיפולים של מחלות. בפרוטוקול זה, אנו מציגים את CaseOLAP LIFT, צינור חישובי חדש לחקר רכיבים תאיים והקשרים שלהם למחלות על ידי חילוץ מידע שנבחר על ידי המשתמש ממערכי נתונים טקסטואליים (למשל, ספרות ביו-רפואית). התוכנה מזהה חלבונים תת-תאיים ואת שותפיהם הפונקציונליים בתוך מסמכים רלוונטיים למחלות. מסמכים נוספים הרלוונטיים למחלה מזוהים באמצעות שיטת זקיפת התוויות של התוכנה. כדי לקשר את הקשרים בין מחלות חלבון הנובעות מכך ולשלב מידע ממשאבים ביו-רפואיים רלוונטיים מרובים, גרף ידע נבנה באופן אוטומטי לניתוחים נוספים. אנו מציגים מקרה שימוש אחד עם קורפוס של ~ 34 מיליון מסמכי טקסט שהורדו באינטרנט כדי לספק דוגמה להבהרת תפקידם של חלבונים מיטוכונדריאליים בפנוטיפים שונים של מחלות לב וכלי דם באמצעות שיטה זו. יתר על כן, מודל למידה עמוקה יושם על גרף הידע שהתקבל כדי לחזות קשרים שלא דווחו בעבר בין חלבונים למחלות, וכתוצאה מכך 1,583 קשרים עם הסתברויות חזויות >0.90 ועם שטח מתחת לעקומת ההפעלה של המקלט (AUROC) של 0.91 בקבוצת הבדיקה. תוכנה זו כוללת זרימת עבודה אוטומטית וניתנת להתאמה אישית, עם היקף רחב של נתונים גולמיים הזמינים לניתוח; לכן, באמצעות שיטה זו, ניתן לזהות אסוציאציות של מחלות חלבונים עם אמינות משופרת בתוך קורפוס טקסט.

Introduction

חקר חלבונים הקשורים למחלות משפר את הידע המדעי של פתוגנזה ומסייע לזהות טיפולים פוטנציאליים. כמה קורפורות טקסט גדולות של פרסומים ביו-רפואיים, כגון 34 מיליון המאמרים של PubMed המכילים כותרות פרסומים, תקצירים ומסמכי טקסט מלא, מדווחים על ממצאים חדשים המקשרים חלבונים עם מחלות. עם זאת, ממצאים אלה מקוטעים על פני מקורות שונים ויש לשלב אותם כדי ליצור תובנות ביו-רפואיות חדשות. קיימים מספר משאבים ביו-רפואיים לשילוב אסוציאציות של מחלות חלבונים 1,2,3,4,5,6,7. עם זאת, משאבים אלה שנאספו לעתים קרובות אינם שלמים ועשויים שלא להקיף את ממצאי המחקר העדכניים ביותר. גישות כריית טקסט חיוניות כדי לחלץ ולסנתז אסוציאציות של מחלות חלבונים בקורפורות טקסט גדולות, מה שיביא להבנה מקיפה יותר של מושגים ביו-רפואיים אלה בספרות המדעית.

קיימות גישות ביו-רפואיות רבות לכריית טקסט כדי לחשוף יחסי חלבון-מחלה 8,9,10,11,12,13,14, ואחרות תורמות בחלקן לקביעת יחסים אלה על ידי זיהוי החלבונים, המחלות או ישויות ביו-רפואיות אחרות המוזכרות בטקסט 13,15,16,17^,^18,19. עם זאת, רבים מכלים אלה חסרים גישה לספרות העדכנית ביותר, למעט מעטים המתעדכנים מעת לעת ^8,11,13,15. באופן דומה, לכלים רבים יש גם היקף מחקר מוגבל, מכיוון שהם מוגבלים למחלות או חלבונים מוגדרים מראש ^9,13. מספר גישות נוטות גם לזיהוי תוצאות חיוביות שגויות בתוך הטקסט; אחרים התייחסו לבעיות אלה באמצעות רשימה שחורה גלובלית וניתנת לפירוש של שמות חלבונים^9,11 או פחות טכניקות זיהוי ישויות של שמות הניתנים לפירוש^15,20. בעוד שרוב המשאבים מציגים רק תוצאות מחושבות מראש, כלים מסוימים מציעים אינטראקטיביות באמצעות יישומי אינטרנט או קוד תוכנה נגיש ^8,9,11.

כדי להתמודד עם המגבלות לעיל, אנו מציגים את הפרוטוקול הבא, CaseOLAP עם זקיפת תוויות וטקסט מלא (CaseOLAP LIFT), כפלטפורמה גמישה וניתנת להתאמה אישית לחקר קשרים בין חלבונים (למשל, חלבונים הקשורים לרכיב תאי) ומחלות ממערכי נתונים של טקסט. פלטפורמה זו כוללת אצירה אוטומטית של חלבונים ספציפיים למונח אונטולוגיה גנטית (GO) (למשל, חלבונים ספציפיים לאברונים), זקיפה של תוויות נושא חסרות במסמך, ניתוח של מסמכי טקסט מלא, כמו גם כלי ניתוח וכלי חיזוי (איור 1, איור 2 וטבלה 1). CaseOLAP LIFT אוצרת חלבונים ספציפיים לאברונים באמצעות מונחי GO שסופקו על-ידי המשתמש (למשל, תא אברונים) וחלבונים הקשורים לתפקוד באמצעות STRING²¹, Reactome 22 ו-GRNdb²³. מסמכים הלומדים מחלות מזוהים על ידי תוויות כותרת הנושא הרפואי (MeSH) שלהם המבוארות ב- PubMed. עבור ~15.1% מהמסמכים ללא תווית, תוויות מיוחסות אם לפחות מונח MeSH אחד נמצא בכותרת או לפחות שניים נמצאים בתקציר. זה מאפשר לפרסומים שלא סווגו בעבר להיחשב בניתוח כריית טקסט. CaseOLAP LIFT גם מאפשר למשתמש לבחור קטעי פרסומים (למשל, כותרות ותקצירים בלבד, טקסט מלא או טקסט מלא למעט שיטות) במסגרת זמן מוגדרת (למשל, 2012-2022). התוכנה גם אוצרת באופן אוטומטי למחצה רשימה שחורה ספציפית למקרה שימוש של שמות חלבונים, ומפחיתה באופן חיוני את האסוציאציות החיוביות הכוזבות למחלות חלבון הקיימות בגישות אחרות. בסך הכל, שיפורים אלה מאפשרים התאמה אישית ואוטומציה רבה יותר, מרחיבים את כמות הנתונים הזמינים לניתוח ומניבים אסוציאציות בטוחות יותר למחלות חלבונים מחברות טקסט ביו-רפואיות גדולות.

CaseOLAP LIFT משלב ידע ביו-רפואי ומייצג את היחסים בין מושגים ביו-רפואיים שונים באמצעות גרף ידע, הממונף לחיזוי קשרים נסתרים בגרף. לאחרונה, שיטות חישוב מבוססות גרפים יושמו על הגדרות ביולוגיות, כולל שילוב וארגון מושגים ביו-רפואיים 24,25, ייעוד מחדש ופיתוח תרופות 26,27,28^, ולקבלת החלטות קליניות מנתוני פרוטאומיקה ²⁹.

כדי להדגים את כלי השירות של CaseOLAP LIFT במסגרת בניית גרף ידע, אנו מדגישים מקרה שימוש על חקירת הקשרים בין חלבונים מיטוכונדריאליים ושמונה קטגוריות של מחלות לב וכלי דם. ראיות מ~362,000 מסמכים רלוונטיים למחלות נותחו כדי לזהות את החלבונים והמסלולים המיטוכונדריאליים המובילים הקשורים למחלות. לאחר מכן, חלבונים אלה, החלבונים הקשורים לתפקוד שלהם ותוצאות כריית הטקסט שלהם שולבו בגרף ידע. גרף זה מונף בניתוח חיזוי קישורים מבוסס למידה עמוקה כדי לחזות קשרים בין מחלות חלבונים שלא דווחו עד כה בפרסומים ביו-רפואיים.

פרק המבוא מתאר את מידע הרקע והמטרות של הפרוטוקול שלנו. הסעיף הבא מתאר את השלבים של הפרוטוקול החישובי. לאחר מכן, מתוארות התוצאות המייצגות של פרוטוקול זה. לבסוף, נדון בקצרה במקרי השימוש בפרוטוקול חישובי, יתרונות, חסרונות ויישומים עתידיים.

Protocol

1. הפעלת מיכל העגינה

הורד את הגורם המכיל של CaseOLAP LIFT docker באמצעות חלון המסוף והקלדת docker pull caseolap/caseolap_lift:latest.
צור ספרייה שתאחסן את כל נתוני התוכנית והפלט (למשל mkdir caseolap_lift_shared_folder).
הפעל את הגורם המכיל של docker עם הפקודה docker run --name caseolap_lift -it -v PATH_TO_FOLDER:/caseolap_lift_shared_folder caseolap/caseolap_lift:latest bash עם PATH_TO_FOLDER כנתיב הקובץ המלא עבור התיקיה (לדוגמה, / Users/caseolap/caseolap_lift_shared_folder). פקודות עתידיות מסעיף 2 יונפקו בחלון מסוף זה.
התחל את החיפוש האלסטי בתוך הגורם המכיל. בחלון מסוף חדש, הקלד docker exec -it --user elastic caseolap_lift bash /workspace/start_elastic_search.sh.
הערה: בפרוטוקול זה, CaseOLAP LIFT מופעל באופן אינטראקטיבי, כאשר כל שלב מבוצע ברצף. ניתוח זה יכול להתבצע גם מקצה לקצה על ידי העברתו כקובץ .txt פרמטרים. הפרמטרים.txt המשמשים במחקר זה הם /workspace/caseolap_lift/parameters.txt. כדי לגשת לפרטים נוספים על כל שלב, הפעל את הפקודה עם דגל - -help , או בקר בתיעוד במאגר GitHub (https://github.com/CaseOLAP/caseolap_lift).

2. הכנת המחלות והחלבונים

נווט אל התיקיה caseolap_lift באמצעות cd / workspace/caseolap_lift
ודא שקישורי ההורדה ב- config/knowledge_base_links.json מעודכנים ומדויקים עבור הגירסה העדכנית ביותר של כל משאב מאגר ידע. כברירת מחדל, הקבצים יורדו פעם אחת בלבד; כדי לעדכן קבצים אלה ולהוריד מחדש, הפעל את שלב העיבוד מראש עם -R בשלב 2.4.
קבע את המונח GO ואת קטגוריות המחלה לשימוש במחקר זה. מצא את המזהים עבור כל מונחי GO ומזהי MeSH ב- http://geneontology.org/ וב- https://meshb.nlm.nih.gov/, בהתאמה.
הפעל את מודול העיבוד מראש באמצעות אפשרויות שורת הפקודה. שלב עיבוד מקדים זה אוסף מחלות מוגדרות, מפרט חלבונים למחקר ואוסף מילים נרדפות לכריית טקסט. ציין את מונחי GO שנלמדו על-ידי המשתמש באמצעות דגל -c ומספרי עץ MeSH של המחלה באמצעות דגל -d, וציין קיצורים עם -a.
פקודה לדוגמה:
Python caseolap_lift.py עיבוד מקדים -a "CM ARR CHD VD IHD CCD VOO OTH" -d "C14.280.238,C14.280.434 C14.280.067,C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195,C14.280.282,C14.280.383,C14.280.470,
C14.280.945,C14.280.459,C14.280.720" -c "GO:0005739" --include-מילים נרדפות --include-ppi -k 1 -s 0.99 --include-pw -n 4 -r 0.5 --include-tfd
בדוק את הקטגוריות.txt, קבצי core_proteins.txt וקבצי proteins_of_interest.txt מהשלב הקודם בתיקיית הפלט . ודא כי כל קטגוריות המחלה בקטגוריות.txt נכונות וכי כמות סבירה של חלבונים מזוהים בתוך core_proteins.txt ו proteins_of_interest.txt. במידת הצורך, חזור על שלב 2.4 ושנה את הפרמטרים כך שיכללו מספר גדול יותר או קטן יותר של חלבונים.
הערה: מספר החלבונים שנכללו במחקר נקבע על ידי --include-ppi, --include-pw ו-include-tfd flags כדי לכלול אינטראקציות חלבון-חלבון, חלבונים עם מסלולי ריאקטום משותפים וחלבונים עם תלות בפקטורי שעתוק, בהתאמה. הפונקציונליות הספציפית שלהם מצוינת עם דגלים נוספים כגון -k, -s, -n ו- -r (ראה תיעוד).

3. כריית טקסט

ודא שהקטגוריות.txt, קבצי core_proteins.txt וקבצי proteins_of_interest.txt מהשלב הקודם נמצאים בתיקיית הפלט. השתמש בקבצים אלה כקלט עבור כריית הטקסט. לחלופין, התאם את התצורות הנוגעות לניתוח המסמך וליצירת אינדקס בתיקיית התצורה . עיין בגירסה קודמת של פרוטוקול CaseOLAP לקבלת פרטים נוספים על קביעת תצורה ופתרון בעיות⁸.
הפעל את מודול כריית הטקסט עם Python caseolap_lift.py text_mining. הוסף את דגל - l כדי להטיל את הנושאים של מסמכים ללא קטגוריה ואת דגל -t כדי להוריד את הטקסט המלא של מסמכים רלוונטיים למחלה. דגלים אופציונליים אחרים מציינים טווח תאריכים של פרסומים להורדה (-d) ומספקים אפשרויות לסינון שמות החלבונים (המתוארים בשלב 3.3). דוגמה של מסמך מנותח מוצגת באיור 3.
פקודה לדוגמה: python caseolap_lift.py text_mining -d "2012-10-01,2022-10-01" -l -t
הערה: חלק גדול מזמן הפרוטוקול החישובי מנוצל לשלב 3.2, שיכול להימשך מעל 24 שעות. זמן הריצה יהיה תלוי בגודל קורפוס הטקסט שיש להוריד, אשר יהיה תלוי גם בטווח התאריכים ואם זקיפת תוויות ופונקציונליות טקסט מלא מופעלים.
(מומלץ) סנן את שמות החלבונים. שמות החלבונים המזוהים בפרסומים רלוונטיים למחלות תורמים לאסוציאציות של מחלות חלבונים, אך נוטים לתוצאות חיוביות שגויות (כלומר, הומונימים במילים אחרות). כדי לטפל בכך, מנה הומונימים אפשריים ברשימה שחורה (config/remove_these_synonyms.txt) כך שהם לא ייכללו בשלבים במורד הזרם.
1. מצא שמות לבדיקה: תחת תיקיית התוצאות, מצא את שמות החלבונים בתדירות הגבוהה ביותר תחת all_proteins או core_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt) ואת שמות החלבונים עם הציונים הגבוהים ביותר תחת התיקיות ב- ranked_proteins בהתאם לציונים המעניינים. אם יש שמות רבים, תעדף את הבדיקה של השמות בעלי הניקוד העליון.
2. בדוק את השמות: הקלד פיתון caseolap_lift.py text_mining -c ואחריו שם חלבון כדי להציג עד 10 פרסומים המכילים שמות. לאחר מכן, עבור כל שם, בדוק אם השם ספציפי לחלבון.
3. חישוב מחדש של הציונים: הקלד פיתון caseolap_lift.py text_mining -s. חזור על שלבים 3.1, שלב 3.2 ושלב 3.3 עד שהשמות בשלב 3.1 יופיעו נכונים.

4. ניתוח התוצאות

ודא שתוצאות כריית הטקסט נמצאות בתיקיית התוצאות (לדוגמה, ספריות תוצאות/all_proteins ותוצאות/core_proteins וקבצים משויכים), שישמשו כקלט לשלב הניתוח. באופן ספציפי, ציון המציין את חוזקו של כל קשר חלבון-מחלה מדווח בקזאולאפ.csv תוצאות מכריית הטקסט. ציין באיזו קבוצה של תוצאות כריית טקסט להשתמש עבור הניתוח על-ידי ציון --analyze_core_proteins לכלול רק את החלבונים הקשורים למונח GO או --analyze_all_proteins לכלול את כל החלבונים הקשורים לתפקוד.
זהה את החלבונים והמסלולים המובילים עבור כל מחלה. קשרים משמעותיים בין מחלות חלבון מוגדרים כאלו עם ציונים העולים על סף מוגדר. ציון Z משנה את ציוני CaseOLAP בתוך כל קטגוריית מחלה, ומחשיב את החלבונים עם ציונים מעל סף מוגדר (מסומן על ידי דגל -z ) כמשמעותיים.
הערה: מסלולים ביולוגיים משמעותיים לכל מחלה מזוהים באופן אוטומטי באמצעות חלבונים משמעותיים כקלט לניתוח מסלול הריאקום. כל החלבונים הללו מדווחים result_table.csv המתקבלת בתיקייה analysis_results, ונתונים רלוונטיים ותוצאות ניתוח מסלולים נוצרים אוטומטית בתיקיית analysis_results.
פקודה לדוגמה: python caseolap_lift.py analyze_results -z 3.0 --analyze_core_proteins
סקור את תוצאות הניתוח והתאם לפי הצורך. מספר החלבונים, ולפיכך, מסלולי הריאקטום המועשר המשמעותיים לכל קטגוריית מחלה תלויים בסף ציון z המשמש בניתוח. טבלת ציון z, הנוצרת בתפוקה/analysis_results/zscore_cutoff_table.csv, מציינת את מספר החלבונים המשמעותיים לכל קטגוריית מחלה כדי לסייע בבחירת סף ציון z גבוה ככל האפשר תוך קבלת מספר חלבונים משמעותיים לכל קטגוריית מחלה.

5. ניתוח חיזוי

בניית גרף ידע.
1. ודא שהקבצים הדרושים נמצאים בתיקיית התוצאות, כולל תיקיית kg שנוצרה מעיבוד מקדים (שלב 2.4) וה- caseolap.csv מתוצאות כריית הטקסט תחת תיקיות all_proteins או core_proteins (שלב 3.2).
2. עצבו את גרף הידע. בהתאם לפעילות במורד הזרם, כלול או אל תכלול רכיבים של גרף הידע המלא. גרף הידע מורכב מציוני מחלות חלבונים מכריית הטקסט ומקשרים למשאבי מאגר הידע שבהם נעשה שימוש בשלב 2.4 (איור 4). כלול את עץ מחלת MeSH עם דגל --include_mesh , את אינטראקציות החלבון-חלבון מ- STRING עם --include_ppi, את מסלולי הריאקטום המשותפים עם --include_pw, ואת התלות בגורם השעתוק מ- GRNdb/GTEx עם --include_tfd.
3. הפעל את מודול בניית גרף הידע. ציין באיזו קבוצה של תוצאות כריית טקסט להשתמש עבור הניתוח על-ידי ציון --analyze_core_proteins לכלול רק את החלבונים הקשורים למונח GO או --analyze_all_proteins לכלול את כל החלבונים הקשורים לתפקוד. כברירת מחדל, ציוני CaseOLAP גולמיים נטענים כמשקלי הקצה בין צמתי החלבון והמחלה; כדי לשנות את גודל עובי הקצה, ציין --use_z_score, או ציוני z לא שליליים עם --scale_z_score.
  פקודה לדוגמה: python caseolap_lift.py prepare_knowledge_graph --scale_z_score
לחזות קשרים חדשים בין מחלות חלבון.
1. ודא שקובצי גרף הידע, merged_edges.tsv ו- merged_nodes.tsv, מופקים מהשלב הקודם (שלב 5.1.3).
2. הפעל את סקריפט החיזוי של גרף הידע כדי לחזות קשרים בין מחלות חלבונים שלא דווחו עד כה בספרות המדעית על ידי הקלדת פיתון kg_analysis/run_kg_analysis.py. זה מיושם עם GraPE³⁰ ומשתמש DistMult³¹ כדי לייצר הטבעות גרף ידע, אשר פרספטרון רב שכבתי משתמש כדי לחזות את הקשר חלבון-מחלה. בתיקייה פלט/kg_analysis נשמרות תחזיות בעלות הסתברות חזויה >0.90 (תחזיות.csv) ומדדי הערכת מודל (eval_results.csv).
  הערה: בעבודה זו, פרמטרי המודל שנבחרו (למשל, שיטת הטבעה, מודל חיזוי קישורים, היפר-פרמטרים) הותאמו למחקר המייצג. קוד זה משמש דוגמה ונקודת מוצא לניתוחים אחרים. כדי לחקור פרמטרים של מודל, עיין בתיעוד של GraPE (https://github.com/AnacletoLAB/grape).

תוצאות

תוצאות מייצגות הופקו בעקבות פרוטוקול זה כדי לחקור את הקשרים בין חלבונים מיטוכונדריאליים (טבלה 2) לבין שמונה קטגוריות של מחלות לב וכלי דם (טבלה 3). בקטגוריות אלה מצאנו 363,567 פרסומים שפורסמו בין השנים 2012 לאוקטובר 2022 (362,878 סווגו לפי מטא-נתונים של MeSH, 6,923 סווגו לפי זקיפת תווית). לכל הפרסומים היו כותרות, ל-276,524 היו תקצירים, ול-51,065 היה את הטקסט המלא זמין. בסך הכל, 584 מתוך 1,687 החלבונים המיטוכונדריאליים שנשאלו זוהו במסגרת הפרסומים, בעוד 3,284 מתוך 8,026 החלבונים הקשורים לתפקוד זוהו בשאילתות. בסך הכל, 14 חלבונים ייחודיים זוהו עם ציונים משמעותיים בכל קטגוריות המחלה, עם סף ציון z של 3.0 (איור 5). ניתוח מסלול Reactome של חלבונים אלה גילה 12 מסלולים משמעותיים לכל המחלות (איור 6). כל החלבונים, המסלולים, המחלות והציונים שולבו בגרף ידע (טבלה 4). גרף ידע זה מונף כדי לחזות 12,688 קשרים חדשים בין מחלות חלבונים וסונן עם ציון הסתברות של 0.90 כדי להניב 1,583 תחזיות ברמת ביטחון גבוהה. דוגמה מודגשת לשתי אסוציאציות של מחלות חלבונים מוצגת באיור 7, המודגם בהקשר של ישויות ביולוגיות רלוונטיות אחרות הקשורות תפקודית לחלבונים. מדדי הערכת המודל מדווחים בלוח 5.

figure-results-1320
איור 1: תצוגה דינאמית של זרימת העבודה. איור זה מייצג את ארבעת השלבים העיקריים בזרימת עבודה זו. ראשית, חלבונים רלוונטיים נאספים על בסיס מונחי GO שסופקו על ידי המשתמש (למשל, רכיבים תאיים), וקטגוריות מחלות מוכנות על סמך מזהי MeSH של המחלה שסופקו על ידי המשתמש. שנית, הקשרים בין חלבונים למחלות מחושבים בשלב כריית הטקסט. פרסומים בטווח תאריכים מסוים יורדו ויתווספו לאינדקס. פרסומים החוקרים מחלות מזוהים (באמצעות תוויות MeSH ואופציונלית באמצעות תוויות זקופות), והטקסטים המלאים שלהם יורדים ומאונדקסים. שמות חלבונים נשאלים בתוך הפרסומים ומשמשים לחישוב ציוני הקשר בין חלבונים למחלות. לאחר מכן, לאחר כריית טקסט, ציונים אלה עוזרים לזהות את האסוציאציות המובילות בין חלבונים ומסלולים. לבסוף, נבנה גרף ידע המקיף חלבונים, מחלות והקשרים ביניהם בתוך בסיס הידע הביו-רפואי. קשרים חדשים בין חלבונים למחלות נחזות על סמך גרף הידע המובנה. שלבים אלה משתמשים בנתונים הזמינים העדכניים ביותר מבסיסי הידע הביו-רפואי ומ-PubMed. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

figure-results-2583
איור 2: ארכיטקטורה טכנית של זרימת העבודה. הפרטים הטכניים של זרימת עבודה זו מתוארים באיור זה. המשתמש מספק את מספרי עץ MeSH של קטגוריות המחלה ואת מונחי GO. מסמכי טקסט מורדים מ- PubMed, מסמכים רלוונטיים למחלות מזוהים על סמך תוויות MeSH שסופקו, ומסמכים ללא תוויות MeSH המציינות נושא מקבלים תוויות קטגוריה זקופות. החלבונים הקשורים למונחי GO שסופקו נרכשים. קבוצת חלבונים זו מורחבת וכוללת חלבונים הקשורים תפקודית באמצעות אינטראקציות חלבון-חלבון, מסלולים ביולוגיים משותפים ותלות בפקטורי שעתוק. חלבונים אלה נשאלים במסמכים רלוונטיים למחלות ומקבלים ניקוד על ידי CaseOLAP. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

figure-results-3500
איור 3: דוגמה למסמך מעובד. דוגמה למסמך טקסט מנותח הכלול באינדקס מוצגת כאן. לפי הסדר, שדות רלוונטיים מציינים את שם האינדקס (_index, _type), מזהה PubMed (_id, pmid), סעיפי המשנה של המסמך (כותרת, תקציר, full_text, מבוא, שיטות, תוצאות, דיון) ומטה-נתונים אחרים (שנה, MeSH, מיקום, יומן). למטרות תצוגה בלבד, סעיפי המשנה של המסמך נחתכים בשלוש נקודות. השדה MeSH מכיל את נושאי המסמך, שלעתים עשויים להיות מסופקים על-ידי שלב זקיפת התוויות שלנו. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

figure-results-4280
איור 4: סכימת גרף ידע ומשאבים ביו-רפואיים. איור זה מתאר את סכימת גרף הידע. כל צומת וקצה מייצגים צומת או סוג קצה, בהתאמה. הקצוות בין מחלות לב וכלי דם (CVD) וחלבונים משוקללים על ידי ציוני CaseOLAP. קצוות האינטראקציה חלבון-חלבון (PPI) משוקללים על ידי ציוני ביטחון STRING. קצוות התלות בגורם שעתוק (TFD) הנגזרים מ- GRNdb/GTEx, קצוות עץ המחלה הנגזרים מ- MeSH וקצוות מסלול הנגזרים מריאקטום אינם משוקללים. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

figure-results-5025
איור 5: הקשרים המובילים בין מחלות חלבון. נתון זה מציג חלבונים מיטוכונדריאליים משמעותיים לכל קטגוריית מחלה. טרנספורמציית ציון Z יושמה על ציוני CaseOLAP בכל קטגוריה כדי לזהות חלבונים משמעותיים באמצעות סף של 3.0. (למעלה) מספר החלבונים המיטוכונדריאליים המשמעותיים לכל מחלה: עלילות כינור אלה מתארות את התפלגות ציוני z עבור חלבונים בכל קטגוריית מחלה. המספר הכולל של חלבונים משמעותיים לכל קטגוריית מחלה מוצג מעל כל חלקת כינור. בסך הכל זוהו 14 חלבונים ייחודיים כמשמעותיים בכל המחלות, וחלק מהחלבונים היו משמעותיים למספר מחלות. (למטה) חלבונים בעלי ניקוד גבוה: מפת החום מציגה את 10 החלבונים המובילים שהשיגו את ציוני z הממוצעים הגבוהים ביותר בכל המחלות. הערכים הריקים אינם מייצגים ציון מתקבל בין החלבון למחלה. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

figure-results-6104
איור 6: הקשרים המובילים בין מחלות מסלול. איור זה ממחיש את המסלולים הביולוגיים המובילים הקשורים לקטגוריות המחלה הנחקרות, כפי שנקבעו באמצעות ניתוח מסלול ריאקטום. כל ניתוחי המסלולים סוננו עם p < 0.05. ערכי מפת החום מייצגים את ציון z הממוצע של כל החלבונים במסלול. (למעלה) מסלולים שהשתמרו בין כל המחלות: בסך הכל זוהו 14 חלבונים עם רלוונטיות לכל קטגוריות המחלה, ונחשפו 12 מסלולים שמורים בין כל קטגוריות המחלה. דנדרוגרמה נבנתה על בסיס המבנה ההיררכי של המסלול כדי לקשר את המסלולים עם פונקציות ביולוגיות דומות. גובה הדנדרוגרמה מייצג את העומק היחסי בהיררכיית המסלול; לתפקודים ביולוגיים רחבים יש גפיים ארוכות יותר, ולמסלולים ספציפיים יותר יש גפיים קצרות יותר. (למטה) מסלולים ייחודיים לקטגוריית מחלה: ניתוח המסלולים בוצע באמצעות חלבונים שהשיגו ציון Z משמעותי בכל מחלה. שלושת המסלולים המובילים עם ערכי ה-p הנמוכים ביותר הקשורים לכל מחלה מוצגים ומסומנים בכוכביות. המסלולים יכולים להיות בתוך שלושת הראשונים במספר מחלות. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

figure-results-7417
איור 7: יישום למידה עמוקה להשלמת גרף ידע. דוגמה ליישום למידה עמוקה על גרף ידע ספציפי למחלה מוצגת באיור זה. יחסים נסתרים בין חלבונים למחלות צפויים, ואלה מסומנים בכחול. מוצגות הסתברויות מחושבות עבור שתי התחזיות, עם ערכים הנעים בין 0.0 ל-1.0 ועם 1.0 המציין תחזית חזקה. נכללים מספר חלבונים בעלי אינטראקציות ידועות, המייצגים אינטראקציות חלבון-חלבון, תלות בפקטורי שעתוק ומסלולים ביולוגיים משותפים. לצורך תצוגה חזותית, מוצג תת-גרף של כמה צמתים בעלי רלוונטיות לדוגמה המסומנת. מפתח: IHD = מחלת לב איסכמית; R-HSA-1430728 = מטבוליזם; O14949 = ציטוכרום b-c1 קומפלקס תת-יחידה 8; P17568 = NADH dehydrogenase (יוביקינון) 1 תת-יחידה תת-קומפלקס בטא 7; Q9NYF8 גורם שעתוק משויך Bcl-2 1, ציון: 7.24 x 10⁻⁷; P49821 = NADH dehydrogenase (יוביקינון) פלבופרוטאין 1, מיטוכונדריה, ציון: 1.06 x 10⁻⁵; P31930 = ציטוכרום B-C1 קומפלקס תת-יחידה 1, מיטוכונדריה, ציון: 4.98 x 10⁻⁵; P99999 = ציטוכרום c, ציון: 0.399. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

טבלה 1: שלבי זרימת עבודה והגבלת קצב. טבלה זו מציגה הערכות גסות של הזמן החישובי עבור כל שלב בזרימת העבודה. אפשרויות לכלול רכיבים של הצינור ישנו את זמן הריצה הכולל הדרוש להשלמת הניתוח. הערכת הזמן הכוללת משתנה בהתאם למשאבי החישוב הזמינים, כולל מפרטי החומרה והגדרות התוכנה. כהערכה גסה, לקח לפרוטוקול 36 שעות של זמן ריצה פעיל לפעול בשרת החישובי שלנו, עם שש ליבות, 32 Gb של RAM ו- 2 TB של אחסון, אבל זה עשוי להיות מהיר יותר או איטי יותר במכשירים אחרים. אנא לחץ כאן כדי להוריד טבלה זו.

טבלה 2: הרכבה אוטומטית של חלבוני המרכיבים את התא. טבלה זו מציגה את מספר החלבונים הקשורים לרכיב תאי נתון (כלומר, מונח GO), חלבונים הקשורים אליהם מבחינה תפקודית באמצעות אינטראקציות חלבון-חלבון (PPI), מסלולים משותפים (PW) ותלות בגורם שעתוק (TFD). מספר החלבונים הכולל הוא מספר החלבונים מכל הקטגוריות הקודמות גם יחד. כל החלבונים הקשורים לתפקוד התקבלו באמצעות פרמטרי ברירת המחדל של CaseOLAP LIFT. אנא לחץ כאן כדי להוריד טבלה זו.

טבלה 3: סטטיסטיקה של זקיפת תוויות MeSH. טבלה זו מציגה את קטגוריות המחלה, מספרי עץ MeSH המשמשים כמונח האב של כל המחלות הכלולות בקטגוריה, מספר מאמרי PubMed שנמצאו בכל קטגוריה בין השנים 2012-2022, ומספר המאמרים הנוספים שנכללו בהתבסס על שלב זקיפת התווית. אנא לחץ כאן כדי להוריד טבלה זו.

טבלה 4: גרף ידע סטטיסטיקה של בנייה. טבלה זו מתארת את הנתונים הסטטיסטיים עבור גודל גרף הידע הנבנה, כולל הצמתים וסוגי הקצוות השונים. ציוני CaseOLAP מייצגים את הקשר בין חלבון לבין קטגוריה של מחלות לב וכלי דם (CVD). אנא לחץ כאן כדי להוריד טבלה זו.

טבלה 5: סטטיסטיקות ואימותים של גרף ידע. טבלה זו מדווחת על מדדי ההערכה של קישור גרף הידע לחיזוי קשרים חדשים / נסתרים של מחלות חלבון. קצוות גרף הידע חולקו למערכי נתונים של הדרכה ובדיקה 70/30, וקישוריות הגרפים של הקצוות נשמרה בשני מערכי הנתונים. הדיוק מציין את שיעור התחזיות המסווגות נכון, בעוד שהדיוק המאוזן מתקן את חוסר האיזון המעמדי. הספציפיות מציינת את שיעור התחזיות השליליות המסווגות כראוי. הדיוק מציין את שיעור התחזיות החיוביות הנכונות מתוך כל התחזיות החיוביות, ואילו ההיזכרות מציינת את שיעור התחזיות החיוביות הנכונות מתוך כל הקצוות החיוביים (כלומר, אסוציאציות של מחלות חלבונים שזוהו באמצעות כריית טקסט). ציון F1 הוא הממוצע ההרמוני של הדיוק וההיזכרות. האזור מתחת לעקומת ההפעלה של המקלט (AUROC) מתאר עד כמה המודל מבחין בין תחזיות חיוביות ושליליות, כאשר 1.0 מציין מסווג מושלם. האזור מתחת לעקומת הדיוק-היזכרות (AUPRC) מודד את הפשרה בין דיוק להיזכרות בספי הסתברות משתנים, כאשר ערכים גבוהים יותר מצביעים על ביצועים טובים יותר. אנא לחץ כאן כדי להוריד טבלה זו.

Discussion

CaseOLAP LIFT מאפשר לחוקרים לחקור קשרים בין חלבונים פונקציונליים (למשל, חלבונים הקשורים למרכיב תאי, תהליך ביולוגי או תפקוד מולקולרי) לבין קטגוריות ביולוגיות (למשל, מחלות). הפרוטוקול המתואר צריך להתבצע ברצף שצוין, כאשר פרוטוקול סעיף 2 ופרוטוקול סעיף 3 הם השלבים הקריטיים ביותר, שכן פרוטוקול סעיף 4 ופרוטוקול סעיף 5 תלויים בתוצאותיהם. כחלופה לפרוטוקול סעיף 1, ניתן לשכפל את קוד CaseOLAP LIFT ולגשת אליו ממאגר GitHub (https://github.com/CaseOLAP/caseolap_lift). יש לציין כי למרות בדיקות במהלך פיתוח התוכנה, באגים עלולים להתרחש. אם כן, יש לחזור על השלב שנכשל. אם הבעיה נמשכת, מומלץ לחזור על פרוטוקול סעיף 1 כדי להבטיח שנעשה שימוש בגירסה העדכנית ביותר של הגורם המכיל של Docker. סיוע נוסף זמין על ידי יצירת בעיה במאגר GitHub לקבלת תמיכה נוספת.

שיטה זו תומכת ביצירת השערות בכך שהיא מאפשרת לחוקרים לזהות ישויות בעלות עניין ולחשוף את הקשרים הפוטנציאליים ביניהן, שייתכן שלא יהיו נגישים בקלות במשאבים ביו-רפואיים קיימים. הקשרים בין חלבונים למחלות מאפשרים לחוקרים לקבל תובנות חדשות באמצעות המדדים הניתנים לפירוש של הציונים: ציוני הפופולריות מציינים את החלבונים הנחקרים ביותר ביחס למחלה, ציוני הייחודיות מצביעים על מחלות הייחודיות ביותר לחלבון, וציון CaseOLAP המשולב הוא שילוב של השניים. כדי למנוע זיהויים חיוביים כוזבים (למשל, עקב הומונימים), חלק מהכלים לכריית טקסט משתמשים ברשימה שחורה של מונחים כדי להימנע^מ-9,11. כמו כן, CaseOLAP LIFT משתמש גם ברשימה שחורה אך מאפשר למשתמש להתאים את הרשימה השחורה למקרה השימוש שלו. לדוגמה, כאשר לומדים מחלת עורקים כליליים (CAD), "CAD" לא צריך להיחשב שם עבור חלבון "קספאז מופעל deoxyribonuclease". עם זאת, כאשר לומדים נושאים אחרים, "CAD" עשוי בדרך כלל להתייחס לחלבון.

CaseOLAP LIFT מתאים את עצמו לכמות הנתונים הזמינים לכריית טקסט. פונקציונליות טווח התאריכים מקלה על הנטל החישובי ויוצרת גמישות ליצירת השערות (למשל, לחקור כיצד הידע המדעי על קשר חלבון-מחלה השתנה לאורך זמן). בינתיים, זקיפת התוויות ורכיבי הטקסט המלא משפרים את היקף הנתונים הזמינים לכריית טקסט. שני הרכיבים מושבתים כברירת מחדל כדי להפחית את עלויות החישוב, אך המשתמש עשוי להחליט לכלול כל אחד מהרכיבים. זקיפת התוויות היא שמרנית, והיא מסווגת נכון את רוב הפרסומים (87% דיוק) אך מפספסת תוויות קטגוריה אחרות (2% זוכרים). שיטה זו מסתמכת כיום על היוריסטיקה מבוססת כללים התואמת מילות מפתח של מחלות, ויש תוכניות לשפר את הביצועים באמצעות שימוש בטכניקות מידול נושאי מסמכים. מכיוון שדוחות רבים שאינם מסווגים נוטים להיות פרסומים עדכניים, מחקרים החוקרים טווח תאריכים עדכני (למשל, כל הפרסומים בשלוש השנים האחרונות) מקבלים שירות טוב יותר על ידי השבתת זקיפת התוויות. רכיב הטקסט המלא מגדיל את זמן הריצה ואת דרישות האחסון. יש לציין שרק למיעוט מהמסמכים יש את הטקסט המלא הזמין (~14% מהמסמכים במחקר שלנו). בהנחה ששמות החלבונים המוזכרים בסעיף השיטות של הפרסומים נוטים פחות להיות קשורים לנושאי המחלה, מומלץ לבצע שאילתות במאמרים בטקסט מלא למעט סעיף השיטות.

ציוני הקשר בין מחלות חלבון המתקבלים שימושיים עבור ניתוחים מסורתיים כגון אשכולות, הפחתת ממדיות, או ניתוחי העשרה (למשל, GO, מסלולים), עם יישום מסוים הכלול בחבילת תוכנה זו. כדי לקשר ציונים אלה בתוך הידע הביו-רפואי הקיים, גרף ידע נבנה באופן אוטומטי וניתן לחקור אותו באמצעות כלים להדמיית גרפים (לדוגמה, Neo4j³², Cytoscape³³). גרף הידע יכול לשמש גם לניתוחי חיזוי (למשל, חיזוי קישורים של יחסי חלבון-מחלה לא מדווחים, זיהוי קהילתי של רשתות חלבונים, שיטות הליכה בשבילי איסוף פרסים).

בחנו את מדדי הערכת המודל עבור הקשרים החזויים בין חלבונים למחלות (טבלה 5). המודל מקצה ציון הסתברות בין 0.0 ל-1.0 לכל קשר בין חלבון למחלה, כאשר ציונים קרובים יותר ל-1.0 מצביעים על רמה גבוהה יותר של ביטחון בתחזית. ההערכה הפנימית של ביצועי המודל, שהתבססה על מדדים שונים כולל AUROC, דיוק, דיוק מאוזן, ספציפיות וזכירה, הצביעה על ביצועים כוללים מצוינים בעבודתו. עם זאת, ההערכה הדגישה גם ציון גרוע למדי עבור הדיוק (0.15) של הדגם, וכתוצאה מכך ציון AUPRC ו- F1 נמוך יותר. מחקרים עתידיים לשיפור מדד זה יסייעו להעלות את הביצועים הכוללים של המודל. אנו צופים שניתן יהיה להשיג זאת על ידי יישום מודלים מתוחכמים יותר של הטמעת גרפי ידע וחיזוי גרפים. בהתבסס על דיוק המודל של 0.15, החוקרים צריכים לצפות כ -15% זיהויים חיוביים; בפרט, מתוך כל 12,688 הקשרים בין מחלות חלבון שנחזו על ידי המודל, כ -15% הם קשרים חיוביים אמיתיים. ניתן למתן זאת על ידי התחשבות רק בקשר בין מחלות חלבון עם ציון הסתברות גבוה (למשל, 0.90 >); במקרה השימוש שלנו, סינון עם סף הסתברות של 0.90 הוביל לתחזיות ברמת ביטחון גבוהה של 1,583 קשרים. חוקרים עשויים למצוא את זה מועיל גם לבדוק ידנית את התחזיות האלה כדי להבטיח תוקף גבוה (ראו איור 7 כדוגמה). הערכה חיצונית של התחזיות שלנו קבעה כי מתוך 310 אסוציאציות של מחלות חלבונים מתוך מסד נתונים נרחב שאוצר DisGeNet^{19, 103} זוהו במחקר כריית הטקסט שלנו, ו-88 קשרים נוספים נחזו על ידי ניתוח גרף הידע שלנו עם ציון הסתברות >0.90.

בסך הכל, CaseOLAP LIFT כולל גמישות ושימושיות משופרות בעיצוב ניתוחים מותאמים אישית של הקשרים בין קבוצות חלבונים פונקציונליים וקטגוריות מרובות של מחלות בטקסט גדול. חבילה זו יעילה בממשק שורת פקודה חדש וידידותי למשתמש ומשוחררת כגורם מכיל של Docker, ובכך מפחיתה את הבעיות הקשורות לקביעת התצורה של סביבות התכנות ויחסי התלות בין התוכנה. ניתן להתאים בקלות את צינור CaseOLAP LIFT לחקר חלבונים מיטוכונדריאליים במחלות לב וכלי דם; לדוגמה, יישומים עתידיים של טכניקה זו יכולים לכלול חקירת הקשרים בין חלבונים כלשהם הקשורים למונחי GO כלשהם לבין כל קטגוריה ביו-רפואית. יתר על כן, הקשרים המדורגים בין חלבונים למחלות שזוהו על ידי פלטפורמת כריית טקסט זו חשובים בהכנת מערך הנתונים לשימוש בטכניקות מתקדמות של שפה טבעית. גרף הידע המתקבל מאפשר לחוקרים להמיר ממצאים אלה לידע אינפורמטיבי ביולוגי ומניח את הבסיס לניתוחי מעקב מבוססי גרפים.

Disclosures

למחברים אין מה לחשוף.

Acknowledgements

עבודה זו נתמכה על ידי המכונים הלאומיים לבריאות (NIH) R35 HL135772 ל- P.P., NIH T32 HL13945 ל- A.R.P. ו- D.S., NIH T32 EB016640 ל- A.R.P., National Science Foundation Research Traineeship (NRT) 1829071 ל- A.R.P. ו- D.S., NIH R01 HL146739 עבור I.A., J.R., A.V., K.B. ו- TC Laubisch Endowment to P.P. ב- UCLA.

Materials

Name	Company	Catalog Number	Comments
Software - Docker	Docker	N/A	docker.com

References

The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
Rehm, H. L., et al. ClinGen - The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
Caulfield, M., et al. The National Genomics Research and Healthcare Knowledgebase. , (2019).
Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043(2017).
Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108(2019).
Yu, K. -H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135(2021).
Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680(2016).
Wei, C. -H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171(2013).
Wei, C. -H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96(2021).
Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304(2022).
Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726(2017).
Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118(2021).
Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
Neo4j Graph Data Platform. , Available from: https://neo4j.com/ (2022).
Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Explore More Articles

200

This article has been published

Video Coming Soon

Keep me updated: