פרוטוקול חישובי זה משמעותי מכיוון שהוא מאפשר עבודה לחקור קשרים בין רכיבים תאיים, למשל, חלבוני מיטוכונדריה והקשר שלהם למחלות, כפי שדווח בפרסומים ביו-רפואיים. CaseOLAP LIFT מאפשר לחוקרים לחלץ ולשלב מידע מדוחות ביו-רפואיים ומבסיסי ידע. מאורגנים כגרף ידע, ניתן למנף תוצאות אלה כדי לחזות קשרים חדשים.
ממצאי מחקר אלה תומכים ביצירת השערות על ידי הדגשת רשימה מועדפת של קשרים מזוהים וחזויים של מחלות חלבון, שימושית לחשיפת תובנות חדשות על פתולוגיה וטיפול במחלות. תהליך עבודה זה, הניתן להתאמה אישית, יכול להיות מיושם על כל רכיב סלולרי באמצעות מונח GO שלהם לכל רשימת מחלות באמצעות מונח MeSH שלהם בכל טווח תאריכי פרסום. פרוטוקול ידידותי למשתמש זה ממזער את המומחיות החישובית הנדרשת לניתוח.
התוכנה משוחררת כגורם מכיל Docker, הדורש רק אחסון חישובי מספיק ומשאבים לביצוע. כדי להתחיל, פתח את חלון המסוף כדי להוריד את הגורם המכיל של CaseOLAP LIFT, והקלד docker pull CaseOLAP קו נטוי CaseOLAP_LIFT המאוחר. צור ספרייה שתאחסן את כל נתוני התוכנית והפלט.
הפעל את הגורם המכיל של docker עם הפקודה המוצגת על המסך, והחליף PATH_TO_FOLDER כנתיב הקובץ המלא עבור התיקיה. כדי להפעיל את Elasticsearch בתוך הגורם המכיל, פתח חלון מסוף חדש והקלד את הפקודה המוצגת על המסך. נווט אל התיקיה CaseOLAP_LIFT.
ודא שקישורי ההורדה והתצורה של קו נטוי knowledge_base_links. JSON מעודכנים ומדויקים עבור הגירסה העדכנית ביותר של כל משאב Knowledge Base. כדי לקבוע את אונטולוגיה גנטית או מונח GO, עבור אל אתר האינטרנט geneontology.
org, ומצא את המזהים עבור כל תנאי GO. באופן דומה, מצא את קטגוריות המחלות באמצעות כותרת נושא רפואי או מזהי MeSH מהאתר המוצג על המסך. כדי להפעיל את מודול העיבוד מראש, ציין את מונחי GO שנלמדו על-ידי המשתמש באמצעות דגל מקף C, את מספרי עץ MeSH של המחלה באמצעות דגל מקף D, וציין קיצורים עם דגל מקף A.
כדי להפעיל את מודול כריית הטקסט, הקלד Python, רווח CaseOLAP_LIFT. py, רווח, text_mining, ולהוסיף את דגל מקף L כדי להטיל את הנושאים של מסמכים ללא קטגוריות, ואת דגל מקף T כדי להוריד את הטקסט המלא של המסמכים הרלוונטיים למחלה. ודא שתוצאות כריית הטקסט נמצאות בתיקיית התוצאות.
ציין את תוצאות כריית הטקסט שישמשו לניתוח על-ידי ציון נתח את כל החלבונים כך שיכללו את כל החלבונים הקשורים לתפקוד, או נתח חלבוני ליבה כך שיכללו רק את החלבונים הקשורים למונח GO. כדי לזהות את החלבונים והמסלולים המובילים עבור כל מחלה, ציוני CaseOLAP משתנים בציון Z בתוך כל קטגוריית מחלה. ציין את דגל המקף Z כדי לציין ציון סף מוגדר שמעליו החלבונים ייחשבו משמעותיים.
סקור את תוצאות הניתוח והתאם לפי הצורך. פתח את z_score_cutoff_table הקובץ. csv כדי להציג את טבלת ציון Z שנוצרה המכילה את מספר החלבונים המשמעותיים לכל קטגוריית מחלה.
פעולה זו מסייעת ליידע את המשתמש לבחור סף Z-score מתאים. פתח את תיקיית התוצאות וודא שהקבצים הדרושים, כולל התיקיה שנוצרה מעיבוד מראש, נמצאים בתיקיה. בדוק אם יש את כל החלבונים בתיקיות חלבוני הליבה.
כדי לעצב את גרף הידע, כלול את עץ מחלת MeSH עם דגל Include MeSH. האינטראקציות חלבון-חלבון ממחרוזת עם כוללות דגל PPI, מסלולי Reactome משותפים עם דגל PW כולל, והתלות בגורם שעתוק מ- GRNdb GTEx עם דגל TFD כלול. הפעל את מודול בניית גרף הידע על ידי ציון ניתוח חלבוני ליבה כך שיכלול רק את החלבונים הקשורים למונח GO.
כדי לשנות את גודל עובי הקצוות, השתמש בתוצאת שינוי קנה מידה Z עבור ציוני Z שאינם שליליים במקום בציוני ברירת המחדל של CaseOLAP. בדוק את הפלט וודא שקבצי גרף הידע merged_edges. TSV ו- merged_nodes.
קבצי TSV קיימים. לבסוף, הקלד את הפקודה המוצגת על המסך כדי להפעיל את סקריפט החיזוי של גרף הידע לחיזוי האסוציאציות של מחלות החלבון. נתון זה מציג חלבון מיטוכונדריאלי משמעותי לכל קטגוריית מחלה.
טרנספורמציית ציון Z יושמה על ציוני CaseOLAP בכל קטגוריה כדי לזהות חלבונים משמעותיים באמצעות סף של שלושה. המספר הכולל של חלבונים משמעותיים לכל קטגוריית מחלה מוצג מעל כל חלקת כינור. ניתוח מסלול Reactome של חלבונים אלה גילה 12 מסלולים משמעותיים לכל המחלות.
דוגמה ליישום למידה עמוקה על גרף ידע ספציפי למחלה מוצגת באיור זה. היחסים הנסתרים בין החלבונים למחלה מנובאים, וההסתברויות המחושבות לשתי התחזיות מוצגות כאן עם ערכים הנעים בין אפס לאחד, כאשר אחד מהם מצביע על ניבוי חזק. הרצף שצוין הוא חיוני לביצוע פרוטוקול זה, במיוחד מודולי עיבוד מראש וכריית טקסט.
שני שלבים אלה משפיעים ישירות על זיהוי החלבונים והמסלולים המובילים לכל מחלה, כמו גם על בניית גרף הידע הספציפי למחלה. גרף הידע המתקבל מוצג ביעילות על ידי כלי גרפים, כגון Neo4j ו-Cytoscape, וניתן למנף אותו לחיזוי מתקדם של למידה עמוקה של מערכות יחסים חדשות. CaseOLAP LIFT מאפשר לחקור קשרים בין כל מרכיב תאי וקטגוריות מחלה.
גרף הידע המתקבל והקשרים המדורגים למחלות חלבונים תומכים בעיבוד שפה טבעית ובניתוח מבוסס גרף מעקב.