Method Article
אנו מציגים את פורטל האינטרנט של CorExplorer, משאב לחקר הגידול של גורמים ברצף RNA שנמצאו על ידי אלגוריתם למידה מחשב Corexplorer (הסבר מתאם), ולהראות כיצד ניתן לנתח את הגורמים ביחס להישרדות, מסד נתונים ביאורים, האינטראקציות חלבון חלבון, ואחד את השני כדי לקבל תובנה בביולוגיה הגידול והתערבויות טיפוליות.
אנליזה של ביטוי גנים דיפרנציאלי היא טכניקה חשובה להבנת מצבי מחלות. אלגוריתם למידה מחשב CorEx הראה את השירות בניתוח ביטוי דיפרנציאלי של קבוצות של גנים בגידול RNA-seq באופן שעשוי להועיל לקידום אונקולוגיה דיוק. עם זאת, CorEx מייצרת גורמים רבים שיכולים להיות מאתגרת לנתח ולהתחבר להבנה הקיימת. כדי להקל על הקשרים האלה, בנינו אתר אינטרנט, CorExplorer, המאפשר למשתמשים לחקור באופן אינטראקטיבי את הנתונים ולענות על שאלות נפוצות הקשורות לאנליזה שלו. התאמנו CorEx על RNA-seq ביטוי גנים נתונים עבור ארבעה סוגי גידולים: השחלות, ריאות, מלנומה, ו המעי הגס. לאחר מכן שולבו הישרדות המקביל, חלבון חלבונים אינטראקציות, ג'ין אונטולוגיה (GO) ו קיוטו האנציקלופדיה של גנים Genomes (KEGG) המסלול enrichments, ו מפות החום לתוך אתר האינטרנט עבור שיוך עם הדמיית הגרף גורם. כאן אנו מעסיקים פרוטוקולים לדוגמה כדי להמחיש את השימוש במסד הנתונים לצורך ההבנה של משמעות גורמי הגידול הנלמדים בהקשר של נתונים חיצוניים אלה.
מאז המבוא שלה רק לפני כעשור, RNA-seq הפך לכלי בכל מקום למדידת ביטוי גנטי1. זה משום שהוא מאפשר פרופיל דה נובו מהיר וזול של ההמרה כולה של דגימה. עם זאת, הנתונים הסרטניים RNA-seq משקף את הביולוגיה הבסיסית כי הוא מורכב מיסודה ולעתים קרובות תחת שנדגמו, בעוד הנתונים עצמם הוא גבוה מימדי רועש. זה מציג אתגר משמעותי עבור חילוץ אותות אמינים. האלגוריתם corex ממנף מידע הדדי מרובה כדי למצוא דפוסים עדינים במצבים כאלה2,3 . טכניקה זו הותאמה בעבר לניתוח השחלות גידול RNA-seq דגימות של סרטן הגנום אטלס (TCGA) ובהקשר זה נראה כי יש יתרונות משמעותיים על שיטות ניתוח נפוץ יותר4.
למרות שהשימוש ב-RNA-seq נפוץ מאוד ביישומי מחקר, כולל באונקולוגיה, מאמצים אלה לא הובילו לניצול רחב למטרות של התערבויות קליניות5. חלק מהסיבה לכך הוא חוסר באלגוריתמים ותוכנות ידידותיים למשתמש המיועדים לבעיות ספציפיות אלה. כדי לסייע בגישור פער זה, עיצבנו את פורטל האינטרנט של CorExplorer כדי לאפשר לחוקרים מתוך מגוון רקעים לחקור גורמי ביטוי גנים של הגידול RNA-seq דגימות כפי שנמצא על ידי אלגוריתם למידה מכונת Corexplorer. פורטל קוראקספלורר תומך בהדמיה אינטראקטיבית ובביצוע שאילתות על גורמים ממספר סוגי גידולים שונים כולל ריאה, נקודתיים, מלנומה והשחלות6,7,8,9, 10, עם כוונה לסייע לחוקרים לנפות באמצעות הנתונים תאמים ולזהות מסלולים המועמדים לחולים stratify למטרות טיפוליות.
אנו מצפים שפורטל CorExplorer יהיה שימושי למספר סוגים של משתמשים. הפורטל תוכנן עם המשתמש בראש מי רוצה להבין את הגורמים הרחבים נהיגה מוסרית גנים ביטוי הבדלים במסדי נתונים ציבוריים ואולי גם מקום פרופילים ביטוי גנים בודדים בהקשר של גידולים עם דומה מאפייני. בנוסף לפרוטוקולים הנציגים המפורטים כאן, חקירות CorExplorer עשויים לשמש נקודת התחלה להציע השערות לבדיקות נוספות, להשוות ולניגודיות ממצאים Corexplorer על מערכות נתונים מחוץ ל-CorExplorer, ולהתחבר ביטוי פתולוגי חתימות של אחד או כמה גנים בגידול בודד לקבוצות גדולות יותר שעלולות להיות coordinately מושפעות. לבסוף, זה יכול לשמש כמבוא ידידותי למשתמש ליישום של למידה מחשב ל-RNA-seq עבור אלה שהתחילו בתחום.
1. חקר גורמים המכילים גן מעניין
2. סינון ופענוח גורמי CorEx באמצעות משקל גנטי, הישרדות ונתוני ביאור
3. באמצעות הישרדות וביאורי מסד נתונים כדי לחפש שילובים טיפוליים מבטיחים
4. למצוא את הדברים השכיחים והבדלים של וריאציה ביטוי גנים על פני סוגי גידולים באמצעות דף החיפוש
מחפש את הגן ' BRCA1 ' בקבוצת הנתונים של סרטן הריאות חושף אותו להיות הקשורים ביותר חזק עם פקטור CorEx 26 (איור 2). GO העשרה המונח עבור גורם זה נראה גבוה מאוד, עם תיקון DNA המציגות את רוזוולט של רק 1 x 10-19. הבחירה גם מושכת תשומת לב לאשכול הרמה השנייה L2_8 שיש לו שישה גורמים קשורים היטב כילדים. בחירת ' תיקון ה-DNA ' ב או ביאורים לטווח ללכת או הגרף ללכת מועשר הנפתחת הכולל גנים הקשורים בכל אחד מהגורמים, עם הגורם 26 לאחר הרבה ביותר, כצפוי11. הרשת האינטראקציית חלבון-חלבון מקושרת מאוד, ותומכת עוד יותר בפונקציונליות המקושרת היטב של הגנים בפקטור 26. גרף ההישרדות המשויך מציע קשר אפשרי עם הישרדות החולה, אבל זה צריך להיות מאושר בערכת נתונים גדולה יותר.
החל בהישרדות יכול לאפשר ניתוח של סיבות הישרדות משופרת הקשורים לקבוצות ביטוי גנטי מסוים. כדוגמה, הגורם העליון המשפיעים על הישרדות סרטן השחלות נראה להיות מספר 39, אשר מועשר מאוד עבור גנים הקשורים למערכת החיסונית (איור 3). חמישה גורמים אחרים הקשורים באותו שלב 2 הצומת מצוינים גם להיות החיסונית הקשורות, אולם ההשפעה הישרדות נראה משתנה מאוד ביניהם, עם 39 להיות הגבוהה ביותר 52 להיות הנמוך ביותר. הוספת חלון אינטראקציה חלבון חלבון עבור גורם מציג את רשת האינטראקציה המיידית ומאפשרת קישור לאתר האינטרנט של מסדר ה-12 כדי לבצע שאילתה על enrichments שונים עבור הגנים ברשת PPI. על ידי עושה את זה עבור כל אחד מגורמי L2_14 בתורו, אחד מוצא כי מסמסד db enrichments עבור הגנים ברשת PPI להציע את ההסבר האפשרי הבא עבור האסוציאציות עם הישרדות. פקטור 32 מכיל גנים שעושים את הקומפלקס הגדול ביותר היסטרתאימות (MHC) בכיתה אני חלבון מורכב, אשר מזוהה על ידי לימפוציטים T ציטוטוקסיים. פקטור 39 מתאים איתות cy, ו CXCR3 קולטן מחייב, הקשורות CD8 + T לימפוציטים. שני גורמים אלה מופיעים כדי להעניק יתרון הישרדות משמעותי עבור חולים המציגות ביטוי גבוה יחסית של הגנים המתאימים. ציטומיק CD8 + T לימפוציטים הם בעיקר אחראים נגד הגידול חסינות. פקטור 52, מצד שני, מורכב גנים קידוד עבור חלבונים במתחם MHC מחלקה II אשר מזוהים בעיקר על ידי CD4 + T תאים מסייע ולא ישירות על ידי לימפוציטים T ציטוטוקסיים. שאר גורמי L2_14 משקפים הפעלה כללית של המערכת החיסונית כי לא להבדיל בין שני סוגים של אוכלוסיות לימפוציטים. האגודה הישרדות ספציפי ציטוטוקסיט T זיהוי לימפוציטים של mch class אני אנטיגנים סלולריים הוא עקבי עם ההבנה שלנו של חסינות antitumor בכלל ומסרטן אחרים כגון מלנומה13,14.
פורטל האינטרנט תומך בגילוי של זוגות של גורמים עם פונקציות משלימות שעשויות להציע טיפולים יעילים לגידול ספציפי שילוב. סקירה של ערכת הנתונים ניתן לסרוק עבור גורמים הרואים מתאם עם הישרדות עדיין יש ברורים GO enrichments. עבור מלנומה (TCGA_SKCM; איור 4), הוא ראה כי הגורם ההישרדות העליון 171 הוא קשור החיסונית, בעוד גורם 88 במורד הרשימה מראה העשרה עבור גנים הקשורים בארגון מיטוכונמיטויום. אכן, זה הוצע כמטרה ב מלנומה15. הוספת חלונות הישרדות לעמוד CorExplorer מאפשרת השוואה של ריבוד באמצעות זוג פקטור זה של כל גורם בנפרד, מראה כי דפוסי ביטוי גנים נוחים משתי הקבוצות מציג מגמה של הישרדות טוב יותר עבור אחד לבד. הרובד העליון לא נראה שופרה עם זאת, מציע חיסוני רק עשוי להיות האופציה הטובה ביותר עבור חלק מהחולים.
שכיח והבדלים בין גידולים ניתן לראות על ידי חיפוש על פני datasets עבור גנים או ללכת מונחים (איור 5). כדוגמה, FLT1 (aka VEGFR1) הוא סמן מקצועי למדי לימודי-אנגיוגנטי16,17. כאשר הוא הכניס לתוך סרגל החיפוש, כל הגידולים יש גורמים שבהם FLT1 משחק תפקיד מרכזי. לעומת זאת, כאשר המונח GO ' אנגיוגנזה ' הוא קלט בדף החיפוש, 5 מתוך 6 קבוצות FLT1 מופיעות עם העשרה זו. כל הגורמים FLT1, למעט SKCM-195, מפורטים מבחינה סטטיסטית מועשר בגנים של אנגיוגנזה. הגורם השישי הוא, למעשה, יש את הביאור, אבל מתחת ברירת המחדל 10-8 הסף. כאשר המשקל בתוך רשימת הגורמים מנוצל בחשבון העשרה חלופי, לדוגמה, המקדם העשרה של ג'ין (GSEA)18, נמצא הגורם השישי מועשר באופן משמעותי גם בגנים של אנגיוגנזה.
חשוב לבדוק את מפות החום כדי להבטיח שהתבנית של ביטוי הגנים היא באיכות נאותה לתמיכה בפרשנויות ביולוגיות. מפות חום הצגת וריאציה ברורה חזקה עשוי להפגין ביטוי מתואם של גנים הגורם החל נמוך לדפוסים גבוהים או מורכבים יותר עם כמה גנים שיש ביטוי נמוך בקורלציה עם אחרים שיש גבוה (איור 6). סמן מפתח של קיבוץ באיכות גבוהה הוא הנוכחות של מספר גנים עם וריאציה חלקה בביטוי כפונקציה של ציון גורם. מפות החום של הפקטור מציגות דגימות שהוזמנו בהתאם לתוצאת הפקטור, ולכן צריך להיות מעבר הדרגתי חלק משמאל לימין. עם זאת, הדבר עלול להיכשל בשתי דרכים שונות לפחות. הנפוץ ביותר, היחסים יכול להיות רועש מאוד (איור 5C), קורא להטיל ספק את החוסן ואת התועלת של כל הסקנות לגבי הישרדות ו/או פונקציה ביולוגית. כמו כן, דפוסי שמתרחשים רק במיעוט קטן של דגימות לא יכול להתאים את המודל של שלוש מדינות ביטוי הניח על ידי אלגוריתם CorEx, וכתוצאה מכך סיווג מטעה של דגימות (הצד הימני של איור 5d).
איור 1: דף השער של CorExplorer. לאחר לחיצה על + ליד סרטן השחלות תחת קישורים מהירים, פקטור גרף פרטים מוצגים. המודל ההירארכי של CorEx מורכב ממשתני קלט (ביטוי גנטי במקרה זה) בשכבה התחתונה וגורמים סמויים בשכבות הגבוהות יותר. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.
איור 2: שימוש בשם הגן כדי להדריך את המחקר. האיור מציג סדרה של צילומי מסך המדגימה חקירה של גורמי סרטן ריאות CorEx הקשורים מאוד BRCA1. ראשית, בחירה ב-' BRCA1 ' בתיבה הנפתחת ' גן ' עבור גרף הפקטור גורמת לתצוגת הגרף להגדיל את הפקטור שעבורו BRCA1 יש את המשקל הגדול ביותר. הגדלת המרחק של מסגרות סיביות לשני הצמתים L2_8 חיבור גורם זה לאלה קשורים אחרים. הישרדות וביאורים ניתן להשוות: לחיצה על המונח ללכת לתקן DNA תיקון גנים מוערת. חלון PPI נוסף כדי להציג את אינטראקציות הרשת עבור גנים בפקטור. באמצעות לחצן הוספת חלון כדי להוסיף מפת חום מראה שיוך של דפוסי ביטוי עם הישרדות, מציע ביטוי מוגבר של גנים תיקון DNA יכול להיות קשור עם ירידה הישרדות. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.
איור 3: שימוש בנתונים קליניים (הישרדות) כדי להדריך את המחקר. חקירת מקדם ההישרדות העליון (39) עבור סרטן השחלות חושף קשרים מעניינים בין גורמים שכנים. לאחר בחירת פקטור 39 בגרף הפקטור והתקרבות מעט, השכבה ששני הגורמים המקושרים לפקטור 39 נראית כחמישה גורמים משויכים אחרים. חלון הישרדות נוסף מאפשר השוואה ישירה של הפרשי ההישרדות המשויכים. גורמים 39 ו 32 שניהם מראים מתאם הישרדות חיובי, בניגוד פקטור 52, אשר אינו. הרשתות האינטראקציית חלבון-חלבון מוגדרות היטב. קישור החוצה כדי מט db מאפשר השוואה של ביאורים GO (לא מוצג): פקטור 39 משויך עם רשת איתות cy, הקשורים ציטוטוקסיים CD8 + T הפעלה לימפוציטים וגורם 32 נשלט על ידי מחלקה mhc I אנטיגן הצגת חלבונים ש ההדק זיהוי על ידי לימפוציטים כגון; הגורמים השכנים, עם זאת, נשלטים על ידי רכיבים אחרים המערכת החיסונית כגון CD4 + מסייע בתאי T ולהראות שום מתאם הישרדות. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.
איור 4: חקירת גורמי הישרדות העליון מציע שילובים פוטנציאליים פוטנציאל. הקישור ' ערכות נתונים ' בשורת התפריטים של דף הבית מוביל לטבלה תמציתית של גורמי הישרדות שהוזמנו על-ידי ערך p, יחד עם הביאור GO העליון (לא מוצג). שימוש במידע זה עבור מלנומה, השילוב של פקטור 171 עבור הפונקציה החיסונית עם פקטור 88 עבור המיטו, הארגון נראה משלים. האיור מציג חלונות ביאור עבור כל אחד מהגורמים זה לצד זה כדי להבדיל ביניהם. עקומות הישרדות עבור מטופלים שעברו באופן אינדיבידואלי על ידי שני הגורמים בנפרד או יחד מצביעים על כך שהשילוב מגדיל את ההפרש בין ההישרדות בהשוואה לפקטור בלבד. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.
איור 5: עמוד החיפוש מקל על ניתוח הסרטן הפאן. גנים או מונחים מונחי תהליך ביולוגי ניתן לחפש על פני כל ערכות הנתונים באמצעות קישור החיפוש מדף הבית. האיור מציג תוצאות חיפוש עבור הגן FLT1 ואת המונח GO ' אנגיוגנזה '. התוצאות מראות את הנוכחות של FLT1 בגורמים מסומן עם המונח "אנגיוגנזה" על פני סרטן. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.
איור 6: מפות החום ניתן להשתמש כדי להעריך את הקשרים באיכות מרבית בין הגנים והדגימות בהתאם לתוצאת הפקטור. קשרים ביטוי גנים באיכות גבוהה מוצגים על ידי הדרגתיות חלקה כאשר המטופלים מסודרים על ידי ציון גורם במפות החום. מיפוי החום השמאלי ביותר עבור פקטור 18 הוא דוגמה אחת. הדפוסים יכולים גם להקיף חתימות מורכבות של ביטוי למעלה ולמטה כמו במפת החום האמצעית הגדולה עבור פקטור 11. תבניות באיכות נמוכה יותר מציגות לעיתים שינויים פתאומיים בביטוי לקבוצת משנה של חולים כמו בפקטור 9 החום המפה על הזכות או פשוט היחסים מאוד רועש מאוד כמו בפקטור 161 החום מפה בצד ימין התחתון. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.
הצגנו את האתר CorExplorer, שרת אינטרנט נגיש לציבור עבור חקר אינטראקטיבי של גורמים ביטוי גנטי מקסימאלי בקורלציה מקסימאלית של הגידול RNA-seq על ידי אלגוריתם Corexplorer. הצגנו כיצד האתר עשוי לשמש כדי stratify חולים לפי ביטוי גן הגידול, ואיך ריבוד כזה מתאים פונקציה ביולוגית והישרדות.
שרתי אינטרנט אחרים עבור ניתוח של RNA-seq נבנו. ניתן לבדוק ולשלב ניתוח ביטוי משלים ושיתוף ביטויים לגידולים משולבים עם סוגי נתונים אחרים ב-cביובורטל19,20. השרתים שרתים21, mev22, ו מורפיוס23, לשלב טכניקות באשכולות הוקמה כגון ניתוח המרכיב העיקרי (pca), כלומר, או לארגן מפות עצמית (כאשר). מאמצים חדשניים יותר כוללים CamurWeb24, מבוסס על מסווג אוטומטי מחולל כללים, ו-tacco25, אשר מיישמת מסווג ביער אקראי lassos. אלגוריתם CorEx משמש כאן מייעל מידע רב משתנים כדי למצוא היררכיה של גורמים המסבירים דפוסים בנתונים. הלמידה למידה הירארכית וללא לינארית מופיעה כדי להניב המשך באופן משופר ביחס לגורמים הגלובליים הליניארים המצויים באמצעות PCA4. בנוסף, הטכניקה בסדר הניתוח העדין של אותות לדוגמה מאפשר השוואות הגידול מדויק לעומת-à-vis יותר נפוץ בשימוש תת-סוגי. שילוב זה של ניתוח מרכיב חופף והירארכי מבדיל בין מרבית הגישות האחרות ומחייבת כלים חדשים להדמיה ולסיכום.
חלק קריטי בניתוח גורם CorExplorer הוא היכולת לחקור לא רק כמה, אבל מעל 100 גורמים עם דפוסי גנים אינפורמטיביים הממוקמים בתוך היררכיה חופפים. CorExplorer מקלה על כריית הגורמים הרבים האלה עבור אגודות ביולוגיות וקליניות ומאפשר אפיון מפורט במיוחד של גידולים בודדים. הלמידה ללא השגחה של מספר כה גדול של גורמים פירושה שלא הכל יהיה רלוונטי לביולוגיה של המחלה. במקרה כזה, זה חיוני להשתמש ביאורים או גנים ידועים כדי למשוך את גורמי העניין או לחפש גורמים הקשורים לנתונים קליניים כגון הישרדות. לפיכך, CorExplorer מאפשר למשתמשים ליישם את הצעד החשוב מאוד מסנן. הנוכחות של דפוסי גנים גורם בגידול עשוי אפילו להציע גישה לטיפול באונקולוגיה אישית. יתר על כן, ריבוי של תוצאות גורם עבור כל גידול המאפשר גילוי של שילובים טיפולית פוטנציאלי שימושי.
לפעמים זה המקרה כי שום ביאורי GO משמעותיים להופיע עבור גורמים בקורלציה גבוהה עם הישרדות. בעוד שהדבר עלול להתרחש עקב רעש או מתחת לנתונים שנדגמו, יש גורמים אפשריים נוספים כגון גודל אשכול קטן מדי לרישום של עשרות העשרה משמעותיים או שהקבוצה היא ' סל ' של גנים בודדים ממסלולים שונים ללא ביולוגי אגודה. בנוסף, קטגוריה של ביאור השונה מהתהליך הביולוגי של KEGG ו-GO, למשל תא סלולארי, עשוי להתאים. ניתן לגשת אליהם באמצעות קישור אל מסדר הנתונים כפי שמתואר בפרוטוקול. הניתוח העשרה של הנטולוגיה הגנטית באתר CorExplorer כרגע אינו מהווה בחשבון את שקלול הגנים בפקטור, למרות שסביר להניח שזה יתוקן בעתיד הקרוב. הערה אפשרות של רשימת גנים זמינה תחת ' הוסף חלון ' המאפשר להוריד את רשימת הגנים של הגורם המלא לניתוח נוסף באמצעות כלים חיצוניים.
לצורך האתר, CorEx הופעל על כל אחד מערכות הנתונים חמש פעמים את ההפעלה כי הביא מתאם הכולל הגדול ביותר הכוללת נשמר. לאחר ייצוג סטטיסטי של התוצאות של מספר רב של מסלולים עשוי להיות אינפורמטיבי יותר והוא מטרה לעבודה בעתיד. בנוסף, הקבוצה של סוגי הגידולים הזמינים בשרת הוא קטן למדי, אך אנו מצפים לכך להתרחב עם הזמן בהתאם לעניין המשתמש.
כפי שמתואר לעיל, ה-CorExplorer מפעיל את מערכת היחסים של Corexplorer RNA-seq יחד עם מידע קליני ומסד נתונים, ובכך מאפשר מגוון מצבי חקירה שונים. אנו מקווים כי כלי זה יוביל לעבודה נוספת כדי לנצל את העוצמה של הניתוח RNA-seq עבור גילוי ויישום קליני באונקולוגיה.
המחברים מצהירים כי אין להם אינטרסים פיננסיים מתחרים.
GV נתמך על ידי הפרס DARPA W911NF-16-0575.
Name | Company | Catalog Number | Comments |
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |
Request permission to reuse the text or figures of this JoVE article
Request PermissionThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. All rights reserved