A subscription to JoVE is required to view this content. Sign in or start your free trial.
Method Article
DeepOmicsAE היא זרימת עבודה המתמקדת ביישום שיטת למידה עמוקה (כלומר, מקודד אוטומטי) כדי להפחית את המימדיות של נתוני multi-omics, מתן בסיס למודלים חיזוי ומודולי איתות המייצגים שכבות מרובות של נתוני omics.
מערכי נתונים גדולים של omics הופכים זמינים יותר ויותר למחקר על בריאות האדם. מאמר זה מציג את DeepOmicsAE, זרימת עבודה המותאמת לניתוח מערכי נתונים רב-אומיים, כולל פרוטאומיקה, מטבולומיקה ונתונים קליניים. זרימת עבודה זו משתמשת בסוג של רשת עצבית הנקראת autoencoder, כדי לחלץ קבוצה תמציתית של תכונות מנתוני הקלט הרב-מימדיים הגבוהים. יתר על כן, זרימת העבודה מספקת שיטה לייעול הפרמטרים העיקריים הדרושים ליישום המקודד האוטומטי. כדי להציג את זרימת העבודה הזו, נותחו נתונים קליניים מעוקבה של 142 אנשים שהיו בריאים או אובחנו עם מחלת אלצהיימר, יחד עם הפרוטאום והמטבוליזם של דגימות המוח שלהם לאחר המוות. התכונות המופקות מהשכבה הסמויה של המקודד האוטומטי שומרות על המידע הביולוגי המפריד בין חולים בריאים לחולים. בנוסף, התכונות הבודדות שחולצו מייצגות מודולי איתות מולקולרי נפרדים, שכל אחד מהם מקיים אינטראקציה ייחודית עם התכונות הקליניות של הפרטים, ומספק אמצעי לשילוב הפרוטאומיקה, המטבולומיקה והנתונים הקליניים.
חלק הולך וגדל מהאוכלוסייה מזדקן והנטל של מחלות הקשורות לגיל, כגון ניוון עצבי, צפוי לעלות בחדות בעשורים הקרובים1. מחלת אלצהיימר היא הסוג הנפוץ ביותר של מחלות נוירודגנרטיביות2. ההתקדמות במציאת טיפול הייתה איטית בהתחשב בהבנה הלקויה שלנו של המנגנונים המולקולריים הבסיסיים המניעים את הופעת המחלה והתקדמותה. רוב המידע על מחלת האלצהיימר מתקבל לאחר המוות מבדיקת רקמת המוח, מה שהפך את ההבחנה בין סיבות ותוצאות למשימה קשה3. פרויקט מחקר המסדרים הדתיים / זיכרון והזדקנות (ROSMAP) הוא מאמץ שאפתני להשיג הבנה רחבה יותר של ניוון עצבי, הכולל מחקר של אלפי אנשים שהתחייבו לעבור בדיקות רפואיות ופסיכולוגיות מדי שנה ולתרום את מוחם למחקר לאחר מותם4. המחקר מתמקד במעבר מתפקוד תקין של המוח למחלת אלצהיימר2. במסגרת הפרויקט, דגימות מוח לאחר המוות נותחו עם שפע של גישות אומיקס, כולל גנומיקה, אפיגנומיקה, טרנסקריפטומיקס, פרוטאומיקה5 ומטבולומיקה.
טכנולוגיות Omics המציעות קריאות פונקציונליות של מצבים תאיים (כלומר, פרוטאומיקה ומטבולומיקה)6,7 הן המפתח לפענוח מחלה 8,9,10,11,12, בשל הקשר הישיר בין חלבון ושפע מטבוליטים ופעילויות תאיות. חלבונים הם המבצעים העיקריים של תהליכים תאיים, בעוד מטבוליטים הם המצע והתוצרים של תגובות ביוכימיות. ניתוח נתונים מולטי-אומיקה מציע את האפשרות להבין את היחסים המורכבים בין נתונים פרוטאומיים ומטאבולומיים במקום להעריך אותם בנפרד. מולטי-אומיקס היא דיסציפלינה החוקרת שכבות מרובות של נתונים ביולוגיים בממדים גבוהים, כולל נתונים מולקולריים (רצף גנום ומוטציות, תעתוק, פרוטום, מטבוליזם), נתוני הדמיה קלינית ותכונות קליניות. בפרט, ניתוח נתונים מולטי-אומיקס נועד לשלב שכבות כאלה של נתונים ביולוגיים, להבין את הוויסות ההדדי שלהם ואת דינמיקת האינטראקציה, ולספק הבנה הוליסטית של התפרצות המחלה והתקדמותה. עם זאת, שיטות לשילוב נתונים מולטי-אומיים נותרו בשלבים המוקדמים של הפיתוח13.
Autoencoders, סוג של רשת עצבית14 ללא פיקוח, הם כלי רב עוצמה לשילוב נתונים multi-omics. שלא כמו רשתות עצביות מפוקחות, מקודדים אוטומטיים אינם ממפים דגימות לערכי מטרה ספציפיים (כגון בריאים או חולים), והם אינם משמשים לחיזוי תוצאות. אחד היישומים העיקריים שלהם טמון בהפחתת ממדיות. עם זאת, מקודדים אוטומטיים מציעים מספר יתרונות על פני שיטות פשוטות יותר להפחתת ממדיות, כגון ניתוח רכיבים עיקריים (PCA), הטבעה של שכן סטוכסטי מבוזר t (tSNE), או קירוב סעפת אחידה והקרנה (UMAP). שלא כמו PCA, מקודדים אוטומטיים יכולים ללכוד קשרים לא ליניאריים בתוך הנתונים. שלא כמו tSNE ו- UMAP, הם יכולים לזהות יחסים היררכיים ורב-מודאליים בתוך הנתונים מכיוון שהם מסתמכים על שכבות מרובות של יחידות חישוביות שכל אחת מהן מכילה פונקציות הפעלה לא ליניאריות. לכן, הם מייצגים מודלים אטרקטיביים כדי ללכוד את המורכבות של נתונים multi-omics. לבסוף, בעוד היישום העיקרי של PCA, tSNE ו- UMAP הוא זה של קיבוץ הנתונים, מקודדים אוטומטיים דוחסים את נתוני הקלט לתכונות מחולצות המתאימות היטב למשימות חיזוי במורד הזרם15,16.
בקצרה, רשתות עצביות מורכבות מכמה שכבות, שכל אחת מהן מכילה יחידות חישוביות מרובות או "נוירונים". השכבה הראשונה והשכבה האחרונה נקראות שכבות הקלט והפלט, בהתאמה. מקודדים אוטומטיים הם רשתות עצביות בעלות מבנה שעון חול, המורכב משכבת קלט, ואחריה שכבה אחת עד שלוש שכבות נסתרות ושכבה "סמויה" קטנה המכילה בדרך כלל בין שניים לשישה נוירונים. חציו הראשון של מבנה זה מכונה מקודד והוא משולב עם מפענח המשקף את המקודד. המפענח מסתיים בשכבת פלט המכילה את אותו מספר תאי עצב כמו שכבת הקלט. מקודדים אוטומטיים לוקחים את הקלט דרך צוואר הבקבוק ומשחזרים אותו בשכבת הפלט, במטרה לייצר פלט המשקף את המידע המקורי קרוב ככל האפשר. זה מושג על ידי מזעור מתמטי של פרמטר המכונה "אובדן שחזור". הקלט מורכב מסט של תכונות, אשר ביישום המוצג כאן יהיו שפע חלבונים ומטבוליטים, ומאפיינים קליניים (כלומר, מין, השכלה וגיל בעת המוות). השכבה הסמויה מכילה ייצוג דחוס ועשיר במידע של הקלט, שניתן להשתמש בו ליישומים הבאים כגון מודלים לחיזוי17,18.
פרוטוקול זה מציג זרימת עבודה, DeepOmicsAE, הכוללת: 1) עיבוד מקדים של פרוטאומיקה, מטבולומיקה ונתונים קליניים (כלומר, נורמליזציה, קנה מידה, הסרה חריגה) כדי להשיג נתונים בקנה מידה עקבי לניתוח למידת מכונה; 2) בחירת תכונות קלט מקודד אוטומטי מתאימות, שכן עומס יתר על תכונות עלול לטשטש דפוסי מחלה רלוונטיים; 3) אופטימיזציה ואימון של המקודד האוטומטי, כולל קביעת המספר האופטימלי של חלבונים ומטבוליטים לבחירה, ושל נוירונים לשכבה הסמויה; 4) חילוץ תכונות מהשכבה הסמויה; ו-5) ניצול התכונות המחולצות לפרשנות ביולוגית על ידי זיהוי מודולי איתות מולקולרי והקשר שלהם עם תכונות קליניות.
פרוטוקול זה נועד להיות פשוט וישים על ידי ביולוגים עם ניסיון חישובי מוגבל שיש להם הבנה בסיסית של תכנות עם Python. הפרוטוקול מתמקד בניתוח נתונים מולטי-אומיקס, כולל פרוטאומיקה, מטבולומיקה ותכונות קליניות, אך ניתן להרחיב את השימוש בו לסוגים אחרים של נתוני ביטוי מולקולרי, כולל תעתוק. יישום חדשני חשוב אחד שהוצג על ידי פרוטוקול זה הוא מיפוי ציוני החשיבות של תכונות מקוריות על נוירונים בודדים בשכבה הסמויה. כתוצאה מכך, כל נוירון בשכבה הסמויה מייצג מודול איתות, המפרט את האינטראקציות בין שינויים מולקולריים ספציפיים לבין המאפיינים הקליניים של החולים. הפרשנות הביולוגית של מודולי האיתות המולקולרי מתקבלת באמצעות MetaboAnalyst, כלי זמין לציבור המשלב נתוני גנים/חלבונים ומטבוליטים כדי להפיק מסלולי איתות מטבוליים ותאים מועשרים17.
הערה: הנתונים ששימשו כאן היו נתוני ROSMAP שהורדו מפורטל הידע של AD. אין צורך בהסכמה מדעת כדי להוריד את הנתונים ולעשות בהם שימוש חוזר. הפרוטוקול המוצג כאן משתמש בלמידה עמוקה כדי לנתח נתונים מולטי-אומיים ולזהות מודולי איתות המבחינים בין מטופלים ספציפיים או קבוצות מדגם המבוססות, למשל, על האבחנה שלהם. הפרוטוקול גם מספק קבוצה קטנה של תכונות שחולצו שמסכמות את הנתונים המקוריים בקנה מידה גדול, וניתן להשתמש בהן לניתוח נוסף, כגון אימון מודל חיזוי באמצעות אלגוריתמים של למידת מכונה (איור 1). עיין בקובץ משלים 1 ובטבלת החומרים לקבלת מידע אודות גישה לקוד והגדרת הסביבה החישובית לפני ביצוע הפרוטוקול. יש לבצע את השיטות לפי הסדר המפורט להלן.
איור 1: סכמה של זרימת העבודה של DeepOmicsAE. ייצוג סכמטי של זרימת העבודה לניתוח נתוני multi-omics באמצעות זרימת העבודה. בתיאור המקודד האוטומטי, מלבנים מייצגים שכבות של הרשת העצבית ומעגלים מייצגים נוירונים בתוך שכבות. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
1. עיבוד מקדים של נתונים
הערה: מטרת סעיף זה היא לעבד מראש את הנתונים, כולל טיפול בנתונים חסרים; נרמול וקנה מידה של נתונים פרוטאומיים, מטבוליים וקליניים; והסרת חריגים. הפרוטוקול מיועד למערך נתונים הכולל נתוני פרוטאומיקה המבוטאים כיומן2(יחס); נתוני מטבולומיקה המתבטאים בשינוי קיפול; ומאפיינים קליניים הכוללים מאפיינים רציפים וקטגוריים. יש לקבץ את החולים או הדגימות על סמך אבחנה או פרמטרים דומים אחרים. דגימות או מטופלים צריכים להיות לאורך השורות והתכונות לאורך העמודות.
2. אופטימיזציה מותאמת אישית של זרימת העבודה (אופציונלי)
הערה: סעיף 2 הוא אופציונלי מכיוון שהוא דורש צורך רב במחשב. משתמשים צריכים לדלג ישירות לסעיף 4 אם הם מחליטים לא לבצע את סעיף 2. פרוטוקול זה ינחה את המשתמש דרך אופטימיזציה של זרימת העבודה באופן אוטומטי. באופן ספציפי, השיטה מזהה את הפרמטרים המספקים את הביצועים הטובים ביותר של המקודד האוטומטי במונחים של יצירת תכונות שחולצו שמפרידות היטב בין קבוצות המדגם. הפרמטרים הממוטבים הנוצרים כפלט כוללים את מספר התכונות לשימוש לבחירת תכונות (k_prot ו- k_met) ואת מספר תאי העצב בשכבה הסמויה של המקודד האוטומטי (סמוי). לאחר מכן ניתן להשתמש בפרמטרים אלה בפרוטוקול המתואר בסעיף 3 כדי ליצור את המודל.
3. יישום זרימת עבודה עם פרמטרים מותאמים אישית
הערה: בצע פרוטוקול זה רק לאחר מיטוב השיטה (סעיף 2). אם משתמשים בוחרים שלא לבצע מיטוב שיטה, דלג ישירות לסעיף 4. פרוטוקול זה ינחה את המשתמש ביצירת מודל באמצעות הפרמטרים המותאמים אישית הנגזרים מסעיף 2. המקודד האוטומטי 1) ייצור קבוצה של תכונות שחולצו המשחזרות את הנתונים המקוריים ו-2) יזהה את התכונות החשובות המניעות כל נוירון בשכבה הסמויה, תוך ייצוג יעיל של מודולי איתות ייחודיים. מודולי האיתות יפורשו באמצעות הפרוטוקול המפורט בסעיף 5.
4. יישום זרימת עבודה עם פרמטרים מוגדרים מראש
5. פרשנות ביולוגית באמצעות MetaboAnalyst
כדי להציג את הפרוטוקול, ניתחנו מערך נתונים הכולל פרוטום, מטבוליזם ומידע קליני שמקורו במוחות לאחר המוות של 142 אנשים שהיו בריאים או אובחנו עם מחלת אלצהיימר.
לאחר ביצוע פרוטוקול סעיף 1 כדי לעבד מראש את הנתונים, מערך הנתונים כלל 6,497 חלבונים, 443 מטבוליטים, ושלושה מאפיינים קליניים (?...
מבנה מערך הנתונים הוא קריטי להצלחת הפרוטוקול ויש לבדוק אותו בקפידה. יש לעצב את הנתונים כפי שמצוין בסעיף 1 של הפרוטוקול. הקצאה נכונה של מיקומי טורים היא גם קריטית להצלחת השיטה. נתוני פרוטאומיקה ומטבולומיקה מעובדים מראש באופן שונה ובחירת התכונות מתבצעת בנפרד בשל אופיים השונה של הנתונים. לכן...
המחבר מצהיר כי אין להם ניגודי עניינים.
עבודה זו נתמכה על ידי CA201402 המענקים של NIH ופרס Cornell Center for Vertebrate Genomics (CVG) Distinguished Scholar Award. התוצאות המתפרסמות כאן מבוססות במלואן או בחלקן על נתונים שהתקבלו מפורטל הידע של AD (https://adknowledgeportal.org). נתוני המחקר סופקו באמצעות השותפות להאצת הרפואה עבור אלצהיימר (U01AG046161 ו-U01AG061357) בהתבסס על דגימות שסופקו על ידי המרכז למחלות אלצהיימר ראש, המרכז הרפואי האוניברסיטאי ראש, שיקגו. איסוף הנתונים נתמך באמצעות מימון על ידי מענקי NIA P30AG10161, R01AG15819, R01AG17917, R01AG30146, R01AG36836, U01AG32984, U01AG46152, מחלקת בריאות הציבור של אילינוי ומכון המחקר לגנומיקה תרגומית. מערך הנתונים המטאבולומי נוצר במטאבולון ועובד מראש על ידי ADMC.
Name | Company | Catalog Number | Comments |
Computer | Apple | Mac Studio | Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory |
Conda v23.3.1 | Anaconda, Inc. | N/A | package management system and environment manager |
conda environment DeepOmicsAE | N/A | DeepOmicsAE_env.yml | contains packages necessary to run the worflow |
github repository DeepOmicsAE | Microsoft | https://github.com/elepan84/DeepOmicsAE/ | provides scripts, Jupyter notebooks, and the conda environment file |
Jupyter notebook v6.5.4 | Project Jupyter | N/A | a platform for interactive data science and scientific computing |
DT01-metabolomics data | N/A | ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv | This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org |
DT02-TMT proteomics data | N/A | C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817x400.csv | |
DT03-clinical data | N/A | ROSMAP_clinical.csv | |
DT04-biospecimen metadata | N/A | ROSMAP_biospecimen_metadata .csv | |
Python 3.11.3 | Python Software Foundation | N/A | programming language |
Request permission to reuse the text or figures of this JoVE article
Request PermissionThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. All rights reserved