A subscription to JoVE is required to view this content. Sign in or start your free trial.
Method Article
אנו מציגים זרימת עבודה גמישה וניתנת להרחבה המבוססת על מעבדת יופיטר לניתוח ללא פיקוח של מערכי נתונים מורכבים של מולטי-אומיקס, המשלבת שלבים שונים של עיבוד מקדים, הערכה של מודל ניתוח הגורמים הרב-אומיקס ומספר ניתוחים במורד הזרם.
מנגנוני מחלה הם בדרך כלל מורכבים ונשלטים על ידי אינטראקציה של מספר תהליכים מולקולריים שונים. מערכי נתונים מורכבים ורב-ממדיים הם משאב רב ערך ליצירת תובנות נוספות לגבי תהליכים אלה, אך הניתוח של מערכי נתונים כאלה יכול להיות מאתגר בשל המימדיות הגבוהה הנובעת למשל ממצבי מחלה שונים, נקודות זמן ואומיקה הלוכדת את התהליך ברזולוציות שונות.
כאן, אנו מציגים גישה לנתח ולחקור מערך נתונים מורכב כזה של מולטיומיקה באופן בלתי מפוקח על ידי יישום ניתוח גורמים מולטי-אומיים (MOFA) על מערך נתונים שנוצר מדגימות דם הלוכדות את התגובה החיסונית בתסמונות כליליות חריפות וכרוניות. מערך הנתונים מורכב ממספר בדיקות ברזולוציות שונות, כולל נתוני ציטוקינים ברמת הדגימה, פלזמה-פרוטאומיקה ונויטרופילים ראשוניים-seq, ונתוני RNA-seq חד-תאי (scRNA-seq). מורכבות נוספת מתווספת על ידי כך שנמדדו מספר נקודות זמן שונות לכל מטופל וכמה תת-קבוצות של מטופלים.
זרימת העבודה של הניתוח מתארת כיצד לשלב ולנתח את הנתונים במספר שלבים: (1) עיבוד מראש של נתונים והרמוניזציה, (2) הערכה של מודל MOFA, (3) ניתוח במורד הזרם. שלב 1 מתאר כיצד לעבד את התכונות של סוגי הנתונים השונים, לסנן תכונות באיכות נמוכה ולנרמל אותן כדי ליצור הרמוניה בין ההפצות שלהן לניתוח נוסף. שלב 2 מראה כיצד ליישם את מודל MOFA ולחקור את מקורות השונות העיקריים בתוך מערך הנתונים בכל האומיקה והתכונות. שלב 3 מציג מספר אסטרטגיות לניתוח במורד הזרם של הדפוסים שנלכדו, ומקשר אותם לתנאי המחלה ולתהליכים המולקולריים הפוטנציאליים השולטים בתנאים אלה.
בסך הכל, אנו מציגים זרימת עבודה לחקירת נתונים ללא פיקוח של מערכי נתונים מולטי-אומיים מורכבים כדי לאפשר זיהוי של צירי וריאציה עיקריים המורכבים מתכונות מולקולריות שונות שניתן ליישם גם בהקשרים אחרים ובמערכי נתונים רב-אומיים (כולל בדיקות אחרות כפי שהוצגו במקרה השימוש לדוגמה).
מנגנוני מחלה הם בדרך כלל מורכבים ונשלטים על ידי אינטראקציה של מספר תהליכים מולקולריים שונים. פענוח המנגנונים המולקולריים המורכבים המובילים למחלות ספציפיות או שולטים באבולוציה של מחלה היא משימה בעלת רלוונטיות רפואית גבוהה מכיוון שהיא עשויה לחשוף תובנות חדשות להבנה וטיפול במחלות.
ההתקדמות הטכנולוגית האחרונה מאפשרת למדוד תהליכים אלה ברזולוציה גבוהה יותר (למשל, ברמת התא הבודד) ובשכבות ביולוגיות שונות (למשל, DNA, mRNA, נגישות כרומטין, מתילציה של DNA, פרוטאומיקה) בו זמנית. זה מוביל לדור הולך וגדל של מערכי נתונים ביולוגיים רב-ממדיים גדולים, שניתן לנתח במשותף כדי להפיק תובנות נוספות לגבי התהליכים הבסיסיים. יחד עם זאת, שילוב וניתוח מקורות הנתונים השונים באופן בעל משמעות ביולוגית נותר משימה מאתגרת1.
מגבלות טכנולוגיות, רעשים וטווחי שונות שונים בין אומיקה שונים מציבים אתגר אחד. לדוגמה, נתוני ריצוף RNA חד-תאי (scRNA-seq) הם דלילים מאוד ומושפעים לעתים קרובות מהשפעות טכניות או אצווה גדולות. בנוסף, מרחב התכונות הוא לעתים קרובות גדול מאוד, ונע על פני כמה אלפי גנים או חלבונים שנמדדו, בעוד שגודל הדגימה מוגבל. זה מסובך עוד יותר על ידי תכנונים מורכבים, שעשויים לכלול מספר מצבי מחלה, גורמים מבלבלים, נקודות זמן ורזולוציות. לדוגמה, במקרה השימוש המוצג, סוגי נתונים שונים היו זמינים ברמת תא בודד או מדגם (בתפזורת). מלבד זאת, הנתונים עשויים להיות חלקיים, ולא כל המדידות עשויות להיות זמינות עבור כל הנבדקים שנותחו.
בשל אתגרים אלה, אומיקה שונה ותכונות כלולות עדיין מנותחות לעתים קרובות רק בנפרד2 למרות שביצוע ניתוח משולב אינו יכול רק לספק תמונה מלאה של התהליך, אלא רעשים ביולוגיים וטכניים מאומיקה אחת עשויים להיות מפוצים גם על ידי אומיקה אחרת 3,4. מספר שיטות שונות הוצעו לביצוע ניתוח משולב של נתונים מולטי-אומיקס, כולל שיטות בייסיאניות, שיטות מבוססות רשת 5,6, למידה עמוקה רב-מודאלית7 ושיטות הפחתת ממדיות באמצעות פקטורליזציה של מטריצה 8,9. עבור האחרון, התוצאות של מחקר השוואת ביצועים גדול10 הראו את שיטת MOFA9 (ניתוח גורמים multi-omic) כאחד הכלים המתאימים יותר כאשר הנתונים צריכים להיות מקושרים ביאורים קליניים.
במיוחד בסביבות מורכבות, שיטות פירוק לגורמים של מטריצה ללא פיקוח הן גישה שימושית להפחתת המורכבות ולחילוץ אותות משותפים ומשלימים ממקורות נתונים ותכונות שונות. על ידי פירוק המרחב המרוכב לייצוגים סמויים מדרגה נמוכה יותר, ניתן לחקור במהירות את מקורות השונות העיקריים בתוך הנתונים ולקשר אותם לקובריאטים ידועים. במקרה שאותו דפוס של שונות משותף על פני תכונות מרובות (למשל, גנים או חלבונים), זה עשוי להיות מצטבר למספר גורמים בזמן שהרעש מופחת. ניתן להשתמש ברגולציה כדי להגדיל את הדלילות של מקדמי המודל, מה שהופך את הגישה למתאימה היטב בהגדרות שבהן מרחב התכונות גדול בעוד שמספר הדגימות מוגבל9.
פרוטוקול זה מציג זרימת עבודה גמישה של ניתוח המשתמש במודל MOFA כדי להציג כיצד לחקור במהירות מערך נתונים מורכב של מולטי-אומיקס ולזקק את דפוסי השונות העיקריים המאפיינים מערך נתונים זה. זרימת העבודה מורכבת משלושה שלבים עיקריים. בשלב הראשון, עיבוד מראש של נתונים והרמוניזציה, מוצגות אסטרטגיות שונות לעיבוד מקדים של נתונים המבוססים על סוגי נתוני קלט שונים (scRNA-seq, פרוטאומיקה, ציטוקינים, נתונים קליניים). הפרוטוקול מפרט כיצד לעבד את התכונות של מערכי נתוני הקלט השונים, לסנן תכונות באיכות נמוכה ולנרמל אותן כדי ליצור הרמוניה בין ההתפלגויות שלהן. אנו גם מראים כיצד החלטות קדם-עיבוד אלה עשויות להשפיע על התוצאות במורד הזרם. בשלב השני, מודל MOFA מוחל על הנתונים, וניתן להשתמש בפירוק השונות המתקבל כדי להעריך את השילוב של מערכי הנתונים השונים. השלב השלישי מראה כיצד לקשר את הגורמים שנלכדו למשתנים משותפים ולחשוף את התוכניות המולקולריות המגדירות גורמים אלה. בעזרת זרימת העבודה שהוצגה, הצלחנו לחלץ מספר גורמים סמויים הקשורים לקו-משתנים קליניים במערך נתונים של חולים הסובלים מתסמונות כליליות ולזהות תוכניות חיסון רב-תאיות פוטנציאליות מפרויקט קודם11. אנו נשתמש במערך נתונים זה כאן, אך ניתן להחיל את הפרוטוקול בקלות על הקשרים אחרים, כולל omics אחרים.
מערך הנתונים מורכב מדגימות ממטופלים עם תסמונות כליליות כרוניות יציבות (CCS), תסמונות כליליות חריפות (ACS) וקבוצת ביקורת עם מחלות לב כליליות בריאות (שאינן CCS) (איור 1). ACS נגרמת על ידי קרע פלאק ב- CCS קיים, המוביל להפרעה חריפה של זרימת הדם לשריר הלב ופגיעה איסכמית של הלב לאחר מכן. פגיעה זו גורמת לתגובה דלקתית של מערכת החיסון ולאחריה שלב מתקן, שנמשך עד מספר ימים לאחר האירוע החריף12. כדי לאפיין תגובה חיסונית זו עבור חולי ACS, דגימות דם נלקחו בארבע נקודות זמן שונות: אקוטי (TP1); לאחר חידוש (14 [± 8] ח) (TP2); 60 [± 12] שעה מאוחר יותר (TP3); לפני השחרור (6.5 [±1.5] ימים) (TP4) (איור 1A). עבור CCS וחולים עם מחלות לב כליליות בריאות, רק נקודת זמן אחת הייתה זמינה- (TP0). עבור כל החולים ונקודות הזמן נמדדו בדיקות שונות המבוססות על דגימות הדם: סמנים קליניים של דלקת (קריאטין-קינאז (CK), CK-MB, טרופונין, חלבון מגיב C (CRP)), scRNA-seq של תאי דם חד-גרעיניים היקפיים (PBMCs), ניתוח ציטוקינים, פרוטאומיקה פלזמה ונתוני Prime-seq13 של נויטרופילים.
איור 1: ערכת נתונים של קלט מולטי-אומי של אוטם שריר הלב. ערכת נתוני קלט: הנתונים המנותחים כוללים דגימות דם מחולים (n = 62) עם תסמונת כלילית חריפה (ACS), תסמונות כליליות כרוניות (CCS) וחולים עם כליליים בריאים (שאינם CCS). עבור חולי ACS דגימות דם נכללו בארבע נקודות זמן שונות (TP1-4), עבור CCS וחולים שאינם CCS בנקודת זמן אחת (TP0). כל שילוב של מטופל ונקודת זמן מטופל כמדגם נפרד בניתוח. בדיקות OMIC שונות נמדדו על הדגימות: בדיקות דם קליניות (n = 125), scRNA-seq (n = 121), פלזמה-פרוטאומיקה (n = 119), בדיקת ציטוקינים (n = 127) ונויטרופילים prime-seq (n = 121). לאחר מכן, הפרוטוקול המתואר יושם כדי לשלב את הנתונים בכל האומיקה ולחקור אותם באמצעות מודל MOFA וניתוח במורד הזרם (ניתוח גורמים, העשרת מסלולים). אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
כקלט עבור זרימת העבודה כפי שמוצג כאן, אנו לוקחים ספירות גולמיות מנתוני scRNA-seq לאחר עיבוד עם cellranger ובקרת איכות (QC) כמתואר לדוגמה, במדריך העיבוד מראש של scanpy14 . עבור ביאור מסוג תא, השתמשנו בצינור Azimuth15 האוטומטי. לאחר מכן הספירות נצברות ברמת המדגם עבור כל סוג תא על-ידי לקיחת הממוצע על פני כל התאים עבור כל דגימה וסוג תא (צבירה פסאודו-בתפזורת). פלזמה-פרוטאומיקה נכללת כעוצמות מנורמלות וממוקדות חציון, ועבור נויטרופילים, אנו לוקחים את ספירת האקסון של המזהה המולקולרי הייחודי של UMI (UMI) מהפריים-סק. על ציטוקינים וערכים קליניים, לא יושם עיבוד מקדים קודם. פרטים נוספים על הפקת הנתונים (הניסיוניים) מפורטים בכתב היד המקביל11. מכיוון שהתוצאות המוצגות כאן מבוססות על שימוש בביאור האזימוט האוטומטי עבור סוגי תאים בנתוני scRNA-seq בהשוואה לאסטרטגיה מבוססת הסמן ששימשה בפרסום המוזכר, התוצאות המוצגות כאן דומות אך לא בדיוק זהות לאלה שהוצגו בפרסום. בכתב היד ניתן להראות כי אסטרטגיית הביאור מסוג התא אינה משנה את הדפוסים העיקריים ואת הפרשנויות הביולוגיות של הניתוח, אך שינויים קטנים בערכים המדויקים הנובעים מהמודל עשויים להשתנות. בסך הכל, נתוני הקלט היו מערך נתונים רב-ממדי מורכב הכולל נקודות זמן שונות ורמות מדידה שונות (תאים בודדים לעומת תפזורת) של יותר מ-10,000 תכונות שונות (גנים, חלבונים, ערכים קליניים). אסטרטגיה קפדנית של עיבוד מקדים והרמוניזציה של נתונים ואחריה ניתוח MOFA הוכחה ככלי שימושי ומהיר לחקר הנתונים ולחילוץ תוכנית חיסונית רלוונטית. כל נקודת זמן ושילוב מטופלים מטופלים כמדגם עצמאי בניתוח MOFA. כל סוג נתונים וסוג תא נחשבים לתצוגה נפרדת בניתוח MOFA.
פרוטוקול זה מספק הוראות להכנת נתוני הקלט עבור זרימת העבודה, ביצוע שלבי זרימת העבודה השונים, התאמה אישית של תצורות, פירוש הנתונים המתקבלים והתאמה איטרטיבית של התצורות בהתבסס על הפרשנויות. סקירה כללית של השלבים השונים של הפרוטוקול, ערכות נתוני הקלט הנדרשות בכל שלב, והנתונים ומערכי הנתונים המתקבלים ניתנת על-ידי סקירת זרימת העבודה הטכנית (איור 2).
איור 2: מבט כולל על זרימת עבודה טכנית. מתווה זרימת העבודה לניתוח ערכת הנתונים multi-omics. האלמנטים השונים מודגשים על ידי צבעים וסמלים שונים. מחברות Jupyter השייכות לשלב עיבוד מראש והרמוניזציה של נתונים (1) צבועות בכחול. מחברות יופיטר השייכות לשלב 'מודל MOFA' (2) צבועות בכתום. מחברות יופיטר השייכות לשלב 'ניתוח במורד הזרם' (3) צבועות בירוק. מחברת יופיטר אחת שתשמש להשוואת התוצאות צבועה בצהוב. קבצי תצורה שבהם ניתן לשנות פרמטרים לביצוע זרימת העבודה מודגשים בסגול. ערכות נתונים של קלט הדרושות להפעלת זרימת העבודה מסומנות על-ידי סמל ערכת הנתונים ומודגשות באפור. כל פלטי האיור הנוצרים במהלך ביצוע זרימת העבודה מסומנים על-ידי סמל זכוכית המגדלת. ערכות נתונים שנוצרו במהלך ביצוע זרימת עבודה מסומנות כטבלאות. באופן כללי, זרימת העבודה מבוצעת ברצף: (1) עיבוד מקדים והרמוניזציה של נתונים מורכב משני שלבים: הדור הראשון של טבלה פסאודו-תפזורת המבוססת על נתוני הקלט scRNA-seq (01_Prepare_Pseudobulk) ולאחר מכן אינטגרציה ונורמליזציה של נתונים אלה יחד עם כל הקלטים האחרים ברמת המדגם (בתפזורת) (02_Integrate_and_Normalize_Data). במסגרת שלב זה באמצעות קבצי התצורה, ניתן להגדיר עבור כל ערכת נתונים בנפרד איזה משלבי העיבוד מראש והנורמליזציה שצוינו (לדוגמה, מסנן לדוגמה) יש ליישם. (2) 'מודל MOFA': מפעיל את מודל MOFA על הקלט שנוצר של השלב הראשון עם התצורות שצוינו בקובץ התצורה (03_MOFA_configs.csv) (3) 'ניתוח במורד הזרם': מורכב משלוש מחברות שונות שניתן להריץ בנפרד זו מזו כדי להפיק תובנות לגבי תוצאות MOFA שנוצרו ולשייך אותן למטא-נתונים לדוגמה (קובריאטים) שסופקו כקלט באמצעות קובץ 'מטא Data.csv לדוגמה'. (4) 'השוואת מודלים': הוא שלב נפרד קטן שניתן להשתמש בו כדי להשוות מודלים שונים שנוצרו בשלב 2. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
תהליך העבודה מורכב ממספר מחברות Jupyter שנכתבו ב-R וב-Python (ידע בשפת R ו-Python אינו נדרש להפעלת זרימת העבודה, אך עשוי להיות שימושי במקרה של הופעת שגיאות). בשלבים שונים של הפרוטוקול, פרמטרים משתנים באמצעות קבצי תצורה (קבצי '.csv' המכילים את הקידומת '_Configs' בשם). בתוך הפרוטוקול, אנו מתארים רק את הפרמטרים שיש לשנות החל מתצורת ברירת המחדל.
מספר פרמטרים אחרים עשויים להשתנות גם, למשל כדי להתאים אישית את העיבוד מראש. תיעוד של פרמטרים והסברים אלה ניתן בקובץ 'Documentation_Config_Parameter', הכלול במאגר שהורדת.
1. הכנות: התקנה והתקנה טכניות
הערה: כדי להפעיל תוכנית זו, יש להתקין מראש את wget , git ו- Apptainer בהתקן. מדריך להתקנת Apptainer במערכות שונות (Linux, Windows, Mac) ניתן כאן: https://apptainer.org/docs/admin/main/installation.html. מידע התקנה על git ניתן למצוא כאן: https://git-scm.com/book/en/v2/Getting-Started-Installing-Git. בהתאם לגודל של ערכות נתוני הקלט השונות, מומלץ להפעיל את זרימת העבודה במחשב מתאים (16 CPU, 64GB זיכרון). ניתן לבצע בדיקת עשן עם הנתונים לדוגמה שסופקו במחשב המקומי. הוראות ופלטים צפויים מהפעלת הפרוטוקול על הנתונים לדוגמה ניתנים בקובץ משלים 1. עיין בקובץ וידאו משלים 1 לקבלת השלבים החשובים של הפרוטוקול המבוצעים במערך הנתונים המתואר לעיל.
2. אתחול והכנת נתונים
איור 3: קלט נתונים והגדרתם. לצורך ביצוע זרימת העבודה, יש לאחסן את כל הנתונים בתיקיית input_data שצוינה. עבור כל ערכת נתוני קלט יש לספק קובץ נפרד. נתונים של תא בודד צריכים להינתן כ- .h5ad המכיל ביאור תאים ב- cluster_id (הנובע למשל משלבי ביאור קודמים מסוג תא) ועמודת sample_id (המזהה באופן ייחודי כל מדגם נפרד שיש לנתח). כל שאר מערכי נתוני הקלט צריכים להינתן בתבנית '.csv', כולל עמודה אחת המציינת את sample_id (התאמה לעמודה המתאימה של הנתונים בתא בודד) ותכונות שישמשו בניתוח MOFA בכל העמודות האחרות. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
איור 4: קובצי תצורה של Jupyter-lab. במהלך ביצוע זרימת העבודה, שינויים בפרמטרים (למשל, התאמת אפשרויות סינון וכו ') מוגדרים באמצעות קבצי תצורה '.csv'. בתוך המאגר המשוכפל, נכללים קבצי תצורה המוגדרים כברירת מחדל עבור כל שלב. ניתן לערוך אותם ישירות במסוף מעבדת יופיטר, בדומה לגיליון אלקטרוני. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
איור 5: סקריפטים של Jupyter-notebooks. זרימת העבודה המלאה מורכבת מסדרה של מחברות Jupyter שיבוצעו ברצף לאחר שינוי קבצי התצורה המתאימים. על ידי לחיצה כפולה על מחברת יופיטר בצד שמאל, הקובץ המתאים ייפתח בצד ימין. ניתן להתחיל את הביצוע המלא של הקובץ עם הלחצן המודגש בחלק העליון. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
3. עיבוד מקדים והרמוניזציה של נתונים
איור 6: עיבוד מקדים והרמוניזציה של נתונים. אחד התוצרים של שלב '01_Prepare_Pseudobulk' הוא העלילה 'Fig01_Amount_of_Cells_Overview'. כאן, עבור כל cluster_id (ציר y המציין את סוג התא משלבי ביאור קודמים של סוג תא), ניתן מספר התאים לכל דגימה ('sample_id'). בתוך התוצאות המוצגות, סוגי תאים עם כמות נמוכה של תאים לכל מדגם אינם נכללים בניתוח הבא (מסומן על ידי קו חוצה). אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
4. הפעלת MOFA
5. ניתוח במורד הזרם
6. השוואת תצורות וגרסאות שונות (איור משלים 1, תרשים משלים 2, תרשים משלים 3, תרשים משלים 4)
7. הרחבת זרימת העבודה: הוספת פרמטרים ותצורות אחרות
הערה: מלבד הפרמטרים הניתנים כעת להגדרה בקבצי התצורה, ייתכן שייכללו התאמות אחרות בקוד או בפרמטרים אחרים. לדוגמה, מודל MOFA עצמו מציע מספר פרמטרי אימון אחרים17 שניתן לשנות ישירות בקוד או לבצע כוונון באמצעות קבצי התצורה. החלק הבא של הפרוטוקול יתאר דוגמה כיצד לעשות זאת עבור פרמטרים נוספים של אימון מודל MOFA. עבור חלק זה, נדרש ידע בתכנות R.
לאחר ביצוע מוצלח של זרימת העבודה, נוצרות מספר טבלאות ואיורים כפי שמצוין באיור 2. האיורים ימוקמו בתיקייה /figures (איור 6, איור 7, איור 8, איור משלים 1, איור משלים 2, איור משלים 3, <...
עם הפרוטוקול המתואר, מוצגת זרימת עבודה מודולרית וניתנת להרחבה המבוססת על מחברת Jupyter, שניתן להשתמש בה כדי לחקור במהירות מערך נתונים רב-אומי מורכב. החלקים העיקריים של זרימת העבודה כוללים את החלק של עיבוד מראש והרמוניזציה של נתונים (המציע שלבים סטנדרטיים שונים לסינון ונורמ...
המחברים מצהירים כי אין ניגוד עניינים.
C.L. נתמך על ידי אגודת הלמהולץ תחת בית הספר למחקר משותף "Munich School for Data Science - MUDS".
Name | Company | Catalog Number | Comments |
Apptainer | NA | NA | https://apptainer.org/docs/admin/main/installation.html |
Compute server or workstation or cloud (Linux, Mac or Windows environment). Depending on the size of the different input datasets we recommend running the workflow on a suitable machine (in our setting we use: 16 CPU, 64GB Memory) | Any manufacturer | 16 CPU, 64GB Memory | Large Memory is only required for the processing of the raw single cell data. After preprocessing the later analysis steps can also be performed on regular desktop or laptop computers |
git | NA | NA | https://git-scm.com/book/en/v2/Getting-Started-Installing-Git |
GitHub | GitHub | NA | https://github.com/heiniglab/mofa_workflow |
Request permission to reuse the text or figures of this JoVE article
Request PermissionThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. All rights reserved