Method Article
על ידי הפעלת כלי המחקר של איגוד הנתיבים (PAST), באמצעות היישום הנוצץ או באמצעות קונסולת R, החוקרים יכולים לקבל הבנה עמוקה יותר של המשמעות הביולוגית של תוצאות מחקר הקשר הגנום שלהם (GWAS) על ידי חקירת המסלולים המטבוליים המעורבים.
לאחרונה, יישום חדש של שיטה שתוארה בעבר לפענוח נתוני מחקר איגוד גנום רחב (GWAS) באמצעות ניתוח מסלול מטבולי פותח ושוחרר. כלי המחקר של איגוד הנתיבים (PAST) פותח כדי לטפל בדאגות עם ידידותיות למשתמש ניתוחים איטיים. כלי חדש וידידותי למשתמש זה שוחרר על Bioconductor ו Github. בבדיקות, PAST ביצעה ניתוחים בפחות משעה שדרשו בעבר עשרים וארבע שעות או יותר. במאמר זה, אנו מציגים את הפרוטוקול לשימוש ביישום מבריק או במסוף R להפעלת PAST.
מחקרי אסוציאציה כלל-גנומית (GWAS) הם שיטה פופולרית לחקר תכונות מורכבות והאזורים הגנומיים הקשורים אליהם1,2,3. בסוג זה של מחקר, מאות אלפי סמני פולימורפיזם נוקלאוטיד יחיד (SNP) נבדקים על הקשר שלהם עם התכונה, ואת המשמעות של האסוציאציות מוערך. שיוכים בעלי תכונות סמן העונים על סף שיעור גילוי כוזב (FDR) (או סוג אחר של סף משמעות) נשמרים עבור המחקר, אך ניתן לסנן שיוכים אמיתיים. עבור תכונות מורכבות, פוליגניות, ההשפעה של כל גן עשויה להיות קטנה (ובכך מסוננת החוצה), וכמה אללים באים לידי ביטוי רק בתנאים ספציפיים שעשויים שלא להיות נוכחים במחקר3. לכן, בעוד SNPs רבים עשויים להישמר כמזוהה עם התכונה, כל אחד עשוי להיות השפעה קטנה מאוד. יותר מדי שיחות SNP יחסרו, ופרשנות של המשמעות הביולוגית והארכיטקטורה הגנטית של התכונה עשויה להיות לא שלמה ומבלבלת. ניתוח מסלול מטבולי יכול לעזור לטפל בכמה מבעיות אלה על ידי התמקדות בהשפעות המשולבות שלגניםהמקובצים לפי הפונקציה הביולוגית שלהם 4,5,6.
מספר מחקרים הושלמו באמצעות יישום קודם של השיטה המתוארת במאמר זה. הצטברות Aflatoxin7, התנגדות תולעי אוזני תירס8, וביוסינטזה שמן9 נחקרו כולם עם היישום הקודם. בעוד שניתוחים אלה היו מוצלחים, תהליך הניתוח היה מסובך, גוזל זמן ומסורבל, מכיוון שכלי הניתוח נכתבו בשילוב של R, פרל ובאש, והצינור לא היה אוטומטי. בגלל הידע המיוחד הנדרש לשינוי שיטה זו עבור כל ניתוח, פותחה כעת שיטה חדשה שניתן לשתף עם חוקרים אחרים.
כלי הלימוד של איגוד הנתיבים (PAST)10 נועד לטפל בחסרונות של השיטה הקודמת על ידי דרישת פחות ידע בשפות תכנות ועל ידי הפעלת ניתוחים בתקופה קצרה יותר. בעוד שהשיטה נבדקה בתירס, PAST אינה מניחה הנחות ספציפיות למינים. העבר יכול להיות מופעל באמצעות קונסולת R, כאפליקציה מבריקה, וגרסה מקוונת צפויה להיות זמינה בקרוב ב- MaizeGDB.
1. התקנה
2. התאמה אישית של ניתוח מבריק (אופציונלי)
איור 1. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.
3. טען נתוני GWAS
הערה: ודא כי נתוני GWAS מופרדים באמצעות כרטיסיות. ודא שקובץ השיוך מכיל את העמודות הבאות: תכונה, שם סמן, לוקוס או כרומוזום, מיקום על ערך הכרומוזום, p-value ו- R2 עבור הסמן. ודא שקובץ האפקטים מכיל את העמודות הבאות: תכונה, שם סמן, לוקוס או כרומוזום, מיקום על הכרומוזום ואפקט. סדר עמודות אלה אינו חשוב, שכן המשתמש יכול לציין את שמות העמודות בעת טעינת הנתונים. המערכת מתעלמת מעמודות נוספות. ניתן להשתמש ב- TASSEL13 כדי להפיק קבצים אלה.
איור 2. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.
4. נתוני אי-שוויון הצמדה לטעינה (LD)
הערה: ודא כי נתוני אי-שוויון ההצמדה (LD) מופרדים באמצעות כרטיסיות ומכילה את סוגי הנתונים הבאים: לוקוס, מיקום1, Site1, Position2, Site2, מרחק בזוגות בסיס בין מיקום1 ל- Position2 וערך R2.
איור 3. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.
5. הקצה SNPs לגנים
הערה: הורד או אתר ביאורים באופן אחר בתבנית GFF. ביאורים אלה ניתן למצוא לעתים קרובות במסדי נתונים מקוונים עבור אורגניזמים ספציפיים. היזהרו לגבי ביאורים באיכות נמוכה, שכן איכות נתוני הביאורים תשפיע על איכות ניתוח המסלול. ודא שהעמודה הראשונה של ביאורים אלה (הכרומוזום) תואמת לתבנית הלוקוס/כרומוזום בנתוני השיוך, האפקטים וה- LD. לדוגמה, הביאורים לא צריכים לקרוא לכרומוזום הראשון "chr1" אם קבצי הנתונים GWAS ו- LD מכנים את הכרומוזום הראשון "1".
איור 4. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.
6. גלה מסלולים משמעותיים
הערה: ודא שקובץ הנתיבים מכיל את הנתונים הבאים בתבנית מופרדת באמצעות טאבים, עם שורה אחת עבור כל גן בכל מסלול: מזהה מסלול - מזהה כגון "PWY-6475-1"; תיאור מסלול - תיאור ארוך יותר של מה המסלולים לעשות כגון "טרנס-ליקופן biosynthesis"; גן - גן במסלול, אשר צריך להתאים את השמות המסופקים ביאורים. מידע מסלול ניתן למצוא ככל הנראה במסדי נתונים מקוונים עבור אורגניזמים ספציפיים, כגון MaizeGDB. האפשרות השנייה שצוינה על-ידי המשתמש היא המצב. "הגדלת" מתייחס פנוטיפים המשקפים כאשר ערך עולה של התכונה הנמדדת רצוי, כגון תשואה, בעוד "ירידה" מתייחס תכונה שבה ירידה בערכים הנמדדים מועילה, כגון דירוגי נזק חרקים. המשמעות של מסלולים נבדקת בשיטות שתוארו בעבר4,6,14.
איור 5. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.
הערה: מספר הליבות והמצב שהוגדר בתחילת ניתוח ה- PAST Shiny (שלב 2.2) משמש בשלב זה. מספר ברירת המחדל של הגנים מוגדר כיום על 5 גנים, כך שמסלולים עם פחות גנים ידועים יוסרו. המשתמש יכול להוריד ערך זה ל- 4 או 3, כדי לכלול מסלולים קצרים יותר, אך פעולה זו תסתכן בתוצאות חיוביות שגויות. הגדלת ערך זה יכולה להגדיל את כוח הניתוח אך תסיר מסלולים נוספים מהניתוח. שינוי מספר התמורות המשמשות מגדיל ומקטין את כוח הבדיקה.
7. צפו ברוגפלוטס
איור 6. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.
איור 7. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.
אם התוצאות אינן מיוצרות לאחר הפעלה של כלי התוכנה PAST, ודא שכל קבצי הקלט מעוצבים כראוי. ריצה מוצלחת באמצעות הנתונים לדוגמה בחבילת PAST, המבוססים על תירס GWAS בצבע תבואה, מוצגת באיור 8. ניתן להוריד טבלה זו ואת התמונה המתקבלת באמצעות לחצן הורד תוצאות. דוגמה לתמונה שהורדה מוצגת באיור 210. הגדרות שגויות עשויות להוביל לתוצאות שאינן הגיוניות ביולוגית, אך קביעת אי-תקינות חייבת להיות תלויה אצל החוקר, שצריך לבדוק שוב את תוקפן של ההגדרות שנבחרו ולשקול את כל הראיות הידועות לגבי תכונת העניין.
איור910 מציג את הרוגלוט שהופק מניתוח המסלול של תוצאות GWAS שנוצרו עם לוח תירס של 288 קווים מלידה שהופקו לצבע התבואה. דוגמה פשטנית זו, שבה הפנוטיפים היו "לבנים" או "צהובים", שימשה מכיוון שהמסלול האחראי ליצירת פיגמנטים קרוטנואידים צהובים בהירים ידוע וצריך להיות אחראי לרוב הפנוטיפ. לכן, ציפינו לראות את מסלול הביוסינתזה טרנס-ליקופן (המייצר קרוטנואידים) להיות קשור באופן משמעותי עם צבע התבואה, וזה. מזהה הנתיב והשם מפורטים בחלק העליון של הגרף. הציר האופקי של הגרף מדרג את כל הגנים שנכללו בניתוח, המסודרים משמאל לימין לפי סדר ההשפעה הגדולה ביותר על התכונה לקטנה ביותר. עם זאת, רק הגנים במסלול הביוסינתזה הטרנס-ליקופן מסומנים (בחלק העליון של הגרף, כסימני צוהר, המופיעים בדירוג הגנים של השפעתם בהשוואה לכל הגנים האחרים בניתוח). יש 7 גנים במסלול הזה. ציון העשרת הריצה (ES) מתוות לאורך הציר האנכי. ה- ES עבור כל גן מתווסף לסך הכל הפועל לפי סדר ההשפעה והסכום הכולל מותאם למספר הגנים שנותחו. לכן, הציון משתנה ככל שאדם נע ממש לאורך הציר האופקי ונוטה לגדול ככל שהגנים בעלי ההשפעה הגדולה יותר כלולים, אך בשלב מסוים, הגידול בהשפעה קטן יותר מההתאמה להוספת גן אחר, והציון כולו מתחיל לרדת. פסגת קו ה- ES הפועל מסומנת בקו אנכי מנוקד; זהו ES עבור המסלול כולו והוא משמש את התוכנית כדי לקבוע אם המסלול נבחר ומוצג כמו רוגלוט.
איור 8: הריצה המוגמרת של PAST Shin. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
איור 9: תמונת מסלול מהפעלה שהושלמה של PAST (או הורדה מ-Shin). נתון זה צוטט מתרש ואח '10. אנא לחץ כאן כדי להציג גירסה גדולה יותר של איור זה.
המטרה העיקרית של העבר היא להביא ניתוחי מסלול מטבוליים של נתוני GWAS לקהל רחב יותר, במיוחד עבור אורגניזמים שאינם אנושיים ולא בעלי חיים. שיטות חלופיות ל-PAST הן לעתים קרובות תוכניות שורת פקודה המתמקדות בבני אדם או בבעלי חיים. ידידותיות למשתמש הייתה מטרה עיקרית בפיתוח של PAST, הן בבחירה לפתח יישום מבריק והן בבחירה להשתמש R ו Bioconductor לשחרר את היישום. משתמשים אינם צריכים ללמוד כיצד לבצע הידור תוכניות כדי להשתמש ב- PAST.
כמו ברוב סוגי תוכנות הניתוח, התוצאות של PAST טובות רק כמו נתוני הקלט; אם נתוני הקלט כוללים שגיאות או מעוצבים באופן שגוי, הפונקציה PAST לא תפעל או תפיק תוצאות לא חשובות. הקפדה על עיצוב נכון של נתוני GWAS, נתוני LD, ביאורים ומסלולים היא קריטית לקבלת פלט נכון מ- PAST. PAST מנתחת סמנים דו-אלליים בלבד ויכולה להפעיל תכונה אחת בלבד עבור כל קבוצה של נתוני קלט. בנוסף, נתוני GWAS המיוצרים על ידי genotyping המסכן או פנוטיפינג שגוי או לא מדויק אינו צפוי לייצר תוצאות ברורות או חוזרות על עצמן. העבר יכול לסייע בפרשנות הביולוגית של תוצאות GWAS, אך לא סביר שיבהיר ערכות נתונים כאוטיות אם וריאציה סביבתית, שגיאה ניסיונית או מבנה האוכלוסייה לא נלקחו בחשבון כראוי.
משתמשים יכולים לבחור לשנות פרמטרים מסוימים של הניתוח, הן ביישום Shiny והן על-ידי העברת פרמטרים אלה לפונקציות של PAST במסוף R. פרמטרים אלה יכולים לשנות את התוצאות שדווחו על-ידי PAST, ועל המשתמשים לדאוג בעת שינוי אלה מברירות המחדל. מאחר ש- LD נמדד על-ידי המשתמשים, בדרך כלל באמצעות אותה ערכת נתוני סמן ששימשה גם ב- GWAS, מדידות LD ספציפיות לאוכלוסייה. עבור כל המחקרים, במיוחד עבור מינים שאינם תירס, (במיוחד האבקה עצמית, פוליפלואיד, או מינים הטרוגניים מאוד), שינויים בברירות המחדל עשויים להיות מוצדקים.
למחברים אין מה לחשוף.
ללא.
Name | Company | Catalog Number | Comments |
Computer | NA | NA | Any computer with 8GB RAM should be sufficient |
R | R Project | NA | R 4.0 or greater is required to install from Bioconductor 3.11 |
An erratum was issued for: A Pathway Association Study Tool for GWAS Analyses of Metabolic Pathway Information. One of the affiliations was updated.
The second affiliation was updated from:
USDA-ARS Corn Host Plant Resistance Research Unit, Mississippi State University
to:
Corn Host Plant Resistance Research Unit, USDA-ARS
Request permission to reuse the text or figures of this JoVE article
Request PermissionThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. All rights reserved