שלוש שיטות ניתוח ביטוי דיפרנציאליות לרצף RNA:לימה, EdgeR ו- DESeq2. פתח את תוכנית RStudio ולאחר מכן טען קובץ R, DEGs. ניתן לרכוש את הקובץ מקבצים משלימים. אחד.
הורדה ועיבוד מראש של data.1.1. הורד את נתוני ספירת הריצוף בעל התפוקה הגבוהה של כולנגיוקרצינומה מהאטלס של הגנום הסרטני. כרטיסיה זו יכולה להשיג בקלות על-ידי הקוד הבא.
לחץ על הפעל כדי להתקין את חבילת ה- R. לחץ על הפעל כדי לטעון חבילת R. הגדר ספריית עבודה.
בחר את סוג הסרטן. הפעל קוד R מקובץ GDCquery כדי להוריד את הנתונים. קובץ GDCquery ניתן לרכוש מקבצים משלימים / סקריפטים.
לאחר ביצוע, ניתן להוריד את נתוני ספירת הרצף של Cholangiocarcinoma RNA ולהיקרא CNT, כאשר שורות מייצגות מזהי גנים ועמודות של הרכב מייצגים מזהי סמלים. אנא שימו לב למספרים במיקום 14 עד 15 בתמותות הסמלים. המספרים נעים בין 01 ל-09 מצביעים על גידולים ו-10 עד 19 מצביעים על רקמות רגילות.1.2.
שיחה של מזהי גנים אנסמבל לסמלים גנטיים. יבא את קובץ הביאורים ל- R, בהתאם לנתיב האחסון שלו. ניתן לרכוש את קובץ הביאורים מקבצים משלימים.
הפעל את קוד ה- R מקובץ gtf v22. אשר ניתן לרכוש מקבצים משלימים / סקריפטים. החל את פונקציית inn ולהמיר את זהות הגן של ההרכב לסמלים גנטיים.1.3.
סנן גנים בעלי לבטא נמוך. לחץ על הפעל כדי להתקין את edgeR החבילה"לחץ על הפעל כדי לטעון את edgeR חבילת R"הפעל בעקבות קוד R כדי לשמור על גנים עם ספירות למיליון ערכים הגדולים מאחד לפחות שתי דוגמאות. שניים. ניתוח ביטוי דיפרנציאלי באמצעות limma"לחץ על הפעל כדי להתקין את לימה חבילת R"לחץ על הפעל כדי לטעון חבילת R limma"edgeR"הפעל את קוד R הבא כדי ליצור מטריצת עיצוב.
חלץ מידע קבוצתי. הגדר 01 "כרקמת הגידול. הגדר 11 "כרקמה נורמלית.
צור מטריצת עיצוב. צור את האובייקט DGEList. לנרמל את הנתונים.
הפעל את קוד ה- R הבא כדי לבצע את ניתוח הביטוי הדיפרנציאלי המבוסס על שיטת מגמת לימה. חשב את ערך ה- CPM. לחץ על הפעל כדי להתאים למודל ליניארי כדי לחזות את הנתונים או להסיק את קשר הגומלין בין משתנים.
חשב ערך T, ערך F וסיכויי יומן רישום בהתבסס על בייסיאן. חלץ את טבלת התוצאות. התוצאות של ניתוח ביטוי דיפרנציאלי נשמרות ב- res_limma", הכוללת את ערך השינוי של הקיפול של log2.
רמת הביטוי הממוצעת של הגן בניסוי. סטטיסטיקת T שהשתנתה, ערך P, שיעור הגילוי השגוי תוקן p ערך ואת סיכויי יומן הרישום של גנים מבוטאים באופן דיפרנציאלי. זהה את הגנים המבוטאים באופן דיפרנציאלי.
אז ערך P המותאם פחות מ- 0.05, והערך המוחלט של שינוי יומן רישום כפול גדול או שווה לשניים הם סף כדי לסנן את הגנים המבוטאים באופן דיפרנציאלי. התוצאות res limma מראה כי בהשוואה עם הרקמות הרגילות, 1, 443 גנים הם מוסדר, ו 1, 880 גנים מווסתים למטה ברקמות Cholangiocarcinoma. פלט טבלת התוצאות לקובץ.
לחץ על הפעל כדי להתקין חבילת R ggplot2"לחץ על הפעל כדי לטעון חבילת R ggplot2"הפעל קוד R מקובץ הר הגעש כדי ליצור את חלקת הר הגעש ואת הר הגעש קובץ ניתן לרכוש מקבצים משלימים. ניתן למפות גנים למיקומים שונים בהתאם לשינוי הקיפול של log2 וערכי P מותאמים. אז גנים המוסדרים באופן דיפרנציאלי נצבעים באדום.
והגנים המווסתים בדיפרנציה נצבעים בירוק. לחץ על ייצוא"כדי להציל את חלקת הר הגעש. שלוש. ניתוח ביטוי דיפרנציאלי באמצעות edgeR"לחץ על הפעל כדי לטעון את EdgeR חבילת R"הפעל את קוד ה- R הבא כדי ליצור מטריצת עיצוב.
לחץ על הפעל כדי ליצור את אובייקט DGEList ולנרמל את הנתונים. לחץ על הפעל כדי להעריך את הפיזור של ערך ביטוי הגנים. לחץ על הפעל כדי להתאים מודל לספירת נתונים.
ערוך בדיקה סטטיסטית. חלץ את טבלת התוצאות. התוצאה נשמרת ב- res edgeR", הכולל את ערך שינוי קיפול יומן הרישום, logCPM, F, p value וקצב הגילוי השגוי שתוקן p.
זהה את הגנים המבוטאים באופן דיפרנציאלי. התוצאה res edgeR"מראה כי בהשוואה עם הרקמות הרגילות, 3, 121 גנים הם מוסדר, ו 1, 578 גנים מווסתים למטה ברקמות Cholangiocarcinoma. פלט טבלת התוצאות לקובץ.
צור את חלקת הר הגעש. לחץ על ייצוא כדי להציל את חלקת הר הגעש. ארבע. ניתוח ביטויים דיפרנציאליים באמצעות DESeq2.
לחץ על הפעל כדי להתקין את חבילת R DESeq2"לחץ על הפעל כדי לטעון את חבילת R DESeq2"הפעל את קוד ה- R הבא כדי לקבוע את גורם המישוש. צור את אובייקט ערכת הנתונים DESeq2. בצע ניתוח.
צור את טבלת התוצאות. התוצאה נשמרת ב- res DESeq2, הכולל את הממוצע של ספירת הקריאה המנורמלת, ערך שינוי קיפול יומן רישום, חץ סטנדרטי לשינוי קיפול יומן, סטטיסטיקת ריתוך, ערך P מקורי וערך P המתוקן. זהה DEGs.
התוצאה res DESeq2 מראה כי בהשוואה עם הרקמות הרגילות, אלפיים תשע מאות ושלושים ושמונה גנים מווסתים, ואלף שש מאות ושש עשרה גנים מווסתים למטה ברקמות Cholangiocarcinoma. פלט טבלת התוצאות לקובץ. צור את חלקת הר הגעש.
לחץ על ייצוא כדי להציל את חלקת הר הגעש. חמש. דיאגרמת ון. לחץ על הפעל כדי להתקין את דיאגרמת ה- Venn של חבילת R.
לחץ על הפעל כדי לטעון את דיאגרמת ה- Venn של חבילת R. הפוך דיאגרמת venn של גנים מוסדר דיפרנציאלי מבוטא. לחץ על ייצוא כדי לשמור את דיאגרמת הטנדר, הפוך דיאגרמת חיתוך קבוצות (Venn) של גנים המוסדרים כלפי מטה.
לחץ על ייצוא כדי לשמור את דיאגרמת ה- Venn. שש. תוצאות מייצגות. איור 1 מראה את חלקות הר הגעש של כל הגנים שנרכשו על ידי לימה, edgeR ו- DESeq2.
ערך p יומן שלילי מותוות כנגד שינוי קיפול יומן הרישום. נקודות אדומות מייצגות את הגנים המוסדרים באופן דיפרנציאלי, והנקודות הירוקות מייצגות את הגנים המווסתים כלפי מטה. לימה מזהה את אלף 800 גנים מווסתים כלפי מטה, ואת אלף ארבע מאות וארבעים ושלושה גנים מוסדרים דיפרנציאליים ברקמות Cholangiocarcinoma.
EdgeR מזהה את אלף 578 הגנים המווסתים בדיפרנציה, ושלושת אלפים מאה ועשרים ואחת גנים מווסתים למעלה. DESeq2 מזהה אלף 6606 גנים המווסתים בדיפרנציה, ואלפיים 938 גנים מווסתים דיפרנציאליים. איור שני, דיאגרמות Venn מציגות חפיפה בין התוצאות המפרידות בין קצוות לימה EDGER ו- DESeq2.
השווה את התוצאות של שלוש השיטות הללו, אלף ארבע מאות ושלושים ואחת גנים מווסתים למעלה מבוטאים באופן דיפרנציאלי, ואלף 531 גנים מוסדרים בדיפרנציה הם חופפים. מסקנה. בפרוטוקול זה, סיפקנו כאן פרוטוקול מפורט של סוגים שונים של ניתוח מידה עבור רצף גבוה של נתוני ספירה באמצעות חבילות R, לימה, edgeR ו- DESeq2. שלוש שיטות יש דומה צוותים בין תהליך הניתוח שלהם.
ואז שלהם משלוש התרופות האלה חופפות חלקית. לכל שלוש התרופות יש יתרונות משלהן. והבחירה תלויה רק בזמן הנתונים שלך.
אם יש את הנתונים הנוכחיים שלי, לימה צריכה להינתן עם עדיפות, אך נתוני ריצוף הדור, ב- edgeR וב- DESeq2 מועדפים.