ניתוח תמלול תפוקה גבוהה לחקירת אינטראקציות בין מארח לפתוגן

André Nicolau Aquime Gonçalves; Vanessa Escolano Maso; Ícaro Maia Santos de Castro; Amanda Pereira Vasconcelos; Rodrigo Luiz Tomio Ogava; Helder I Nakaya

doi:10.3791/62324

A subscription to JoVE is required to view this content. Sign in or start your free trial.

Summary

הפרוטוקול המוצג כאן מתאר צינור שלם לניתוח נתוני תמלול ריצוף RNA מקריאות גולמיות לניתוח פונקציונלי, כולל בקרת איכות וצעדי עיבוד מראש לגישות אנליטיות סטטיסטיות מתקדמות.

Abstract

פתוגנים יכולים לגרום למגוון רחב של מחלות זיהומיות. התהליכים הביולוגיים הנגרמים על ידי המארח בתגובה לזיהום קובעים את חומרת המחלה. כדי לחקור תהליכים כאלה, חוקרים יכולים להשתמש בטכניקות ריצוף תפוקה גבוהה (RNA-seq) המודדות את השינויים הדינמיים של התמלול המארח בשלבים שונים של זיהום, תוצאות קליניות או חומרת המחלה. חקירה זו יכולה להוביל להבנה טובה יותר של המחלות, כמו גם לחשוף מטרות וטיפולים תרופתיים פוטנציאליים. הפרוטוקול המוצג כאן מתאר צינור שלם לניתוח נתוני ריצוף RNA מקריאות גולמיות לניתוח פונקציונלי. הצינור מחולק לחמישה שלבים: (1) בקרת איכות של הנתונים; (2) מיפוי וביאור של גנים; (3) ניתוח סטטיסטי לזיהוי גנים מבוטאים באופן דיפרנציאלי וגנים משותפים; (4) קביעת המידה המולקולרית של ההסתבכויות של דגימות; וניתוח פונקציונלי (5). שלב 1 מסיר ממצאים טכניים שעשויים להשפיע על איכות הניתוחים במורד הזרם. בשלב 2, גנים ממופים ומביאים ביאורים בהתאם לפרוטוקולי הספרייה הסטנדרטיים. הניתוח הסטטיסטי בשלב 3 מזהה גנים המתבטאים באופן דיפרנציאלי או באים לידי ביטוי בדגימות נגועות, בהשוואה לגנים שאינם נגועים. שונות מדגם ונוכחות של חריגים ביולוגיים פוטנציאליים מאומתים באמצעות מידת הגישה המולקולרית של perturbation בשלב 4. לבסוף, הניתוח התפקודי בשלב 5 חושף את המסלולים הקשורים פנוטיפ המחלה. הצינור המוצג נועד לתמוך לחוקרים באמצעות ניתוח נתוני RNA-seq ממחקרי אינטראקציה בין מארח לפתוגן ולהניע ניסויים עתידיים במבחנה או ב- vivo , החיוניים להבנת המנגנון המולקולרי של זיהומים.

Introduction

Arboviruses, כגון דנגי, קדחת צהובה, chikungunya, וזיקה, היו קשורים באופן נרחב עם מספר התפרצויות אנדמיות התגלו כאחד הפתוגנים העיקריים האחראים להדביק בני אדם בעשורים ^{האחרונים1,2}. אנשים נגועים בנגיף chikungunya (CHIKV) לעתים קרובות יש חום, כאב ראש, פריחה, polyarthralgia, דלקת פרקים3,4,5. וירוסים יכולים לחתור תחת ביטוי הגנים של התא ולהשפיע על מסלולי איתות מארח שונים. לאחרונה, מחקרי תמלול דם השתמשו RNA-seq כדי לזהות את הגנים המובעים דיפרנציאלי (DEGs) הקשורים זיהום CHIKV חריף בהשוואה ^הבראה6 או פקדים ^{בריאים7}. לילדים נגועים CHIKV היו גנים מוסדרים המעורבים בחסינות מולדת, כגון אלה הקשורים לחיישנים סלולריים עבור RNA ויראלי, איתות JAK / STAT, ומסלולי איתות קולטן דמוי ^אגרה6. מבוגרים שנדבקו באופן חריף ב- CHIKV הראו גם אינדוקציה של גנים הקשורים לחסינות מולדת, כגון אלה הקשורים למונוציטים והפעלת תאים דנדריטיים, ולתגובות אנטי ^{ויראליות7}. מסלולי האיתות המועשרים בגנים מווסתים כלפי מטה כללו את אלה הקשורים לחסינות אדפטיבית, כגון הפעלת תאי T ובידול והעשרה בתאי T ו- ^B7.

ניתן להשתמש במספר שיטות לניתוח נתוני שעתוק של גנים מארחים ופתוגנים. לעתים קרובות, הכנת ספריית RNA-seq מתחילה בהעשרה של תמלילי פולי-A בוגרים. שלב זה מסיר את רוב הרנ"א ריבוזומלי (rRNA) ובחלק מהמקרים RNAs ויראלי/חיידקי. עם זאת, כאשר השאלה הביולוגית כוללת את זיהוי תעתיק הפתוגן ו- RNA רצפים ללא תלות בבחירה הקודמת, ניתן היה לזהות תמלילים רבים ושונים אחרים על ידי רצף. לדוגמה, mRNAs תת-גנומי הוכחו כגורם חשוב כדי לאמת את חומרת ^{המחלות8}. בנוסף, עבור וירוסים מסוימים כגון CHIKV ו SARS-CoV-2, אפילו ספריות מועשרות poly-A ליצור קריאות ויראליות שניתן להשתמש בהם ניתוחים במורד הזרם9,10. כאשר מתמקדים בניתוח התמלול המארח, חוקרים יכולים לחקור את ההסתבות הביולוגית על פני דגימות, לזהות גנים מבוטאים באופן דיפרנציאלי ומסלולים מועשרים, וליצור מודולי ביטוי משותף7,11,12. פרוטוקול זה מדגיש ניתוחי תמלול של חולים נגועים ב-CHIKV ואנשים בריאים המשתמשים בגישות ביו-אינפורמטיות שונות (איור 1A). נתונים ממחקר שפורסם ^בעבר7 המורכב מ -20 אנשים בריאים ו -39 נדבקים בחריפות שימשו כדי להפיק את התוצאות הייצוגיות.

Protocol

הדגימות המשמשות בפרוטוקול זה אושרו על ידי ועדות האתיקה הן מהמחלקה למיקרוביולוגיה של המכון למדעי הביו-רפואה באוניברסיטת סאו פאולו והן מהאוניברסיטה הפדרלית של סרג'יפה (פרוטוקולים: 54937216.5.0000.5467 ו- 54835916.2.0000.5546, בהתאמה).

1. התקנת שולחן עבודה של Docker

הערה: השלבים להכנת סביבת Docker שונים בין מערכות ההפעלה (OSs). לכן, משתמשי Mac חייבים לבצע את השלבים המפורטים כ- 1.1, משתמשי Linux חייבים לבצע את השלבים המפורטים כ- 1.2, ומשתמשי Windows חייבים לבצע את השלבים המפורטים כ- 1.3.

התקן ב-MacOS.
1. גש לאתר האינטרנט של Get Docker (טבלת חומרים), לחץ על שולחן העבודה של Docker עבור Mac ולאחר מכן לחץ על הקישור הורד מ- Docker Hub .
2. הורד את קובץ ההתקנה על-ידי לחיצה על לחצן קבל Docker .
3. הפעל את הקובץ .dmg Docker כדי לפתוח את תוכנית ההתקנה ולאחר מכן גרור את הסמל לתיקיה יישומים . לוקליזציה וביצוע של Docker.app בתיקיה יישומים כדי להפעיל את התוכנית.
  הערה: התפריט הספציפי לתוכנה בשורת המצב העליונה מציין שהתוכנה פועלת ושה היא נגישה ממסוף.
התקן את תוכנית הגורם המכיל ב- Linux OS.
1. גש לאתר האינטרנט Get Docker Linux (טבלת חומרים) ובצע את ההוראות להתקנה באמצעות מקטע המאגר הזמין בקישור מאגר לינוקס Docker .
2. עדכן את כל חבילות Linux באמצעות שורת הפקודה:
  sudo apt-get update
3. התקן את החבילות הנדרשות ב- Docker:
  sudo apt-get install apt-transport-https ca-certificates curl gnupg lsb-release
4. צור קובץ יצירת מפתחות של ארכיון תוכנה:
  תלתל -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
5. הוסף מידע אודות מד דב של Docker בקובץ המקור.list:
  הד "deb [arch=amd64 חתום על ידי=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) יציב" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
6. עדכן שוב את כל החבילות, כולל החבילות שנוספו לאחרונה:
  sudo apt-get update
7. התקן את גירסת שולחן העבודה:
  sudo apt-get install docker-ce docker-ce-cli containerd.io
8. בחר את האזור הגיאוגרפי ואת אזור הזמן כדי לסיים את תהליך ההתקנה.
התקן את תוכנית הגורמים המכילים ב- Windows OS.
1. גש לאתר האינטרנט של Get Docker (טבלת חומרים) ולחץ על תחילת העבודה. חפש את תוכנית ההתקנה עבור שולחן העבודה של Docker עבור Windows. הורד את הקבצים והתקן אותם באופן מקומי במחשב.
2. לאחר ההורדה, הפעל את קובץ ההתקנה (.exe) ושמור על פרמטרי ברירת המחדל. ודא ששתי האפשרויות התקן רכיבי Windows נדרשים עבור WSL 2 והוספת קיצור דרך לשולחן העבודה מסומנות.
  הערה: במקרים מסוימים, כאשר תוכנה זו מנסה להפעיל את השירות, היא מציגה שגיאה: התקנת WSL אינה שלמה. כדי להבין שגיאה זו, גש לאתר האינטרנט WSL2-Kernel (טבלת חומרים).
3. הורד והתקן את ליבת לינוקס WSL2 העדכנית ביותר.
4. גש למסוף PowerShell כמנהל ובצע את הפקודה:
  dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
5. ודא שהתוכנה Docker Desktop מותקנת בהצלחה.
הורד את התמונה ממאגר CSBL ברכזת Docker (טבלת חומרים).
1. פתח את שולחן העבודה של Docker וודא שהמצב "פועל" בפינה הימנית התחתונה של סרגל הכלים.
2. עבור לשורת הפקודה מסוף PowerShell של Windows. הורד את תמונת הגורם המכיל של Linux עבור פרוטוקול זה ממאגר CSBL ברכזת Docker. בצע את הפקודה הבאה כדי להוריד את התמונה:
  עגינה למשוך csblusp/transcriptome
  הערה: לאחר הורדת התמונה, ניתן לראות את הקובץ בשולחן העבודה של Docker. כדי ליצור את הגורם המכיל, משתמשי Windows חייבים לבצע את שלב 1.5, בעוד שמשתמשי Linux חייבים לבצע את שלב 1.6.
אתחל את הגורם המכיל של השרת ב- Windows OS.
1. הצג את קובץ התמונה Docker במנהל היישומים של שולחן העבודה מסרגל הכלים וגש לדף התמונות.
  הערה: אם תמונת הצינור הורדה בהצלחה, תהיה תמונת csblusp/transcriptome זמינה.
2. הפעל את הגורם המכיל מתמונת csblusp/transcriptome על-ידי לחיצה על לחצן הפעלה . הרחב את ההגדרות האופציונליות כדי לקבוע את תצורת הגורם המכיל.
3. הגדר את שם הגורם המכיל (למשל, שרת).
4. שייך תיקיה במחשב המקומי לתיקיה בתוך המזח. כדי לעשות זאת, קבע את נתיב המחשב המארח. הגדר תיקיה במחשב המקומי כדי לאחסן את הנתונים המעובדים שיורדו בסוף. הגדר את נתיב הגורם המכיל. הגדר וקשר את תיקיית הגורם המכיל csblusp/transcriptome לנתיב המחשב המקומי (השתמש בשם "/opt/transferdata" עבור נתיב הגורם המכיל).
5. לאחר מכן, לחץ על הפעל כדי ליצור את הגורם המכיל csblusp / transcriptome.
6. כדי לגשת למסוף לינוקס מהגורם המכיל csblusp/ transcriptome, לחץ על לחצן CLI.
7. הקלד במסוף bash כדי ליהנות מחוויה טובה יותר. עבור זאת, בצע את הפקודה:
  bash
8. לאחר ביצוע הפקודה bash, ודא שהמסוף מציג (root@<היכוננותID>:/#):
  root@ac12c583b731:/ #
אתחל את הגורם המכיל של השרת עבור Linux OS.
1. בצע פקודה זו כדי ליצור את הגורם המכיל Docker בהתבסס על התמונה:
  docker run -d -it --rm --name server -v <הנתיב ההואסט>:/opt/transferdata csblusp/transcriptome
  הערה: <נתיב הכי טוב>: הגדר נתיב של מחשב התיקיות המקומי.
2. בצע פקודה זו כדי לגשת למסוף הפקודה של הגורם המכיל Docker:
  docker exec -it server bash
3. ודא זמינות של מסוף Linux לביצוע תוכניות/סקריפטים באמצעות שורת הפקודה.
4. לאחר ביצוע הפקודה bash, ודא שהמסוף מציג (root@<היכוננותID>:/#):
  root@ac12c583b731:/ #
  הערה: סיסמת הבסיס היא "transcriptome" כברירת מחדל. אם תרצה, ניתן לשנות את סיסמת הבסיס על-ידי ביצוע הפקודה:
  פס-וואד
5. תחילה, בצע את פקודת המקור כדי addpath.sh כדי להבטיח שכל הכלים יהיו זמינים. בצע את הפקודה:
  מקור /opt/addpath.sh
בדוק את המבנה של תיקיית ריצוף ה- RNA.
1. גש לתיקיה קבצי Script של צינור תמלול וודא שכל הנתונים מרצף RNA מאוחסנים בתוך התיקיה: /home/transcriptome-pipeline/data.
2. ודא שכל התוצאות המתקבלות מהניתוח מאוחסנות בתוך התיקיה של הנתיב /home/transcriptome-pipeline/results.
3. ודא שקבצי הפניה לגנום וביאור מאוחסנים בתוך התיקיה של הנתיב /home/transcriptome-pipeline/datasets. קבצים אלה יסייעו לתמוך בכל הניתוחים.
4. ודא שכל קבצי ה- Script מאוחסנים בתיקיה של הנתיב /home/transcriptome-pipeline/Scripts ומופרדים על-ידי כל שלב כמתואר להלן.
הורד את הביאורים ואת הגנום האנושי.
1. גש לתיקיית קבצי ה- Script:
  cd /home/transcriptome-pipeline/Scripts
2. בצע פקודה זו כדי להוריד את הגנום האנושי הייחוס:
  downloadGenome.sh
3. כדי להוריד את הביאר, בצע את הפקודה:
  downloadAnnotation.sh
שנה את הביאר או את גירסת גנום הייחוס.
1. פתח downloadAnnotation.sh downloadGenome.sh כדי לשנות את כתובת ה- URL של כל קובץ.
2. העתק את קבצי downloadAnnotation.sh וקבצי downloadGenome.sh לאזור ההעברה וערוך במערכת ההפעלה המקומית.
  cd /home/transcriptome-pipeline/Scripts
  cp downloadAnnotation.sh downloadGenome.sh /opt/transferdata
3. פתח את התיקיה נתיב מארח , שנבחרה כדי לקשר בין מחשב מארח לגורם מכיל של Docker בשלב 1.5.4.
4. ערוך את הקבצים באמצעות תוכנת העורך המועדפת ושמור. לבסוף, הכנס את הקבצים שהשתנו לתיקיית ה- Script. בצע את הפקודה:
  cd /opt/transferdata
  cp downloadAnnotation.sh downloadGenome.sh /home/transcriptome-pipeline/Scripts
  הערה: ניתן לערוך קבצים אלה ישירות באמצעות עורך Vim או nano Linux.
לאחר מכן, קבע את תצורת הכלי fastq-dump באמצעות שורת הפקודה:
vdb-config --אינטראקטיבי
הערה: פעולה זו מאפשרת להוריד קבצי רצף מהנתונים לדוגמה.
1. נווט בדף כלים באמצעות מקש הכרטיסיה ובחר באפשרות התיקיה הנוכחית. נווט לאפשרות שמור ולחץ על אישור. לאחר מכן, צא מכלי ההשלכה המהירה.
הפעל את ההורדה של הקריאות מהנייר שפורסם ^בעבר7. נדרש מספר הגישה של SRA של כל דגימה. קבל את מספרי SRA מאתר האינטרנט של SRA NCBI (טבלת החומרים).
הערה: כדי לנתח נתוני RNA-Seq הזמינים במסדי נתונים ציבוריים, בצע את שלב 1.12. כדי לנתח נתוני RNA-seq פרטיים, בצע את שלב 1.13.
נתח נתונים ציבוריים ספציפיים.
1. גש לאתר המרכז הלאומי למידע ביוטכנולוגיה (NCBI) וחפש מילות מפתח לנושא מסוים.
2. לחץ על הקישור תוצאה עבור BioProject בסעיף הגנום .
3. בחר ולחץ על מחקר מסוים. לחץ על ניסויי SRA. דף חדש נפתח, המציג את כל הדגימות הזמינות למחקר זה.
4. לחץ על "שלח אל:" מעל מספר הגישה. באפשרות "בחר יעד" בחר באפשרות קובץ ועיצוב, בחר RunInfo. לחץ על "צור קובץ" כדי לייצא את כל פרטי הספריה.
5. שמור את הקובץ .csv SraRunInfo בנתיב המארח המוגדר בשלב 1.5.4 ובצע את קובץ ה- Script להורדה:
  cp /opt/transferdata/SraRunInfo.csv /home/transcriptome-pipeline/data
  cd /home/transcriptome-pipeline/Scripts
  downloadAllLibraries.sh
נתח נתוני רצף פרטיים ולא פורסמו.
1. ארגן את נתוני הרצף בתיקיה בשם Reads.
  הערה: בתוך התיקיה Reads , צור תיקיה אחת עבור כל דוגמה. לתיקיות אלה חייב להיות שם זהה עבור כל דוגמה. הוסף נתונים של כל דוגמה בתוך הספריה שלה. במקרה שמדובר ב- RNA-Seq משויך, כל ספריה לדוגמה צריכה להכיל שני קבצי FASTQ, אשר חייבים להציג שמות המסתיימים בהתאם לתבניות {sample}_1.fastq.gz ו- {sample}_2.fastq.gz, רצפים קדימה ואחורה, בהתאמה. לדוגמה, לדוגמה בשם "Healthy_control" חייבת להיות ספריה עם אותו שם וקבצי FASTQ בשם Healthy_control_1.fastq.gz ו- Healthy_control_2.fastq.gz. עם זאת, אם רצף הספריה הוא אסטרטגיה חד-קצהית, יש לשמור קובץ קריאה אחד בלבד לניתוח במורד הזרם. לדוגמה, אותה מדגם, "שליטה בריאה", חייבת לקובץ FASTQ ייחודי בשם Healthy_control.fastq.gz.
2. יצירת קובץ פנוטיפי המכיל את כל השמות לדוגמה: תן שם לעמודה הראשונה כ'דוגמה' ולעמודה השניה כ'מחלקה'. מלא את העמודה דוגמה בשמות לדוגמה, שחייבים להיות באותו שם עבור הספריות לדוגמה ולמלא את העמודה מחלקה בקבוצה הפנוטיפית של כל דגימה (לדוגמה, בקרה או נגוע). לבסוף, שמור קובץ בשם "metadata.tsv" ושלח אותו לספריה /home/transcriptome-pipeline/data/data. בדוק את metadata.tsv הקיים כדי להבין את התבנית של הקובץ פנוטיפיק.
  cp /opt/transferdata/metadata.tsv
  /home/transcriptome-pipeline/data/metadata.tsv
3. גש לספריה Path Host המוגדרת בשלב 1.5.4 והעתק את דוגמאות הספריות המובנות החדשות. לבסוף, העבר את הדוגמאות מ- /opt/transferdata לספריית נתוני הצינור.
  cp -rf /opt/transferdata/reads/*
  /home/צנרת תמלול/נתונים/קריאות/
שים לב כי כל הקריאות מאוחסנות בתיקיה /בית/צנרת תמלול/נתונים/קריאות.

2. בקרת איכות של הנתונים

הערה: הערך, באופן גרפי, את ההסתברות לשגיאות ברצף קורא. הסר את כל הרצפים הטכניים, למשל, מתאמים.

גש לאיכות הרצף של ספריות באמצעות הכלי FastQC.
1. כדי ליצור את גרפי האיכות, הפעל את תוכנית fastqc. בצע את הפקודה:
  FastQC.sh
  הערה: התוצאות יישמרו בתיקיה /home/transcriptome-pipeline/results/FastQC. מאחרמתמת רצף משמשת להכנת ספריה ולרצף, במקרים מסוימים שברי רצף המתאמים עלולים להפריע לתהליך המיפוי.
הסר את רצף המתאם ואת הקריאות באיכות נמוכה. גש לתיקיה Scripts והבצע את הפקודה עבור הכלי Trimmomatic:
cd /home/transcriptome-pipeline/Scripts
trimmomatic.sh bash
הערה: הפרמטרים המשמשים לרצף מסנן הם: הסר איכות נמוכה מובילה או 3 בסיסים (מתחת לאיכות 3) (מוביל:3); הסר נגרר באיכות נמוכה או 3 בסיסים (מתחת לאיכות 3) (נגרר:3); סרוק את הקריאה עם חלון הזזה רחב של 4 בסיסים, חיתוך כאשר האיכות הממוצעת לבסיס יורדת מתחת ל-20 (SLIDINGWINDOW:4:20); וירידה קוראת מתחת 36 בסיסים ארוכים (MINLEN:36). ניתן לשנות פרמטרים אלה על-ידי עריכת קובץ ה- Script של Trimmomatic.
1. ודא שהתוצאות נשמרות בתיקיה הבאה: /home/transcriptome-pipeline/results/trimreads. בצע את הפקודה:
  ls /home/transcriptome-pipeline/results/trimreads

3. מיפוי וביאור של דגימות

הערה: לאחר קבלת קריאות באיכות טובה, אלה צריכים להיות ממופים לגנום הייחוס. עבור שלב זה, ממפה STAR שימש למיפוי הדוגמאות לדוגמה. הכלי ממפה STAR דורש זיכרון RAM של 32 GB כדי לטעון ולבצע את הקריאות ומיפוי הגנום. עבור משתמשים שאין להם זיכרון RAM של 32 GB, ניתן להשתמש בקריאות שכבר מופו. במקרים כאלה לקפוץ לשלב 3.3 או להשתמש בממפה Bowtie2. מקטע זה כולל סקריפטים עבור STAR (תוצאות המוצגות בכל הנתונים) ו- Bowtie2 (ממפה נדרש עם זיכרון נמוך).

ראשית, אינדקס גנום הייחוס עבור תהליך המיפוי:
1. גש לתיקיה Scripts באמצעות שורת הפקודה:
  cd /home/transcriptome-pipeline/Scripts
2. עבור ממפה STAR, בצע:
  indexGenome.sh
3. עבור ממפה Bowtie, בצע:
  indexGenomeBowtie2.sh bash
בצע את הפקודה הבאה כדי למפות קריאות מסוננות (המתקבלות בשלב 2) לגנום הייחוס (גירסת GRCh38). הן ממפה STAR והן ממפה Bowtie2 מבוצעים באמצעות פרמטרי ברירת מחדל.
1. עבור ממפה STAR, בצע:
  mapSTAR.sh
2. עבור ממפה Bowtie2, בצע:
  mapBowtie2.sh באש
  הערה: התוצאות הסופיות הן קבצי מפת יישור בינארית (BAM) לכל מדגם המאוחסן ב- /home/transcriptome-pipeline/results/mapreads.
ביאור קריאות ממופות באמצעות הכלי FeatureCounts כדי להשיג ספירות גולמיות עבור כל גן. הפעל את קבצי ה- Script המביאים ביאור לקריאות.
הערה: הכלי FeatureCounts אחראי להקצאת קריאות רצף ממופות לתכונות הגנומיות. ההיבטים החשובים ביותר של ביאור הגנום שניתן לשנות בעקבות השאלה הביולוגית כוללים, זיהוי של isoforms, קריאות ממופות מרובות וצמתים אקסון-אקסון, המתאימים לפרמטרים, GTF.attrType = "gene_name" עבור הגן או לא לציין את הפרמטרים עבור רמת מטא-תכונה, allowMultiOverlap = TRUE, ו juncCounts = TRUE, בהתאמה.
1. גש לתיקיית קבצי ה- Script באמצעות שורת פקודה:
  cd /home/transcriptome-pipeline/Scripts
2. כדי לבאר את הקריאות הממופות כדי להשיג ספירות גולמיות לכל גן, בצע את שורת הפקודה:
  ביאור כתב. R
  הערה: הפרמטרים המשמשים עבור תהליך הביאורים היו: החזרת שם קצר של גן (GTF.attrType = "gene_name"); לאפשר חפיפות מרובות (allowMultiOverlap = TRUE); וציין שהספריה משויכת לסוף (isPairedEnd=TRUE). עבור אסטרטגיה חד-קצהית, השתמש בפרמטר isPairedEnd=FALSE. התוצאות יישמרו בתיקיה /home/transcriptome-pipeline/countreads.
לנרמל ביטוי גנים.
הערה: נרמול ביטוי גנים חיוני כדי להשוות תוצאות בין תוצאות (למשל, דגימות בריאות ונגועות). נורמליזציה נדרשת גם כדי לבצע את הביטוי המשותף ואת המידה המולקולרית של ניתוחי perturbation.
1. גש לתיקיה Scripts באמצעות שורת הפקודה:
  cd /home/transcriptome-pipeline/Scripts
2. לנרמל את ביטוי הגן. עבור זאת, בצע את שורת הפקודה:
  Rscript מנרמל את הדגמים. R
  הערה: ביטוי ספירת הגולם, בניסוי זה, נוטרמל בשיטות חיתוך ממוצע של ערכי M (TMM) וספירה למיליון (עלות לאלף חשיפות). שלב זה נועד להסיר הבדלים בביטוי הגנים בשל ההשפעה הטכנית, על ידי ביצוע נורמליזציה גודל הספרייה. התוצאות יישמרו בתיקיה /home/transcriptome-pipeline/countreads.

4. גנים מבוטאים באופן דיפרנציאלי וגנים משותפים

זהה גנים מבוטאים באופן דיפרנציאלי באמצעות חבילת EdgeR בקוד פתוח. זה כרוך במציאת גנים שהביטוי שלהם גבוה או נמוך יותר בהשוואה לשליטה.
1. גש לתיקיה Scripts באמצעות שורת הפקודה:
  cd /home/transcriptome-pipeline/Scripts
2. כדי לזהות את הגן המבוטא באופן דיפרנציאלי, בצע את קובץ ה- Script DEG_edgeR R באמצעות שורת הפקודה:
  DEG_edgeR Rscript
  הערה: התוצאות המכילות את הגנים המבוטאים באופן דיפרנציאלי יישמרו בתיקיה /home/transcriptome-pipeline/results/degs. ניתן להעביר נתונים למחשב אישי.
הורד נתונים מהגורם המכיל csblusp/transcriptome.
1. העבר נתונים מעובדים מצינור /home/transcriptome לתיקיה /opt/transferdata (מחשב מקומי).
2. העתק את כל הקבצים למחשב המקומי על-ידי ביצוע שורת הפקודה:
  cp -rf /home/transcriptome-pipeline/results /opt/transferdata/pipeline
  cp -rf /home/transcriptome-pipeline/data /opt/transferdata/pipeline
  הערה: כעת, עבור אל המחשב המקומי כדי להבטיח שכל התוצאות, ערכות הנתונים והנתונים יהיו זמינים להורדה בנתיב המארח.
זהה מודולי ביטוי משותף.
1. גישה לאתר האינטרנט של כלי זיהוי מודולי ביטוי משותף (CEMiTool) (טבלה של
  חומרים). כלי זה מזהה מודולי ביטוי משותף מערכות נתונים של ביטוי המסופקות על-ידי המשתמשים. בדף הראשי, לחץ על הפעל בקצה השמאלי העליון. פעולה זו תפתח דף חדש להעלאת קובץ הביטוי.
2. לחץ על בחר קובץ מתחת למקטע קובץ ביטוי והעלה את מטריצת ביטוי הגנים מנורמל 'tmm_expression.tsv' מנתיב המחשב המארח.
  הערה: שלב 4.4. אינו חובה.
גלה את המשמעות הביולוגית של מודולי ביטוי משותף.
1. לחץ על בחר קובץ בסעיף Phenotypes לדוגמה ולהעלות את הקובץ עם phenotypes לדוגמה metadata_cemitool.tsv מן שלב הורדת נתונים 4.2.2. כדי לבצע ניתוח העשרה של ערכת גנים (GSEA).
2. לחץ על בחר קובץ במקטע אינטראקציות גנים כדי להעלות קובץ עם אינטראקציות גנים (cemitool-interactions.tsv). ניתן להשתמש בקובץ של אינטראקציות גנים המסופקים כדוגמה על ידי webCEMiTool. האינטראקציות יכולות להיות אינטראקציות חלבון-חלבון, גורמי שעתוק והגנים המתומללים שלהם, או מסלולים מטבוליים. שלב זה יוצר רשת אינטראקציה עבור כל מודול ביטוי משותף.
3. לחץ על המקטע בחירת קובץ בערכות גנים כדי להעלות רשימה של גנים הקשורים פונקציונלית בקובץ תבנית של מטריצת גנים (GMT). קובץ ערכת הגנים מאפשר לכלי לבצע ניתוח העשרה עבור כל מודול ביטוי משותף, כלומר ניתוח ייצוג יתר (ORA).
  הערה: רשימה זו של גנים יכולה לכלול מסלולים, מונחי GO או גנים המיועדים ל- miRNA. החוקר יכול להשתמש במודולים לתמלול דם (BTM) כקבוצות גנים לניתוח זה. קובץ ה- BTM (BTM_for_GSEA.gmt).
הגדר פרמטרים לביצוע ניתוחי ביטוי משותף וקבל את תוצאותיו.
1. הבא להרחיב את המקטע פרמטר , על ידי לחיצה על סימן החיבור כדי להציג את הפרמטרים ברירת המחדל. במידת הצורך, לשנות אותם. סמן את התיבה החל VST .
2. כתוב את הדואר האלקטרוני במקטע דואר אלקטרוני כדי לקבל תוצאות כהודעת דואר אלקטרוני. שלב זה הוא אופציונלי.
3. לחץ על לחצן הפעל CEMiTool .
4. הורד את דוח הניתוח המלא על ידי לחיצה על הורד דוח מלא בצד למעלה. הוא יוריד קובץ דחוס cemitool_results.zip.
5. לחלץ את התוכן של cemitool_results.zip עם WinRAR.
  הערה: התיקיה עם התוכן שחולץ מקיפה מספר קבצים עם כל תוצאות הניתוח והפרמטרים שנקבעו.

5. קביעת מידת ההסתה המולקולרית של דגימות

דרגה מולקולרית של Perturbation (MDP) גרסת אינטרנט.
1. כדי להפעיל את MDP, גש לאתר האינטרנט של MDP (טבלת החומרים). MDP מחשב את המרחק המולקולרי של כל דגימה מההפניה. לחץ על לחצן הפעלה .
2. בקישור בחירת קובץ , העלה את קובץ הביטוי tmm_expression.tsv. לאחר מכן, העלה את הקובץ פנוטיפיק נתונים metadata.tsv מהשלב הורד נתונים 4.2.2. ניתן גם להגיש קובץ ביאור מסלול בתבנית GMT כדי לחשב את ציון ההסתה של המסלולים הקשורים למחלה.
3. לאחר העלאת הנתונים, הגדר את העמודה מחלקה המכילה את המידע הפנוטיפי המשמש את ה- MDP. לאחר מכן, הגדר את מחלקת הפקד על-ידי בחירת התווית המתאימה למחלקת הבקרה.
  הערה: ישנם כמה פרמטרים אופציונליים שישפיעו על אופן החישוב של הציונים לדוגמה. במידת הצורך, המשתמש מסוגל לשנות את שיטת ממוצע הסטטיסטיקה, סטיית התקן והאחוז העליון של הגנים המופרכים.
4. לאחר מכן, לחץ על לחצן הפעל MDP ותוצאות MDP יוצגו. המשתמש יכול להוריד את המספרים על ידי לחיצה על התוויית ההורדה בכל חלקה, כמו גם את ציון ה- MDP בלחצן הורד קובץ ניקוד MDP .
  הערה: במקרה של שאלות על אופן שליחת הקבצים או אופן הפעולה של MDP, פשוט עבור על דפי האינטרנט של ערכת לימוד ו- אודות.

6. ניתוח העשרה פונקציונלי

צור רשימה אחת של DEGs מוסדר למטה ועוד של DEGs מוסדר. שמות גנים חייבים להיות לפי סמלי הגן של אנטרז. כל גן ברשימה חייב להיות ממוקם בשורה אחת.
שמור את רשימות הגנים בתבנית txt או tsv.
גש לאתר האינטרנט של Enrichr (טבלת חומרים) כדי לבצע את הניתוח הפונקציונלי.
בחר את רשימת הגנים על-ידי לחיצה על בחר קובץ. בחר אחת מהרשימה גשגים ולחץ על לחצן שלח .
לחץ על מסלולים בחלק העליון של דף האינטרנט כדי לבצע ניתוח העשרה פונקציונלי עם גישת ORA.
בחר מסד נתונים של נתיב. מסד הנתונים של מסלול Reactome 2016 משמש באופן נרחב כדי לקבל את המשמעות הביולוגית של נתונים אנושיים.
לחץ שוב על שם מסד הנתונים של הנתיב. בחר תרשים עמודות ובדוק אם הוא ממוין לפי דירוג ערך p. אם לא, לחץ על גרף העמודות עד שהוא ממוין לפי ערך p. גרף עמודות זה כולל את 10 המסלולים המובילים בהתאם לערכי p.
לחץ על לחצן התצורה ובחר את הצבע האדום לניתוח הגנים המוסדר או הצבע הכחול לניתוח הגנים המוסדר כלפי מטה. שמור את גרף העמודות במספר פורמטים על-ידי לחיצה על svg, png ו - jpg.
בחר טבלה ולחץ על ייצוא ערכים לטבלה בפינה הימנית התחתונה של גרף העמודות כדי להשיג את תוצאות ניתוח ההעשרה הפונקציונליות בקובץ txt.
הערה: קובץ תוצאות העשרה פונקציונלי זה מקיף בכל שורה את שמו של מסלול אחד, את מספר הגנים החופפים בין רשימת ה- DEG שנשלחה לבין המסלול, את ערך ה- p, ערך p מותאם, יחס סיכויים, ציון משולב ואת סמל הגנים של גנים הנמצאים ברשימת DEG המשתתפים במסלול.
חזור על אותם שלבים עם רשימת DEGs האחרת.
הערה: הניתוח עם DEGs מוסדר למטה מספק מסלולים מועשרים עבור גנים מוסדר למטה ואת הניתוח עם גנים מוסדר מספק מסלולים מועשרים עבור גנים מוסדר.

תוצאות

סביבת המחשוב עבור ניתוחי תמלול נוצרה ומוגדרת בפלטפורמת Docker. גישה זו מאפשרת למשתמשי לינוקס מתחילים להשתמש במערכות מסופים של לינוקס ללא ידע ניהולי קודם. פלטפורמת Docker משתמשת במשאבים של מערכת ההפעלה המארחת כדי ליצור גורם מכיל של שירות הכולל כלים של משתמשים ספציפיים (איור 1B). מ...

Discussion

הכנת ספריות הרצף היא צעד מכריע לקראת מענה על שאלות ביולוגיות בצורה הטובה ביותר. סוג התמלילים שמעניינים את המחקר ינחה איזה סוג של ספריית רצף ייבחר ויניע ניתוחים ביואינפורמטיים. לדוגמה, מתוך רצף של פתוגן ואינטראקציה מארח, על פי סוג הרצף, ניתן לזהות רצפים משניהם או רק מן התמלילים המארח.

Disclosures

למחברים אין מה לחשוף.

Acknowledgements

HN ממומן על ידי FAPESP (מספרי מענקים: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5, ו-2013/08216-2) ו-CNPq (313662/2017-7).

אנו מודים במיוחד על המענקים הבאים לעמיתים: ANAG (תהליך FAPESP 2019/13880-5), VEM (תהליך FAPESP 2019/16418-0), IMSC (תהליך FAPESP 2020/05284-0), APV (תהליך FAPESP 2019/27146-1) ו- RLTO (תהליך CNPq 134204/2019-0).

Materials

Name	Company	Catalog Number	Comments
CEMiTool	Computational Systems Biology Laboratory	1.12.2	Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR	Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au])	3.30.3	Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano	Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk])	1.6.0	Publication-ready volcano plots with enhanced colouring and labeling
FastQC	Babraham Bioinformatics	0.11.9	Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.0.0	Assign mapped sequencing reads to specified genomic features
MDP	Computational Systems Biology Laboratory	1.8.0	Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R	R Core Group	4.0.3	Programming language and free software environment for statistical computing and graphics
STAR	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.7.6a	Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2	Johns Hopkins University	2.4.2	Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic	THE USADEL LAB	0.39	Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker	Docker	20.10.2	Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel	Windows	NA	https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux	Docker	NA	https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository	Docker	NA	https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website	Computational Systems Biology Laboratory	NA	https://mdp.sysbio.tools
Enrichr Website	MaayanLab	NA	https://maayanlab.cloud/Enrichr/
webCEMiTool	Computational Systems Biology Laboratory	NA	https://cemitool.sysbio.tools/
gProfiler	Bioinformatics, Algorithmics and Data Mining Group	NA	https://biit.cs.ut.ee/gprofiler/gost
goseq	Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk])	NA	http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study	NCBI	NA	https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

References

Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
Suhrbier, A., Jaffar-Bandjee, M. -. C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Explore More Articles

181 seq

This article has been published

Video Coming Soon

Keep me updated: