JoVE Logo

Sign In

A subscription to JoVE is required to view this content. Sign in or start your free trial.

In This Article

  • Summary
  • Abstract
  • Introduction
  • Protocol
  • النتائج
  • Discussion
  • Disclosures
  • Acknowledgements
  • Materials
  • References
  • Reprints and Permissions

Summary

يصف البروتوكول المعروض هنا خط أنابيب كامل لتحليل بيانات النسخ التسلسلية من قراءات الخام إلى التحليل الوظيفي ، بما في ذلك مراقبة الجودة وخطوات المعالجة المسبقة للنهج التحليلية الإحصائية المتقدمة.

Abstract

مسببات الأمراض يمكن أن تسبب مجموعة واسعة من الأمراض المعدية. العمليات البيولوجية التي يسببها المضيف استجابة للعدوى تحدد شدة المرض. لدراسة مثل هذه العمليات، يمكن للباحثين استخدام تقنيات التسلسل عالية الإنتاجية (RNA-seq) التي تقيس التغيرات الديناميكية للنسخ المضيف في مراحل مختلفة من العدوى، والنتائج السريرية، أو شدة المرض. يمكن أن يؤدي هذا التحقيق إلى فهم أفضل للأمراض ، فضلا عن الكشف عن أهداف الأدوية المحتملة والعلاجات. يصف البروتوكول المعروض هنا خط أنابيب كامل لتحليل بيانات تسلسل الحمض النووي الريبي من القراءات الخام إلى التحليل الوظيفي. وينقسم خط الأنابيب إلى خمس خطوات: (1) مراقبة جودة البيانات؛ (2) نوعية البيانات؛ (2) نوعية البيانات؛ (2) نوعية البيانات؛ (2) نوعية البيانات؛ (2) نوعية (2) رسم خرائط الجينات والتعليق على هذه الجينات؛ (3) التحليل الإحصائي لتحديد الجينات المعرب عنها بشكل متمايز والجينات المعرب عنها؛ (4) تحديد الدرجة الجزيئية لازدراق العينات؛ و (5) التحليل الوظيفي. الخطوة 1 يزيل القطع الفنية التي قد تؤثر على جودة التحليلات المصب. في الخطوة 2، يتم تعيين الجينات وشرحها وفقا لبروتوكولات المكتبة القياسية. ويحدد التحليل الإحصائي في الخطوة 3 الجينات التي يتم التعبير عنها بشكل تفاضلي أو التعبير عنها في العينات المصابة، بالمقارنة مع تلك غير المصابة. يتم التحقق من تقلب العينة ووجود القيم المتطرفة البيولوجية المحتملة باستخدام الدرجة الجزيئية لنهج الاضطراب في الخطوة 4. وأخيرا، يكشف التحليل الوظيفي في الخطوة 5 عن المسارات المرتبطة بالنمط الظاهري للمرض. يهدف خط الأنابيب المعروض إلى دعم الباحثين من خلال تحليل بيانات الحمض النووي الريبي-seq من دراسات التفاعل بين المضيف ومسببات الأمراض ودفع المستقبل في المختبر أو في تجارب الجسم الحي ، التي تعتبر ضرورية لفهم الآلية الجزيئية للعدوى.

Introduction

وقد ارتبطت فيروسات الأربو، مثل حمى الضنك والحمى الصفراء وشيكونغونيا وزيكا، على نطاق واسع بعدة فاشيات متوطنة وبرزت كواحدة من مسببات الأمراض الرئيسية المسؤولة عن إصابة البشر في العقود الأخيرة1،2. غالبا ما يعاني الأفراد المصابون بفيروس شيكونغونيا (CHIKV) من الحمى والصداع والطفح الجلدي والتهاب المفاصل والتهاب المفاصل3,4,5. يمكن للفيروسات تخريب التعبير الجيني للخلية والتأثير على مسارات الإشارات المضيفة المختلفة. في الآونة الأخيرة، استخدمت دراسات نسخ الدم الحمض النووي الريبي-seq لتحديد الجينات المعرب عنها بشكل متفاوت (DEGs) المرتبطة بعدوى CHIKV الحادة بالمقارنة مع النقاهة6 أو الضوابط الصحية7. كان لدى الأطفال المصابين ب CHIKV جينات منظمة تشارك في المناعة الفطرية ، مثل تلك المتعلقة بأجهزة الاستشعار الخلوية لرنا الفيروسي ، وإشارات JAK / STAT ، ومسارات إشارات المستقبلات الشبيهة بالحصيلة6. كما أظهر البالغون المصابون بشدة ب CHIKV تحريض الجينات المتعلقة بالحصانة الفطرية ، مثل تلك المتعلقة بالخلايا الأحادية وتفعيل الخلايا التغصنية ، والاستجابات المضادة للفيروسات7. وشملت مسارات الإشارات المخصبة بالجينات الخاضعة للتنظيم الأسفل المسارات المتعلقة بالحصانة التكيفية، مثل تنشيط الخلايا التائية والتمايز والإثراء في الخلايا T وB7.

يمكن استخدام عدة طرق لتحليل بيانات النسخ من الجينات المضيفة ومسببات الأمراض. في كثير من الأحيان ، يبدأ إعداد مكتبة RNA-seq بإثراء نصوص البولي-أ الناضجة. هذه الخطوة يزيل معظم الحمض النووي الريبي الريبوسومي (rRNA) وفي بعض الحالات الحمض النووي الريبي الفيروسية / البكتيرية. ومع ذلك ، عندما ينطوي السؤال البيولوجي على الكشف عن نص مسببات الأمراض ويتم تسلسل الحمض النووي الريبي بشكل مستقل عن الاختيار السابق ، يمكن الكشف عن العديد من النصوص المختلفة الأخرى عن طريق التسلسل. فعلى سبيل المثال، تبين أن الرناس دون الذري عامل هام للتحقق من شدة الأمراض8. وبالإضافة إلى ذلك، بالنسبة لبعض الفيروسات مثل CHIKV و SARS-CoV-2، حتى المكتبات الغنية بالبولي ألف تولد قراءات فيروسية يمكن استخدامها في التحليلات النهائية9,10. عند التركيز على تحليل النسخة المضيفة ، يمكن للباحثين التحقيق في الاضطراب البيولوجي عبر العينات ، وتحديد الجينات المعرب عنها بشكل متفاوت والمسارات المخصبة ، وتوليد وحدات التعبير المشترك7،11،12. يسلط هذا البروتوكول الضوء على تحليلات النسخ للمرضى المصابين ب CHIKV والأفراد الأصحاء باستخدام نهج المعلوماتية الحيوية المختلفة (الشكل 1A). واستخدمت البيانات المستقاة من دراسة نشرت سابقا7 تتألف من 20 شخصا أصحاء و 39 شخصا مصابا إصابة حادة من الشيكف لتوليد النتائج التمثيلية.

Protocol

وقد وافقت لجان الأخلاقيات في كل من قسم علم الأحياء المجهرية التابع لمعهد العلوم الطبية الحيوية في جامعة ساو باولو والجامعة الاتحادية لسيرغيبي على العينات المستخدمة في هذا البروتوكول (البروتوكولان: 54937216.5.0000.5467 و54835916.2.0000.5546 على التوالي).

1. دوكر تثبيت سطح المكتب

ملاحظة: تختلف الخطوات لإعداد بيئة Docker بين أنظمة التشغيل (OSs). لذلك، يجب على مستخدمي Mac اتباع الخطوات المسرودة ك 1.1، ويجب على مستخدمي Linux اتباع الخطوات المدرجة ك 1.2، ويجب على مستخدمي Windows اتباع الخطوات المذكورة في القائمة 1.3.

  1. تثبيت على ماك.
    1. الوصول إلى موقع الحصول على دوكر (جدول المواد)، انقر على سطح المكتب دوكر لماك ومن ثم انقر على تحميل من وصلة دوكر المحور .
    2. قم بتنزيل ملف التثبيت بالنقر على الزر الحصول على Docker .
    3. تنفيذ ملف docker.dmg لفتح المثبت ثم اسحب الرمز إلى مجلد التطبيقات . ترجمة وتنفيذ Docker.app في مجلد التطبيقات لبدء تشغيل البرنامج.
      ملاحظة: تشير القائمة الخاصة بالبرنامج في شريط الحالة العلوي إلى أن البرنامج قيد التشغيل وأنه يمكن الوصول إليه من محطة طرفية.
  2. تثبيت برنامج الحاويات على نظام التشغيل لينكس.
    1. الوصول إلى موقع Get Docker Linux (جدول المواد) واتبع إرشادات التثبيت باستخدام قسم المستودع المتوفر على رابط مستودع Docker Linux .
    2. تحديث كافة حزم لينكس باستخدام سطر الأوامر:
      سودو apt-get التحديث
    3. تثبيت الحزم المطلوبة إلى Docker:
      سودو apt-get تثبيت apt-النقل-https ca-شهادات حليقة gnupg lsb-الإفراج
    4. إنشاء ملف keyring أرشيف البرامج:
      حليقة -fsSL https://download.docker.com/linux/ubuntu/gpg | سودو gpg -- dearmor - س / usr / حصة / keyrings / docker - الأرشيف keyring.gpg
    5. إضافة معلومات ديب Docker في ملف source.list:
      صدى "ديب [قوس = amd64 وقعت من قبل = / usr / حصة / keyrings / docker - الأرشيف keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) مستقرة" | سودو تي / الخ / apt / sources.list.d/docker.list > / ديف / فارغة
    6. تحديث جميع الحزم مرة أخرى، بما في ذلك تلك التي أضيفت مؤخرا:
      سودو apt-get التحديث
    7. تثبيت إصدار سطح المكتب:
      سودو apt-get تثبيت دوكر-ce دوكر-ce-cli containerd.io
    8. حدد المنطقة الجغرافية والمنطقة الزمنية لإنهاء عملية التثبيت.
  3. تثبيت برنامج الحاوية على نظام التشغيل Windows.
    1. الوصول إلى موقع الحصول على دوكر (جدول المواد) وانقر على الشروع في العمل. ابحث عن المثبت لسطح المكتب Docker لنظام التشغيل Windows. تحميل الملفات وتثبيتها محليا على الكمبيوتر.
    2. بعد التنزيل، ابدأ ملف التثبيت (.exe) و احتفظ بالمعلمات الافتراضية. تأكد من أن الخيارين تثبيت مكونات Windows المطلوبة ل WSL 2 و إضافة اختصار إلى سطح المكتب تم وضع علامة.
      ملاحظة: في بعض الحالات، عندما يحاول هذا البرنامج بدء تشغيل الخدمة، فإنه يظهر خطأ: تثبيت WSL غير مكتملة. لمعرفة هذا الخطأ، قم بالوصول إلى موقع WSL2-Kernel (جدول المواد).
    3. تحميل وتثبيت أحدث نواة لينكس WSL2.
    4. الوصول إلى محطة PowerShell كمسؤول وتنفيذ الأمر:
      dism.exe /online /تمكين-ميزة /featurename:مايكروسوفت-ويندوز-النظام الفرعي-لينكس/الكل/norestart
    5. تأكد من تثبيت برنامج Docker Desktop بنجاح.
  4. تحميل الصورة من مستودع CSBL على محور دوكر (جدول المواد).
    1. افتح سطح المكتب Docker وتحقق من أن الحالة "قيد التشغيل" في أسفل يسار شريط الأدوات.
    2. انتقل إلى سطر الأوامر الطرفية ل Windows PowerShell. تحميل صورة حاوية لينكس لهذا البروتوكول من مستودع CSBL على محور دوكر. تنفيذ الأمر التالي لتحميل الصورة:
      docker سحب csblusp / transcriptome
      ملاحظة: بعد تحميل الصورة، يمكن مشاهدة الملف في سطح المكتب Docker. لإنشاء الحاوية، يجب على مستخدمي Windows اتباع الخطوة 1.5، بينما يجب على مستخدمي Linux اتباع الخطوة 1.6.
  5. تهيئة حاوية الملقم على نظام التشغيل Windows.
    1. عرض ملف صورة Docker في مدير تطبيق سطح المكتب من شريط الأدوات والوصول إلى صفحة الصور.
      ملاحظة: إذا تم تحميل صورة خط أنابيب بنجاح، سيكون هناك صورة csblusp/transcriptome متوفرة.
    2. بدء الحاوية من صورة csblusp / transcriptome بالنقر على زر التشغيل . قم بتوسيع الإعدادات الاختيارية لتكوين الحاوية.
    3. تعريف اسم الحاوية (على سبيل المثال، الخادم).
    4. إقران مجلد في الكمبيوتر المحلي مع المجلد داخل docker. للقيام بذلك، حدد مسار المضيف. تعيين مجلد في الجهاز المحلي لتخزين البيانات المعالجة التي سيتم تحميلها في النهاية. تعيين مسار الحاوية. تعريف وربط مجلد حاوية csblusp/transcriptome إلى مسار الجهاز المحلي (استخدم الاسم "/opt/transferdata" لمسار الحاوية).
    5. بعد ذلك، انقر على تشغيل لإنشاء حاوية csblusp/transcriptome.
    6. للوصول إلى محطة لينكس من حاوية csblusp/transcriptome، انقر على زر CLI.
    7. اكتب في محطة باش للحصول على تجربة أفضل. لهذا، تنفيذ الأمر:
      باش
    8. بعد تنفيذ الأمر bash تأكد من أن يظهر المحطة الطرفية (root@:/#):
      root@ac12c583b731:/ #
  6. تهيئة حاوية الملقم لنظام التشغيل Linux.
    1. تنفيذ هذا الأمر لإنشاء حاوية Docker استنادا إلى الصورة:
      docker تشغيل -d-it --rm --اسم الخادم -v <هوست المسار>:/opt/transferdata csblusp/transcriptome
      ملاحظة: <هوست المسار>: تعريف مسار جهاز المجلد المحلي.
    2. تنفيذ هذا الأمر للوصول إلى محطة الأوامر من حاوية Docker:
      docker exec - it باش الخادم
    3. تأكد من توفر محطة لينكس لتنفيذ أي برامج / برامج نصية باستخدام سطر الأوامر.
    4. بعد تنفيذ الأمر bash تأكد من أن يظهر المحطة الطرفية (root@:/#):
      root@ac12c583b731:/ #
      ملاحظة: كلمة المرور الجذر هو "transcriptome" بشكل افتراضي. إذا رغبت في ذلك، يمكن تغيير كلمة المرور الجذر بتنفيذ الأمر:
      باسود
    5. أولا، تنفيذ الأمر المصدر addpath.sh لضمان توفر كافة الأدوات. تنفيذ الأمر:
      المصدر /اختيار/addpath.sh
  7. تحقق من بنية مجلد تسلسل الحمض النووي الريبي.
    1. الوصول إلى مجلد البرامج النصية خط أنابيب transcriptome وضمان تخزين جميع البيانات من تسلسل الجيش الملكي النيبالي داخل المجلد: / الصفحة الرئيسية / transcriptome - خط أنابيب / البيانات.
    2. تأكد من تخزين كافة النتائج التي تم الحصول عليها من التحليل داخل مجلد المسار /home/transcriptome-pipeline/results.
    3. تأكد من تخزين ملفات مرجع الجينوم والتعليقات التوضيحية داخل مجلد المسار /المنزل/خط أنابيب النسخ/مجموعات البيانات. ستساعد هذه الملفات على دعم كل التحليلات.
    4. تأكد من تخزين كافة البرامج النصية في مجلد المسار /home/transcriptome-pipeline/scripts وفصلها عن كل خطوة كما هو موضح أدناه.
  8. تحميل الشرح والجينوم البشري.
    1. الوصول إلى مجلد البرامج النصية:
      مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
    2. تنفيذ هذا الأمر لتحميل الجينوم البشري المرجعي:
      باش downloadGenome.sh
    3. لتنزيل التعليق التوضيحي، نفذ الأمر:
      باش downloadAnnotation.sh
  9. تغيير التعليق التوضيحي أو إصدار الجينوم المرجعي.
    1. افتح downloadAnnotation.sh downloadGenome.sh لتغيير عنوان URL لكل ملف.
    2. نسخ الملفات downloadAnnotation.sh والملفات downloadGenome.sh إلى منطقة النقل وتحريرها في نظام التشغيل المحلي.
      مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
      cp downloadAnnotation.sh downloadGenome.sh /opt/نقل البيانات
    3. افتح المجلد مسار المضيف الذي تم تحديده لربط بين الحاوية المضيف و Docker في الخطوة 1.5.4.
    4. تحرير الملفات باستخدام برنامج المحرر المفضل وحفظ. وأخيرا، وضع الملفات المعدلة في مجلد البرنامج النصي. تنفيذ الأمر:
      القرص المضغوط /opt/نقل البيانات
      cp downloadAnnotation.sh downloadGenome.sh / المنزل / transcriptome خط أنابيب / البرامج النصية

      ملاحظة: يمكن تحرير هذه الملفات مباشرة باستخدام vim أو nano Linux محرر.
  10. بعد ذلك، تكوين أداة تفريغ fastq مع سطر الأوامر:
    vdb-التكوين --تفاعلي
    ملاحظة: يسمح هذا بتحميل ملفات التسلسل من بيانات المثال.
    1. انتقل إلى صفحة الأدوات باستخدام مفتاح علامة التبويب وحدد خيار المجلد الحالي. انتقل إلى خيار حفظ وانقر على موافق. ثم قم بإنهاء أداة تفريغ fastq.
  11. بدء تحميل القراءات من الورق المنشور سابقا7. مطلوب رقم الانضمام إلى SRA لكل عينة. الحصول على أرقام SRA من موقع SRA NCBI (جدول المواد).
    ملاحظة: لتحليل البيانات RNA-Seq المتوفرة على قواعد البيانات العامة اتبع الخطوة 1.12. لتحليل البيانات الخاصة RNA-seq اتبع الخطوة 1.13.
  12. تحليل بيانات عامة محددة.
    1. الوصول إلى الموقع الإلكتروني للمركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI) والبحث عن كلمات رئيسية لموضوع معين.
    2. انقر على الرابط نتيجة لBioProject في قسم الجينوم .
    3. اختر وانقر على دراسة محددة. انقر على تجارب SRA. تفتح صفحة جديدة تعرض جميع العينات المتاحة لهذه الدراسة.
    4. انقر على "إرسال إلى:" أعلاه رقم الانضمام. في الخيار "اختيار الوجهة" حدد ملف وتنسيق الخيار، حدد RunInfo. انقر على "إنشاء ملف" لتصدير جميع معلومات المكتبة.
    5. حفظ الملف SraRunInfo.csv في مسار المضيف المعرفة في الخطوة 1.5.4 وتنفيذ البرنامج النصي التحميل:
      cp /opt/transferdata/SraRunInfo.csv/المنزل/خط أنابيب النسخ/البيانات
      مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
      باش downloadAllLibraries.sh
  13. تحليل بيانات التسلسل الخاصة وغير المنشورة.
    1. تنظيم بيانات التسلسل في مجلد يسمى القراءات.
      ملاحظة: داخل المجلد القراءات إنشاء مجلد واحد لكل عينة. يجب أن يكون لهذه المجلدات نفس الاسم لكل عينة. إضافة بيانات كل عينة داخل الدليل الخاص به. في حالة أنه هو RNA-Seq نهاية مقترنة، يجب أن يحتوي كل دليل عينة على ملفين FASTQ، والتي يجب أن تقدم أسماء تنتهي وفقا للأنماط {sample}_1.fastq.gz و {sample}_2.fastq.gz، إلى الأمام وعكس التسلسلات، على التوالي. على سبيل المثال، يجب أن يكون نموذج المسمى "Healthy_control" دليل بنفس الاسم وملفات FASTQ المسماة Healthy_control_1.fastq.gz و Healthy_control_2.fastq.gz. ومع ذلك، إذا كان تسلسل المكتبة استراتيجية أحادية الطرف، يجب حفظ ملف قراءة واحد فقط لتحليل المصب. على سبيل المثال، يجب أن يكون نفس النموذج " التحكم سليم " ، ملف FASTQ فريدة تسمى Healthy_control.fastq.gz.
    2. إنشاء ملف phenotypic يحتوي على كافة أسماء نماذج: اسم العمود الأول ك 'عينة' والعمود الثاني ك 'Class'. تعبئة العمود عينة مع أسماء عينة، والتي يجب أن يكون نفس الاسم لعينة الدلائل وملء العمود فئة مع مجموعة phenotypic من كل عينة (على سبيل المثال، التحكم أو المصابة). وأخيرا، حفظ ملف باسم "metadata.tsv" وإرساله إلى /home/transcriptome-pipeline/data/directory. تحقق من metadata.tsv الموجودة لفهم تنسيق الملف الظاهري.
      cp /opt/نقل البيانات/البيانات الوصفية.tsv
      / المنزل / خط أنابيب النسخ / البيانات / البيانات.tsv
    3. الوصول إلى الدليل مسار المضيف المعرفة في الخطوة 1.5.4 ونسخ نماذج الدلائل بنية جديدة. وأخيرا، نقل العينات من /opt/transferdata إلى دليل بيانات خط أنابيب.
      CP -rf /opt/transferdata/reads/*
      / المنزل / خط أنابيب النسخ / البيانات / يقرأ /
  14. لاحظ أن كافة القراءات مخزنة في المجلد /home/transcriptome-pipeline/data/reads.

2. مراقبة جودة البيانات

ملاحظة: تقييم، بيانيا، احتمال الأخطاء في يقرأ التسلسل. إزالة جميع التسلسلات التقنية، على سبيل المثال، محولات.

  1. الوصول إلى جودة التسلسل للمكتبات باستخدام أداة FastQC.
    1. لإنشاء رسومات بيانية عالية الجودة، قم بتشغيل برنامج fastqc. تنفيذ الأمر:
      باش FastQC.sh
      ملاحظة: سيتم حفظ النتائج في المجلد /home/transcriptome-pipeline/results/FastQC. منذ محولات تسلسل تستخدم لإعداد المكتبة وتسلسلها، في بعض الحالات يمكن أن تتداخل أجزاء من تسلسل المحولات مع عملية التعيين.
  2. إزالة تسلسل المحول و قراءات منخفضة الجودة. الوصول إلى مجلد البرامج النصية وتنفيذ الأمر للأداة Trimmomatic:
    مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
    باش trimmomatic.sh

    ملاحظة: المعلمات المستخدمة لتصفية التسلسل هي: إزالة جودة منخفضة الرائدة أو 3 قواعد (أقل من الجودة 3) (LEADING:3)؛ إزالة زائدة منخفضة الجودة أو 3 قواعد (أقل من الجودة 3) (TRAILING:3)؛ مسح القراءة باستخدام نافذة انزلاق عريضة ذات 4 قاعدة، مع القطع عندما ينخفض متوسط الجودة لكل قاعدة إلى أقل من 20 (SLIDINGWINDOW:4:20)؛ ويقرأ إسقاط أسفل القواعد 36 طويلة (MINLEN: 36). يمكن تغيير هذه المعلمات عن طريق تحرير ملف البرنامج النصي Trimmomatic.
    1. تأكد من حفظ النتائج في المجلد التالي: / home / transcriptome-pipeline/results/trimreads. تنفيذ الأمر:
      ls /home/خط أنابيب النسخ/النتائج/التشذيب

3. رسم خرائط وتعليقات توضيحية للعينات

ملاحظة: بعد الحصول على قراءات ذات نوعية جيدة، هذه تحتاج إلى تعيين إلى الجينوم المرجعي. لهذه الخطوة، تم استخدام مخطط STAR لتعيين نماذج المثال. تتطلب أداة مخطط STAR ذاكرة ذاكرة وصول عشوائي 32 غيغابايت لتحميل وتنفيذ تعيين القراءة والجينوم. بالنسبة للمستخدمين الذين ليس لديهم ذاكرة RAM 32 غيغابايت، يمكن استخدام القراءات المعينة مسبقا. في مثل هذه الحالات الانتقال إلى الخطوة 3.3 أو استخدام مخطط Bowtie2. يحتوي هذا القسم على برامج نصية ل STAR (النتائج الموضحة في جميع الأشكال) و Bowtie2 (مخطط الذاكرة المنخفضة المطلوب).

  1. فهرسة الجينوم المرجعي لعملية رسم الخرائط أولا:
    1. الوصول إلى مجلد البرامج النصية باستخدام سطر الأوامر:
      مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
    2. بالنسبة لمنجم الخرائط، نفذ:
      باش indexGenome.sh
    3. بالنسبة لمرم خرائط Bowtie، قم بالتنفيذ:
      باش indexGenomeBowtie2.sh
  2. تنفيذ الأمر التالي لتعيين القراءات المصفاة (التي تم الحصول عليها من الخطوة 2) إلى الجينوم المرجعي (إصدار GRCh38). يتم تنفيذ كل من STAR و Bowtie2 تعيين باستخدام المعلمات الافتراضية.
    1. بالنسبة لمنجم الخرائط، نفذ:
      باش mapSTAR.sh
    2. بالنسبة لموازما Bowtie2، قم بالتنفيذ:
      باش mapBowtie2.sh
      ملاحظة: النتائج النهائية هي ملفات خريطة المحاذاة الثنائية (BAM) لكل عينة مخزنة في /home/transcriptome-pipeline/results/mapreads.
  3. يقرأ التعليقات التوضيحية المعينة باستخدام أداة FeatureCounts للحصول على عدد أولي لكل جين. تشغيل البرامج النصية التي توضح القراءات.
    ملاحظة: أداة FeatureCounts مسؤولة عن تعيين قراءات التسلسل المعينة إلى الميزات الجينومية. وتشمل أهم جوانب التعليق التوضيحي الجينوم التي يمكن تغييرها بعد السؤال البيولوجي، والكشف عن isoforms، قراءات متعددة مرسومة وتقاطعات exon-exon، المقابلة للمعلمات، GTF.attrType ="gene_name" للجين أو عدم تحديد المعلمات لمستوى الفوقية ميزة، والسماحMultiOverlap = TRUE، وjuncCounts = TRUE، على التوالي.
    1. الوصول إلى مجلد البرامج النصية باستخدام سطر الأوامر:
      مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
    2. للتعليق التوضيحي على القراءات المعينة للحصول على تعدادات أولية لكل جين، قم بتنفيذ سطر الأوامر:
      تعليق توضيحي ل Rscript. R
      ملاحظة: المعلمات المستخدمة لعملية التعليق التوضيحي هي: إرجاع اسم جين قصير (GTF.attrType="gene_name")؛ السماح بتداخلات متعددة (allowMultiOverlap = TRUE)؛ وتشير إلى أن المكتبة مقترنة نهاية (isPairedEnd =TRUE). لاستراتيجية أحادية النهاية، استخدم المعلمة isPairedEnd=FALSE. سيتم حفظ النتائج في المجلد /home/transcriptome-pipeline/countreads.
  4. تطبيع التعبير الجيني.
    ملاحظة: يعد تطبيع التعبير الجيني أمرا ضروريا لمقارنة النتائج بين النتائج (على سبيل المثال، العينات الصحية والمصابة). كما يلزم التطبيع لإجراء التحليلات المشتركة في التعبير والدرجة الجزيئية للاضطرابات.
    1. الوصول إلى مجلد البرامج النصية باستخدام سطر الأوامر:
      مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
    2. تطبيع التعبير الجيني. لهذا، تنفيذ سطر الأوامر:
      Rscript تطبيع الطوابع. R
      ملاحظة: تم تطبيع تعبير التهم الخام في هذه التجربة باستخدام أساليب "الوسط المشذب لقيم M" (TMM) و "عدد لكل مليون" (CPM). تهدف هذه الخطوة إلى إزالة الاختلافات في التعبير الجيني بسبب التأثير التقني ، من خلال القيام بتطبيع حجم المكتبة. سيتم حفظ النتائج في المجلد /home/transcriptome-pipeline/countreads.

4. الجينات المعرب عنها بشكل تفاضلي والجينات المشتركة

  1. تحديد الجينات المعرب عنها بشكل تفاضلي باستخدام حزمة EdgeR مفتوحة المصدر. وهذا ينطوي على العثور على الجينات التي التعبير هو أعلى أو أقل بالمقارنة مع عنصر التحكم.
    1. الوصول إلى مجلد البرامج النصية باستخدام سطر الأوامر:
      مؤتمر نزع السلاح / المنزل / transcriptome خط أنابيب / البرامج النصية
    2. لتعريف gene التعبير عن تفاضلي تنفيذ البرنامج النصي R DEG_edgeR باستخدام سطر الأوامر:
      Rscript DEG_edgeR.R
      ملاحظة: سيتم حفظ النتائج التي تحتوي على الجينات المعرب عنها بشكل تفاضلي في المجلد /home/transcriptome-pipeline/results/degs. يمكن نقل البيانات إلى كمبيوتر شخصي.
  2. تحميل البيانات من حاوية csblusp / transcriptome.
    1. نقل البيانات المعالجة من /home/transcriptome-pipeline إلى المجلد /opt/transferdata (الكمبيوتر المحلي).
    2. نسخ كافة الملفات إلى الكمبيوتر المحلي عن طريق تنفيذ سطر الأوامر:
      CP-rf /home/transcriptome-pipeline/results/opt/transferdata/pipeline
      CP-rf /home/transcriptome-pipeline/data/opt/transferdata/pipeline

      ملاحظة: الآن، انتقل إلى الكمبيوتر المحلي لضمان توفر كافة النتائج ومجموعات البيانات والبيانات للتنزيل في مسار المضيف.
  3. تعريف وحدات التعبير المشترك.
    1. الوصول إلى أداة تعريف الوحدات النمطية المشتركة (CEMiTool) على الويب (جدول
      المواد
      ). تعرف هذه الأداة وحدات التعبير المشترك من مجموعات بيانات التعبير التي يقدمها المستخدمون. في الصفحة الرئيسية، انقر على تشغيل في أعلى اليمين. سيؤدي ذلك إلى فتح صفحة جديدة لتحميل ملف التعبير.
    2. انقر على اختيار ملف أسفل قسم ملف التعبير وتحميل مصفوفة التعبير الجينية التي تم تسويتها "tmm_expression.tsv" من مسار المضيف.
      ملاحظة: الخطوة 4.4. غير إلزامي.
  4. استكشاف المعنى البيولوجي لوحدات التعبير المشترك.
    1. انقر فوق اختيار ملف في قسم نماذج الأنماط الظاهرية وتحميل الملف مع نماذج الأنماط الظاهرية metadata_cemitool.tsv من تنزيل البيانات الخطوة 4.2.2. لإجراء تحليل إثراء مجموعة الجينات (GSEA).
    2. اضغط على اختيار ملف في قسم التفاعلات الجينية لتحميل ملف مع التفاعلات الجينية (cemitool-interactions.tsv). فمن الممكن استخدام ملف التفاعلات الجينية المقدمة كمثال من قبل webCEMiTool. يمكن أن تكون التفاعلات تفاعلات البروتين والبروتين، وعوامل النسخ وجيناتها المنسوخة، أو المسارات الأيضية. ينتج عن هذه الخطوة شبكة تفاعل لكل وحدة نمطية التعبير المشترك.
    3. انقر على اختيار ملف في قسم مجموعات الجينات لتحميل قائمة من الجينات ذات الصلة وظيفيا في مصفوفة الجينات المنقولة (GMT) ملف الشكل. يتيح ملف Gene Set الأداة من إجراء تحليل الإثراء لكل وحدة تعبير مشترك، أي تحليل التمثيل الزائد (ORA).
      ملاحظة: يمكن أن تشمل قائمة الجينات هذه مسارات أو مصطلحات GO أو جينات مستهدفة من ميرنا. يمكن للباحث استخدام وحدات نسخ الدم (BTM) ك مجموعات جينية لهذا التحليل. ملف BTM (BTM_for_GSEA.gmt).
  5. تعيين معلمات لإجراء تحليلات التعبير المشترك والحصول على نتائجها.
    1. توسيع المقطع المعلمة بعد ذلك، بالنقر فوق علامة الجمع لعرض المعلمات الافتراضية. إذا لزم الأمر، تغييرها. حدد المربع تطبيق VST .
    2. اكتب البريد الإلكتروني في قسم البريد الإلكتروني لتلقي النتائج كبريد إلكتروني. هذه الخطوة اختيارية.
    3. اضغط الزر تشغيل CEMiTool .
    4. قم بتنزيل تقرير التحليل الكامل بالنقر على تنزيل التقرير الكامل في أعلى اليمين. سيتم تنزيل ملف مضغوط cemitool_results.zip.
    5. استخراج محتويات cemitool_results.zip مع WinRAR.
      ملاحظة: المجلد مع محتويات المستخرجة يشمل عدة ملفات مع كافة نتائج التحليل والمعلمات الخاصة بهم المنشأة.

5. تحديد الدرجة الجزيئية من اضطراب العينات

  1. درجة الجزيئية من الاضطراب (MDP) نسخة الويب.
    1. لتشغيل MDP، قم بالوصول إلى موقع MDP (جدول المواد). يقوم MDP بحساب المسافة الجزيئية لكل عينة من المرجع. انقر على زر التشغيل .
    2. في الرابط اختيار ملف ، قم بتحميل ملف التعبير tmm_expression.tsv. ثم قم بتحميل بيانات التعريف ملف phenotypic.tsv من تنزيل البيانات الخطوة 4.2.2. من الممكن أيضا تقديم ملف تعليق توضيحي للمسار بتنسيق GMT لحساب درجة اضطراب المسارات المرتبطة بالمرض.
    3. بمجرد تحميل البيانات، حدد عمود الفئة الذي يحتوي على المعلومات الظاهرية المستخدمة من قبل MDP. ثم قم بتعريف فئة عنصر التحكم عن طريق تحديد التسمية التي تتوافق مع فئة عنصر التحكم.
      ملاحظة: هناك بعض المعلمات الاختيارية التي ستؤثر على كيفية حساب عشرات العينة. إذا لزم الأمر ، فإن المستخدم قادر على تغيير طريقة متوسط الإحصاءات ، والانحراف المعياري ، والنسبة المئوية العليا للجينات المضطربة.
    4. بعد ذلك، اضغط على الزر تشغيل MDP وسيتم عرض نتائج MDP. يمكن للمستخدم تحميل الأرقام عن طريق النقر على تحميل المؤامرة في كل مؤامرة، فضلا عن درجة MDP على زر تحميل MDP ملف نقاط .
      ملاحظة: في حالة وجود أسئلة حول كيفية إرسال الملفات أو كيفية عمل MDP، انتقل فقط من خلال البرنامج التعليمي وحول صفحات الويب.

6. تحليل الإثراء الوظيفي

  1. إنشاء قائمة واحدة من DEGs أسفل التنظيم وأخرى من DEGs منظمة صعودا. يجب أن تكون أسماء الجينات وفقا لرموز الجينات Entrez. يجب وضع كل جين من القائمة على سطر واحد.
  2. حفظ قوائم الجينات في تنسيق txt أو tsv.
  3. الوصول إلى موقع Enrichr (جدول المواد) لإجراء التحليل الوظيفي.
  4. حدد قائمة الجينات بالنقر على اختيار ملف. حدد إحدى قائمة DEGs واضغط على الزر إرسال .
  5. انقر على المسارات في أعلى صفحة الويب لإجراء تحليل الإثراء الوظيفي باستخدام نهج ORA.
  6. اختر قاعدة بيانات المسار. تستخدم قاعدة بيانات المسار "Reactome 2016" على نطاق واسع للحصول على المعنى البيولوجي للبيانات البشرية.
  7. انقر على اسم قاعدة بيانات المسار مرة أخرى. حدد شريط الرسم البياني وتحقق ما إذا كان يتم فرزها حسب ترتيب القيمة p. إذا لم يكن كذلك، انقر على الرسم البياني الشريط حتى يتم فرزها حسب القيمة p. يتضمن هذا الرسم البياني الشريطي أعلى 10 مسارات وفقا لقيم p.
  8. اضغط على زر التكوين وحدد اللون الأحمر لتحليل الجينات المنظمة لأعلى أو اللون الأزرق لتحليل الجينات الخاضعة للتنظيم لأسفل. حفظ الرسم البياني شريط في عدة أشكال من خلال النقر على svg، بابوا نيو غينيا، و jpg.
  9. حدد الجدول وانقر على تصدير إدخالات إلى الجدول في أسفل يسار الرسم البياني شريط للحصول على نتائج تحليل الإثراء الوظيفي في ملف txt.
    ملاحظة: يشمل ملف نتائج الإثراء الوظيفي هذا في كل سطر اسم مسار واحد، وعدد الجينات المتراكبة بين قائمة DEG المقدمة والمسار، والقيمة p، والقيمة p المعدلة، ونسبة الاحتمالات، والنتيجة المجمعة، والرمز الجيني للجينات الموجودة في قائمة DEG التي تشارك في المسار.
  10. كرر نفس الخطوات مع قائمة DEGs الأخرى.
    ملاحظة: يوفر التحليل مع DEGs الخاضعة للتنظيم لأسفل مسارات غنية للجينات الخاضعة للتنظيم لأسفل ويوفر التحليل مع الجينات المنظمة صعودا مسارات غنية للجينات المنظمة.

النتائج

تم إنشاء بيئة الحوسبة لتحليلات النسخ وتكوينها على منصة Docker. هذا النهج يسمح للمستخدمين المبتدئين لينكس لاستخدام أنظمة المحطة الطرفية لينكس دون معرفة الإدارة المسبقة. يستخدم النظام الأساسي Docker موارد نظام التشغيل المضيف لإنشاء حاوية خدمة تتضمن أدوات مستخدمين محددة (الشكل 1B...

Discussion

يعد إعداد مكتبات التسلسل خطوة حاسمة نحو الإجابة على الأسئلة البيولوجية بأفضل طريقة ممكنة. وسيسترشد بنوع المحاضر التي تهم الدراسة نوع مكتبة التسلسل التي سيتم اختيارها وتدفع التحليلات المعلوماتية الحيوية. على سبيل المثال ، من تسلسل تفاعل الممرض والمضيف ، وفقا لنوع التسلسل ، من الممكن تحدي...

Disclosures

وليس لدى صاحبي البلاغ ما يكشفان عنه.

Acknowledgements

يتم تمويل HN من قبل FAPESP (أرقام المنح: #2017/50137-3، 2012/19278-6، 2018/14933-2، 2018/21934-5، و2013/08216-2) والمجلس الوطني لنواب الشعب (313662/2017-7).

نحن ممتنون بشكل خاص للمنح التالية للزملاء: ANAG (FAPESP Process 2019/13880-5)، VEM (FAPESP Process 2019/16418 -0)، IMSC (FAPESP عملية 2020/05284-0)، APV (FAPESP عملية 2019/27146-1) و، RLTO (عملية CNPq 134204/2019-0).

Materials

NameCompanyCatalog NumberComments
CEMiToolComputational Systems Biology Laboratory1.12.2Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeRBioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au])3.30.3Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcanoBioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk])1.6.0Publication-ready volcano plots with enhanced colouring and labeling
FastQCBabraham Bioinformatics0.11.9Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCountsBioinformatics Division, The Walter and Eliza Hall Institute of Medical Research2.0.0Assign mapped sequencing reads to specified genomic features
MDPComputational Systems Biology Laboratory1.8.0Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
RR Core Group4.0.3Programming language and free software environment for statistical computing and graphics
STARBioinformatics Division, The Walter and Eliza Hall Institute of Medical Research2.7.6aAligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2Johns Hopkins University2.4.2Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
TrimmomaticTHE USADEL LAB0.39Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get DockerDocker20.10.2Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-KernelWindowsNAhttps://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker LinuxDockerNAhttps://docs.docker.com/engine/install/ubuntu/
Docker Linux RepositoryDockerNAhttps://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP WebsiteComputational Systems Biology LaboratoryNAhttps://mdp.sysbio.tools
Enrichr WebsiteMaayanLabNAhttps://maayanlab.cloud/Enrichr/
webCEMiToolComputational Systems Biology LaboratoryNAhttps://cemitool.sysbio.tools/
gProfilerBioinformatics, Algorithmics and Data Mining GroupNAhttps://biit.cs.ut.ee/gprofiler/gost
goseqBioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk])NAhttp://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI studyNCBINAhttps://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

References

  1. Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
  2. Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
  3. Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
  4. Suhrbier, A., Jaffar-Bandjee, M. -. C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
  5. Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
  6. Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
  7. Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
  8. Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
  9. Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
  10. Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
  11. Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
  12. Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
  13. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
  14. Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
  15. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, (2005).
  16. Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
  17. Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
  18. de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
  19. Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
  20. Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
  21. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  22. Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
  23. Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Explore More Articles

181 seq

This article has been published

Video Coming Soon

JoVE Logo

Privacy

Terms of Use

Policies

Research

Education

ABOUT JoVE

Copyright © 2025 MyJoVE Corporation. All rights reserved