JoVE Logo

Sign In

A subscription to JoVE is required to view this content. Sign in or start your free trial.

In This Article

  • Summary
  • Abstract
  • Introduction
  • Protocol
  • النتائج
  • Discussion
  • Disclosures
  • Acknowledgements
  • Materials
  • References
  • Reprints and Permissions

Summary

توفر هذه المنصة الحسابية التحليلية إرشادات عملية لعلماء الأحياء الدقيقة وعلماء البيئة وعلماء الأوبئة المهتمين بعلم جينوم السكان البكتيري. وعلى وجه التحديد، أظهر العمل المعروض هنا كيفية القيام بما يلي: (أ) رسم الخرائط الموجهة بالسلالات للأنماط الجينية الهرمية؛ و (ب) رسم الخرائط الوراثية الهرمية الموجهة بالسلالات الوراثية؛ و (ج) رسم الخرائط الموجهة بالسلالات للأنماط الجينية الهرمية؛ و (ج) رسم الخرائط الوراثية الموجهة بالسلالات للأنماط ب) التحليل القائم على التردد للأنماط الوراثية؛ ج) تحليلات القرابة والنسلية؛ iv) تحديد النسب الذي يميز مواقع الملحقات.

Abstract

يعمل الاستخدام الروتيني والمنهجي لتسلسل الجينوم الكامل البكتيري (WGS) على تعزيز دقة وحل التحقيقات الوبائية التي تجريها مختبرات الصحة العامة والوكالات التنظيمية. يمكن استخدام كميات كبيرة من بيانات WGS المتاحة للجمهور لدراسة المجموعات المسببة للأمراض على نطاق واسع. في الآونة الأخيرة ، تم نشر منصة حسابية متاحة مجانا تسمى ProkEvo لتمكين التحليلات الجينومية السكانية القائمة على التسلسل الهرمي القابلة للتكرار والمؤتمتة والقابلة للتطوير باستخدام بيانات WGS البكتيرية. أظهر هذا التنفيذ ل ProkEvo أهمية الجمع بين رسم الخرائط الجينية القياسية للسكان مع تعدين المحتوى الجيني الملحق للاستدلال البيئي. على وجه الخصوص ، استخدم العمل الذي تم تسليط الضوء عليه هنا مخرجات مشتقة من ProkEvo للتحليلات الهرمية ذات النطاق السكاني باستخدام لغة البرمجة R. وكان الهدف الرئيسي هو توفير دليل عملي لعلماء الأحياء الدقيقة وعلماء البيئة وعلماء الأوبئة من خلال إظهار كيفية: (أ) استخدام رسم خرائط موجهة بالسلالات للأنماط الجينية الهرمية؛ و (ب) استخدام خرائط موجهة بالسلالات للأنماط الجينية الهرمية؛ و (ب) استخدام خرائط موجهة بالسلالات للأنماط الجينية الهرمية؛ و (ب) استخدام خرائط موجهة بالسلالات للأنماط الجينية الهرمية؛ و (ب) استخدام خرائط موجهة بالسلالات للأنماط الجينية الهرمية؛ و (ج) استخدام خرائط موجهة بالسلالات للأنماط الجينية الهرمية؛ و (ج) استخدام خرائط موجهة بالسلالات للأنماط الجينية الهرمية؛ و (ج) ب) تقييم التوزيعات الترددية للأنماط الجينية كبديل للياقة البيئية ؛ تحديد علاقات القرابة والتنوع الجيني باستخدام تصنيفات جينية محددة؛ و iv) خريطة النسب التي تميز مواقع الملحقات. لتعزيز قابلية التكرار وقابلية النقل ، تم استخدام ملفات تخفيض علامات R لإظهار النهج التحليلي بأكمله. احتوت مجموعة البيانات النموذجية على بيانات جينومية من 2,365 عزلة من مسببات الأمراض الحيوانية المنشأ المنقولة بالأغذية السالمونيلا نيوبورت. كشفت الخرائط المثبتة على الفيلوجيني للأنماط الجينية الهرمية (Serovar -> BAPS1 -> ST -> cgMLST) عن البنية الجينية للسكان ، مع تسليط الضوء على أنواع التسلسل (STs) باعتبارها حجر الزاوية الذي يميز النمط الوراثي. عبر السلالات الثلاثة الأكثر هيمنة ، تشترك ST5 و ST118 في سلف مشترك في الآونة الأخيرة أكثر من النمط التكاثري ST45 عالي النسيلة. كما تم تسليط الضوء على الاختلافات القائمة على ST من خلال توزيع مواقع مقاومة مضادات الميكروبات الملحقة. وأخيرا، استخدم تصور يرتكز على علم الوراثة للجمع بين الأنماط الجينية الهرمية ومحتوى مقاومة مضادات الميكروبات للكشف عن بنية القرابة والبصمات الجينومية الخاصة بالنسب. يوفر هذا النهج التحليلي مجتمعا بعض المبادئ التوجيهية لإجراء التحليلات الجينومية البكتيرية الإرشادية باستخدام المعلومات الجينومية الشاملة.

Introduction

أدى الاستخدام المتزايد لتسلسل الجينوم الكامل البكتيري (WGS) كأساس للترصد الروتيني والتحقيق الوبائي من قبل مختبرات الصحة العمومية والوكالات التنظيمية إلى تعزيز كبير في تحقيقات فاشيات مسببات الأمراض1،2،3،4. ونتيجة لذلك، أصبحت الآن كميات كبيرة من بيانات WGS غير المحددة متاحة للجمهور ويمكن استخدامها لدراسة جوانب البيولوجيا السكانية للأنواع المسببة للأمراض على نطاق غير مسبوق، بما في ذلك الدراسات القائمة على: الهياكل السكانية، وترددات النمط الجيني، وترددات الجينات/الأليل عبر مكامن متعددة، ومناطق جغرافية، وأنواع البيئات5 . تستند الاستفسارات الوبائية الأكثر استخداما الموجهة من WGS إلى تحليلات تستخدم فقط المحتوى الجينومي الأساسي المشترك ، حيث يتم استخدام المحتوى المشترك (المحفوظ) وحده لتصنيف النمط الجيني (على سبيل المثال ، استدعاء المتغيرات) ، وتصبح هذه المتغيرات أساسا للتحليل الوبائي وتتبع1،2،6،7 . عادة ، يتم إجراء التنميط الجيني البكتيري القائم على الجينوم الأساسي باستخدام نهج كتابة التسلسل متعدد المواقع (MLST) باستخدام سبعة إلى بضعة آلاف من المواقع8،9،10. وتشمل هذه الاستراتيجيات القائمة على MLST رسم خرائط للتسلسلات الجينومية المجمعة مسبقا أو المجمعة في قواعد بيانات منسقة للغاية ، وبالتالي الجمع بين المعلومات الأليلية في وحدات النمط الجيني القابلة للتكرار للتحليل الوبائي والبيئي11,12. على سبيل المثال ، يمكن لهذا التصنيف القائم على MLST توليد معلومات النمط الجيني على مستويين من الدقة: أنواع التسلسل الأدنى مستوى (STs) أو سلالات ST (7 مواقع) ، ومتغيرات MLST الأساسية ذات المستوى الأعلى (cgMLST) (~ 300-3000 موقع)10.

تصنيف النمط الجيني القائم على MLST محمول حسابيا وقابل للتكرار بشكل كبير بين المختبرات ، مما يجعله مقبولا على نطاق واسع كنهج تصنيف فرعي دقيق تحت مستوى الأنواع البكتيرية13,14. ومع ذلك ، يتم تنظيم المجموعات البكتيرية بدرجات متفاوتة من النسيلة الخاصة بالأنواع (أي التجانس الوراثي) ، والأنماط المعقدة من القرابة الهرمية بين الأنماط الوراثية15،16،17 ، ومجموعة واسعة من التباين في توزيع المحتوى الجينومي التبعي18،19 . وبالتالي ، فإن النهج الأكثر شمولية يتجاوز التصنيفات المنفصلة إلى الأنماط الجينية MLST ويتضمن العلاقات الهرمية للأنماط الجينية على نطاقات مختلفة من الدقة ، إلى جانب رسم خرائط للمحتوى الجينومي التبعي على تصنيفات النمط الجيني ، مما يسهل الاستدلال القائم على السكان18،20،21 . علاوة على ذلك، يمكن أن تركز التحليلات أيضا على الأنماط المشتركة لوراثة المواقع الجينومية الملحقة بين الأنماط الجينية ذات الصلة البعيدة21,22. وعموما، يتيح النهج المشترك الاستجواب اللاأدري للعلاقات بين التركيب السكاني وتوزيع التراكيب الجينومية المحددة (على سبيل المثال، الموقع) بين التدرجات الجغرافية المكانية أو البيئية. ويمكن لمثل هذا النهج أن يسفر عن معلومات أساسية وعملية عن الخصائص الإيكولوجية لمجموعات سكانية محددة قد تفسر بدورها أنماط استداريتها وتشتتها عبر الخزانات، مثل الغذاء أو البشر.

يتطلب هذا النهج الهرمي القائم على النظم والموجه نحو السكان كميات كبيرة من بيانات WGS للحصول على قوة إحصائية كافية للتنبؤ بالتوقيعات الجينومية المميزة. وبالتالي ، يتطلب النهج منصة حسابية قادرة على معالجة عدة آلاف من الجينومات البكتيرية في وقت واحد. في الآونة الأخيرة ، تم تطوير ProkEvo وهو عبارة عن منصة معلوماتية حيوية متاحة مجانا ومؤتمتة ومحمولة وقابلة للتطوير تسمح بتحليلات سكانية بكتيرية تكاملية قائمة على التسلسل الهرمي ، بما في ذلك رسم الخرائط الجينوميةالشاملة 20. يسمح ProkEvo بدراسة مجموعات البيانات البكتيرية متوسطة إلى كبيرة الحجم مع توفير إطار عمل لتوليد فرضيات وبائية وبيئية قابلة للاختبار والاستدلال وتنبؤات مظهرية يمكن تخصيصها من قبل المستخدم. ويكمل هذا العمل خط الأنابيب هذا في توفير دليل حول كيفية استخدام ملفات المخرجات المشتقة من بروكإيفو كمدخلات لتحليل وتفسير تصنيفات السكان الهرمية والتعدين الجينومي الملحق. استخدمت دراسة الحالة المقدمة هنا سكان سلالة السالمونيلا المعوية I serovar S. نيوبورت كمثال وكان يهدف على وجه التحديد إلى توفير مبادئ توجيهية عملية لعلماء الأحياء الدقيقة وعلماء البيئة وعلماء الأوبئة حول كيفية: أ) استخدام نهج آلي يعتمد على علم الوراثة لرسم خرائط الأنماط الجينية الهرمية. ب) تقييم التوزيع الترددي للأنماط الجينية كبديل لتقييم اللياقة البيئية ؛ ج) تحديد درجات النسب الخاصة بالنسب باستخدام مناهج إحصائية مستقلة؛ ورابعا) رسم خريطة لمواقع مقاومة مضادات الميكروبات التي تميز النسب كمثال على كيفية استخراج المحتوى الجينومي التبعي في سياق التركيب السكاني. وعلى نطاق أوسع، يوفر هذا النهج التحليلي إطارا قابلا للتعميم لإجراء تحليل جينومي قائم على السكان على نطاق يمكن استخدامه لاستنتاج الأنماط التطورية والإيكولوجية بغض النظر عن الأنواع المستهدفة.

Protocol

1. إعداد ملفات الإدخال

ملاحظة: البروتوكول متاح هنا - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. يفترض البروتوكول أن الباحث قد استخدم ProkEvo على وجه التحديد (أو خط أنابيب مماثل) للحصول على المخرجات الضرورية المتاحة في مستودع Figshare هذا (https://figshare.com/account/projects/116625/articles/15097503 - بيانات اعتماد تسجيل الدخول مطلوبة - يجب على المستخدم إنشاء حساب مجاني للوصول إلى الملف!). تجدر الإشارة إلى أن ProkEvo يقوم تلقائيا بتنزيل التسلسلات الجينومية من مستودع NCBI-SRA ولا يتطلب سوى ملف .txt يحتوي على قائمة بتعريفات الجينوم كمدخلات20 ، والملف المستخدم لهذا العمل على S. يتم توفير عزلات نيوبورت الولايات المتحدة الأمريكية هنا (https://figshare.com/account/projects/116625/articles/15097503?file=29025729).  تتوفر معلومات مفصلة حول كيفية تثبيت واستخدام منصة الجينوم البكتيرية هذه هنا (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20

  1. قم بإنشاء علم سلالات الجينوم الأساسي باستخدام FastTree23 كما هو موضح سابقا 20 ، وهو ليس جزءا من منصة المعلوماتية الحيوية20. يتطلب FastTree محاذاة الجينوم الأساسي Roary24 كملف إدخال. يسمى ملف phylogeny newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690).
  2. قم بإنشاء مخرجات SISTR25 التي تحتوي على المعلومات المتعلقة بتصنيفات السيروفارات لبيانات استدعاء متغير السالمونيلا و cgMLST (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
  3. قم بإنشاء ملف BAPS بواسطة fastbaps26,27 الذي يحتوي على تصنيف BAPS للمستويات 1-6 للجينومات إلى مجموعات فرعية أو أنماط فردية (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684).
  4. إنشاء تصنيف قائم على MLST للجينومات إلى STs باستخدام برنامج MLST (https://github.com/tseemann/mlst)28 (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696).
  5. إنشاء مخرجات ABRicate (https://github.com/tseemann/abricate)29 كملف .csv يحتوي على مواقع مقاومة مضادات الميكروبات التي تم تعيينها لكل جينوم (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693).
    ملاحظة: يمكن للمستخدم إيقاف تشغيل أجزاء معينة من خط أنابيب المعلوماتية الحيوية ProkEvo (تحقق هنا لمزيد من المعلومات - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). يوفر النهج التحليلي المعروض هنا مبادئ توجيهية لكيفية إجراء تحليل قائم على السكان بعد تشغيل خط أنابيب المعلوماتية الحيوية.

2. تحميل وتثبيت البرنامج الإحصائي وتطبيق بيئة التنمية المتكاملة (IDE)

  1. قم بتنزيل أحدث إصدار متاح مجانا من برنامج R لنظام التشغيل Linux أو Mac أو الكمبيوتر الشخصي30. اتبع خطوات التثبيت الافتراضية.
  2. قم بتنزيل أحدث إصدار متاح مجانا من RStudio desktop IDE هنا31. اتبع الخطوات الافتراضية للتثبيت.
    ملاحظة: يتم تضمين الخطوات التالية في البرنامج النصي المتاح، بما في ذلك معلومات مفصلة عن استخدام التعليمات البرمجية، ويجب تشغيلها بالتتابع لإنشاء المخرجات والأرقام المعروضة في هذا العمل (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). قد يقرر المستخدم استخدام لغة برمجة أخرى لإجراء هذا التحليل التحليلي / الإحصائي مثل بايثون. في هذه الحالة ، استخدم الخطوات الموجودة في البرامج النصية كإطار لإجراء التحليل.

3. تثبيت وتفعيل مكتبات علوم البيانات

  1. قم بتثبيت جميع مكتبات علوم البيانات في وقت واحد كخطوة أولى في التحليل. تجنب تثبيت المكتبات في كل مرة يحتاج فيها البرنامج النصي إلى إعادة تشغيله. استخدم الدالة install.packages() لتثبيت المكتبة. بدلا من ذلك ، يمكن للمستخدم النقر فوق علامة التبويب الحزم داخل IDE وتثبيت الحزم تلقائيا. يتم عرض الرمز المستخدم لتثبيت جميع المكتبات المطلوبة هنا:
    # تثبيت Tidyverse
    install.packages ("tidyverse")
    # تثبيت skimr

    install.packages ("skimr")
    # تثبيت نباتي
    install.packages ("نباتي")
    # تثبيت forcats
    install.packages ("forcats")
    # تثبيت نانيار
    install.packages("naniar")
    # تثبيت ggpubr
    install.packages("ggpubr")
    # تثبيت ggrepel
    install.packages ("ggrepel")
    # تثبيت إعادة تشكيل2
    install.packages("reshape2")
    # تثبيت RColorBrewer
    install.packages("RColorBrewer")
    # تثبيت ggtree
    إذا (!تتطلب مساحة الاسم ("BiocManager" ، بهدوء = TRUE))
    install.packages ("BiocManager")
    BiocManager::install("ggtree")
    # سيؤدي تثبيت ggtree إلى طرح سؤال حول التثبيت - الإجابة هي "a" لتثبيت / تحديث جميع التبعيات
  2. قم بتنشيط كافة المكتبات أو الحزم باستخدام وظيفة library() في بداية البرنامج النصي، مباشرة بعد التثبيت. فيما يلي عرض توضيحي حول كيفية تفعيل جميع الحزم الضرورية:
    # تفعيل المكتبات والباقات
    المكتبة (مرتبة)
    المكتبة (skimr)
    مكتبة (نباتي)
    المكتبة (المعاونات)
    مكتبة (نانيار)
    المكتبة (ggtree)
    المكتبة (ggpubr)
    المكتبة (الغريبة)
    المكتبة(إعادة تشكيل2)
    المكتبة (RColorBrewer)
  3. منع إخراج التعليمات البرمجية المستخدمة لتثبيت المكتبة والحزمة وتنشيطها باستخدام {r, include = FALSE} في ظرف التعليمات البرمجية، كما يلي:
    ''' {r, include = FALSE}
    # تثبيت Tidyverse

    install.packages ("tidyverse")
    ```

    ملاحظة: هذه الخطوة اختيارية ولكنها تتجنب عرض أجزاء من التعليمات البرمجية غير الضرورية في تقرير html أو doc أو pdf النهائي.
  4. للحصول على وصف موجز للوظائف المحددة لجميع المكتبات إلى جانب بعض الروابط المفيدة لجمع مزيد من المعلومات، راجع الخطوات 3.4.1-3.4.11.
    1. Tidyverse - استخدم هذه المجموعة من الحزم المستخدمة في علوم البيانات ، بما في ذلك إدخال البيانات والتصور والتحليل والتجميع والنمذجة الإحصائية. عادة ما تكون ggplot2 (تصور البيانات) و dplyr (مشاحنات البيانات والنمذجة) حزمتين عمليتين موجودتين في هذه المكتبة32.
    2. skimr - استخدم هذه الحزمة لإنشاء إحصاءات موجزة لإطارات البيانات، بما في ذلك تحديد القيم المفقودة33.
    3. نباتي - استخدم هذه الحزمة للتحليلات الإحصائية للبيئة المجتمعية ، مثل حساب الإحصاءات القائمة على التنوع (على سبيل المثال ، ألفا وبيتا التنوع)34.
    4. forcats - استخدم هذه الحزمة للعمل مع المتغيرات الفئوية مثل إعادة ترتيب التصنيفات. هذه الحزمة هي جزء من مكتبة Tidyverse32.
    5. naniar - استخدم هذه الحزمة لتصور توزيع القيم المفقودة عبر المتغيرات في إطار بيانات، باستخدام الدالة viss_miss()35.
    6. ggtree - استخدم هذه الحزمة لتصور الأشجار الجينية36.
    7. ggpubr - استخدم هذه الحزمة لتحسين جودة التصورات المستندة إلى ggplot237.
    8. ggrepel - استخدم هذه الحزمة لوضع العلامات النصية داخل الرسوم البيانية38.
    9. reshape2 - استخدم الدالة melt() من هذه الحزمة لتحويل إطارات البيانات من تنسيق واسع إلى تنسيق طويل39.
    10. RColorBrewer - استخدم هذه الحزمة لإدارة الألوان في المرئيات المستندة إلى ggplot240.
    11. استخدم الوظائف الأساسية التالية لتحليل البيانات الاستكشافية: head() للتحقق من الملاحظات الأولى في إطار بيانات ، tail() للتحقق من الملاحظات الأخيرة لإطار بيانات ، is.na() لحساب عدد الصفوف ذات القيم المفقودة عبر إطار بيانات ، dim() للتحقق من عدد الصفوف والأعمدة في مجموعة بيانات ، الجدول () لحساب الملاحظات عبر متغير ، و sum() لحساب العدد الإجمالي للملاحظات أو المثيلات.

4. إدخال البيانات وتحليلها

ملاحظة: يمكن العثور على معلومات مفصلة حول كل خطوة من خطوات هذا التحليل في البرنامج النصي المتاح (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). ومع ذلك ، إليك بعض النقاط المهمة التي يجب مراعاتها:

  1. قم بإدخال جميع البيانات الجينومية ، بما في ذلك جميع تصنيفات النمط الجيني (serovar و BAPS و ST و cgMLST) باستخدام وظيفة read_csv ().
  2. إعادة تسمية وإنشاء متغيرات جديدة وتحديد أعمدة ذات أهمية من كل مجموعة بيانات قبل تجميع مجموعات البيانات المتعددة.
  3. لا تقم بإزالة القيم المفقودة من أي مجموعة بيانات مستقلة. انتظر حتى يتم تجميع جميع مجموعات البيانات لتعديل القيم المفقودة أو استبعادها. إذا تم إنشاء متغيرات جديدة لكل مجموعة بيانات، تصنيف القيم المفقودة افتراضيا في أحد التصنيفات التي تم إنشاؤها حديثا.
  4. تحقق من وجود أحرف خاطئة مثل الواصلات أو علامات الاستجواب واستبدلها ب NA (غير قابل للتطبيق). افعل الشيء نفسه بالنسبة للقيم المفقودة.
  5. تجميع البيانات استنادا إلى الترتيب الهرمي للأنماط الجينية (serovar -> BAPS1 -> ST -> cgMLST) ، وعن طريق التجميع بناء على تعريفات الجينوم الفردية.
  6. تحقق من وجود قيم مفقودة باستخدام استراتيجيات متعددة وتعامل مع هذه التناقضات صراحة. قم بإزالة الجينوم أو اعزل البيانات فقط إذا كان التصنيف غير موثوق. خلاف ذلك ، فكر في التحليل الجاري وإزالة NAs على أساس كل حالة على حدة.
    ملاحظة: يوصى بشدة بوضع استراتيجية للتعامل مع هذه القيم بداهة. تجنب إزالة جميع الجينومات أو العزلات ذات القيم المفقودة عبر أي متغيرات. على سبيل المثال ، قد يكون للجينوم تصنيف ST دون وجود رقم متغير cgMLST. في هذه الحالة ، لا يزال من الممكن استخدام الجينوم للتحليل القائم على ST.
  7. بمجرد تجميع جميع مجموعات البيانات، قم بتعيينها إلى اسم إطار بيانات أو كائن يمكن استخدامه في مواقع متعددة في تحليل المتابعة، لتجنب الاضطرار إلى إنشاء نفس ملف البيانات الوصفية لكل شكل في الورقة.

5. إجراء التحليلات وتوليد التصورات

ملاحظة: يمكن العثور على وصف مفصل لكل خطوة مطلوبة لإنتاج جميع التحليلات والتصورات في ملف تخفيض الأسعار لهذه الورقة (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). يتم فصل التعليمات البرمجية لكل شكل إلى أجزاء ويجب تشغيل البرنامج النصي بأكمله بالتتابع. بالإضافة إلى ذلك، يتم توفير الرمز الخاص بكل رقم رئيسي وتكميلي كملف منفصل (انظر الملف التكميلي 1 والملف التكميلي 2). فيما يلي بعض النقاط الأساسية (مع مقتطفات من التعليمات البرمجية) التي يجب مراعاتها أثناء إنشاء كل الأرقام الرئيسية والتكميلية.

  1. استخدم ggtree لرسم شجرة التكاثر جنبا إلى جنب مع معلومات النمط الوراثي (الشكل 1).
    1. قم بتحسين حجم شكل ggtree ، بما في ذلك قطر وعرض الحلقات ، عن طريق تغيير القيم العددية داخل الدالتين xlim() و gheatmap (width = ) ، على التوالي (انظر مثال التعليمات البرمجية أدناه).
      tree_plot <- ggtree (شجرة ، تخطيط = "دائري") + xlim (-250 ، NA)
      figure_1 <- gheatmap(tree_plot، d4، إزاحة =.0، عرض = 20، colnames = FALSE)
      ملاحظة: للحصول على مقارنة أكثر تفصيلا للبرامج التي يمكن استخدامها للتخطيط الجيني ، تحقق من هذا العمل20. وسلط العمل الضوء على محاولة بذلت لتحديد استراتيجيات لتحسين التصورات القائمة على شجرة الشجرة مثل تقليل حجم مجموعة البيانات، ولكن أطوال الفروع وطوبولوجيا الأشجار لم تكن تمييزية بشكل واضح مقارنة بفاندانغو41.
    2. قم بتجميع جميع البيانات الوصفية في أقل عدد ممكن من الفئات لتسهيل اختيار لوحة التلوين عند رسم طبقات متعددة من البيانات باستخدام شجرة التكاثر (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd). إجراء تجميع البيانات بناء على مسألة الاهتمام ومعرفة المجال.
  2. استخدم مخططا شريطيا لتقييم الترددات النسبية (الشكل 2).
    1. تجميع البيانات لكل من سلالات ST ومتغيرات cgMLST لتسهيل التصورات. اختر عتبة تجريبية أو إحصائية تستخدم لتجميع البيانات، مع مراعاة السؤال المطروح.
    2. للحصول على مثال على التعليمات البرمجية التي يمكن استخدامها لفحص التوزيع الترددي لسلالات ST لتحديد الحد الأدنى ، انظر أدناه:
      st_dist <- d2 ٪>٪ group_by(ST) ٪>٪ # المجموعة حسب عمود ST
      count() ٪>٪ # عد عدد الملاحظات
      ترتيب (desc(n)) # ترتيب الأعداد بترتيب متناقص
    3. للحصول على مثال على التعليمات البرمجية التي توضح كيف يمكن تجميع STs الثانوية (منخفضة التردد) ، راجع أدناه. وكما هو مبين أدناه، فإن الطوائف المنبوذة التي لا يبلغ عددها 5 أو 31 أو 45 أو 46 أو 118 أو 132 أو 350 تجمع معا بوصفها "STs أخرى". استخدم تعليمة برمجية مشابهة لمتغيرات cgMLST (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd).
      d2$st <- ifelse(d2$ST == 5, "ST5", # إنشاء عمود ST جديد يتم تجميع S Ts الثانوية له كغيره
      ifelse(d2$ST == 31, "ST31",
      ifelse(d2$ST == 45, "ST45",
      ifelse(d2$ST == 46, "ST46",
      ifelse(d2$ST == 118, "ST118",
      ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "STs أخرى"))))))))
  3. استخدم نهجا متداخلا لحساب نسبة كل سلالة ST داخل كل مجموعة فرعية BAPS1 لتحديد STs المرتبطة بالأسلاف (تنتمي إلى نفس المجموعة الفرعية BAPS1) (الشكل 3). يوضح الرمز أدناه كيفية حساب النسبة المستندة إلى ST عبر المجموعات الفرعية BAPS1 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd):
    baps <- d2b ٪>٪ filter(serovar == "Newport") ٪>٪ # filter Newport serovars
    حدد (baps_1، ST) ٪>٪ # حدد أعمدة baps_1 وST
    mutate(ST = as.numeric(ST)) ٪>٪ # تغيير عمود ST إلى رقمي
    drop_na (baps_1 ، ST) ٪>٪ # انخفاض NAs
    group_by (baps_1 ، ST) ٪ > ٪ # المجموعة حسب baps_1 و ST
    تلخيص (n = n()) ٪>٪ # ملاحظات العد
    تحور (دعامة = ن / مجموع (ن) * 100) # حساب النسب
  4. ارسم توزيع مواقع مقاومة مضادات الميكروبات عبر سلالات ST باستخدام نتائج التعليقات التوضيحية الجينية المستندة إلى Resfinder (الشكل 4).
    ملاحظة: تم استخدام Resfinder على نطاق واسع في الدراسات البيئية والوبائية42. يمكن أن يختلف التعليق التوضيحي لجينات ترميز البروتين اعتمادا على عدد المرات التي يتم فيها تنظيم قواعد البيانات وتحديثها. إذا كان الباحث يستخدم خط أنابيب المعلوماتية الحيوية المقترح ، فيمكنه مقارنة تصنيفات المواقع القائمة على AMR عبر قواعد بيانات مختلفة20. تأكد من التحقق من قواعد البيانات التي يتم تحديثها باستمرار. لا تستخدم قواعد بيانات قديمة أو سيئة التنسيق، لتجنب المكالمات الخاطئة.
    1. استخدم عتبة تجريبية أو إحصائية لتصفية أهم مواقع مقاومة مضادات الميكروبات لتسهيل التصور. قم بتوفير ملف .csv أولي يحتوي على النسب المحسوبة لجميع مواقع AMR عبر جميع سلالات ST ، كما هو موضح هنا (https://figshare.com/account/projects/116625/articles/15097503?file=29025687).
    2. حساب نسبة AMR لكل ST باستخدام التعليمة البرمجية التالية (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd):
      # حسابات ST45
      d2c <- data6 ٪>٪ filter(st == "ST45") # تصفية بيانات ST45 أولا
      # بالنسبة للمعيار ST45، احسب نسبة مواقع مقاومة مضادات الميكروبات واحتفظ فقط بنسبة أكبر من 10٪

      d3c <- d2c ٪>٪ select(id, gene) ٪>٪ # حدد الأعمدة
      group_by (معرف ، جين) ٪ > ٪ # مجموعة حسب الهوية والجين
      تلخيص (عد = n()) ٪>٪ # ملاحظات العد
      mutate (count = replace(count, count == 2, 1)) ٪>٪ # استبدال الأعداد التي تساوي 2 مع 1 للنظر في نسخة واحدة فقط من كل جين (قد لا تكون الازدواجية موثوقة)، ولكن يمكن للباحث أن يقرر استبعادها أو الاحتفاظ بها. إذا أراد الباحث استبعادها ، فاستخدم وظيفة المرشح (العد != 2) أو اتركها كما هي
      filter (عدد < = 1) # عدد الفلاتر أقل أو يساوي 1
      d4c <- d3c ٪>٪ group_by(جين) ٪>٪ # مجموعة حسب الجين
      تلخيص (القيمة = n()) ٪>٪ # ملاحظات العد
      mutate (total = table(data1$st)[6]) ٪>٪ # احصل على إجمالي عدد المتحورات (الدعامة = (القيمة/الإجمالي)*100) # حساب النسب
      d5c <- d4c ٪>٪ متحور (st = "ST45") # إنشاء عمود st وإضافة معلومات ST
    3. بعد إجراء العمليات الحسابية لجميع STs ، قم بدمج مجموعات البيانات كإطار بيانات واحد ، باستخدام التعليمة البرمجية التالية:
      # الجمع بين مجموعات البيانات
      d6 <- rbind (d5a ، d5b ، d5c ، d5d ، d5e ، d5f ، d5g ، d5h) # صف ربط مجموعات البيانات
    4. لتصدير ملف .csv الذي يحتوي على النسب المحسوبة، استخدم التعليمة البرمجية:
      # جدول بيانات التصدير الذي يحتوي على معلومات مواقع ST و AMR
      abx_newport_st <- d6 الكتابة.csv(abx_newport_st، "abx_newport_st.csv"، row.names = FALSE)
    5. قبل رسم التوزيع القائم على مقاومة مضادات الميكروبات عبر سلالات ST ، قم بتصفية البيانات بناء على عتبة لتسهيل التصورات ، كما هو موضح أدناه:
      # تصفية AMR المواقع مع نسبة أعلى من أو تساوي 10٪
      d7 <- d6 ٪>٪ مرشح (الدعامة >= 10) # تحديد العتبة تجريبيا أو إحصائيا
  5. ارسم علم الوراثة الجينوم الأساسي جنبا إلى جنب مع تصنيفات النمط الوراثي الهرمي وبيانات مقاومة مضادات الميكروبات في مخطط واحد باستخدام ggtree (الشكل 5).
    1. قم بتحسين حجم الشكل داخل ggtree باستخدام المعلمات المذكورة أعلاه (انظر الخطوة 5.1.1).
    2. تحسين التصورات عن طريق تجميع المتغيرات، أو استخدام التصنيف الثنائي مثل وجود الجينات أو غيابها. كلما تمت إضافة المزيد من الميزات إلى المؤامرة ، كلما أصبحت عملية اختيار التلوين أصعب (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
      ملاحظة: أرقام تكميلية - يمكن العثور على وصف مفصل للرمز بأكمله هنا (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
  6. استخدم مخططا مبعثرا في ggplot2 ، دون تجميع البيانات ، لعرض توزيع سلالات ST أو متغيرات cgMLST مع تسليط الضوء على الأنماط الجينية الأكثر شيوعا (الشكل التكميلي 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
  7. قم بإجراء تحليل متداخل لتقييم تكوين سلالات ST من خلال نسبة متغيرات cgMLST من أجل الحصول على لمحة عن التنوع الجيني القائم على ST ، مع تحديد المتغيرات الأكثر شيوعا وعلاقاتها الجينية (أي متغيرات cgMLST التي تنتمي إلى نفس ST تشترك في سلف في الآونة الأخيرة أكثر من تلك التي تنتمي إلى STs متميزة) (الشكل التكميلي 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
  8. استخدم مقياس البيئة المجتمعية ، أي مؤشر سيمبسون D للتنوع ، لقياس درجة النسيلة أو التنوع الجيني لكل من سلالات ST الرئيسية43 (الشكل التكميلي 3).
    1. حساب مؤشر التنوع عبر سلالات ST على مستويات مختلفة من دقة النمط الجيني بما في ذلك BAPS المستوى 1 إلى 6 و cgMLST. فيما يلي مثال التعليمات البرمجية حول كيفية إجراء هذا الحساب في المستوى 1 من BAPS (BAPS1) من دقة النمط الوراثي:
      # BAPS المستوى 1 (BAPS1)
      # إسقاط STs و BAPS1 مع NAs ، مجموعة حسب ST و BAPS1 ثم حساب مؤشر سيمبسون
      baps1 <- بيانات6 ٪>٪
      حدد (st, BAPS1) ٪>٪ # حدد الأعمدة
      drop_na (ش ، BAPS1) ٪ > ٪ # انخفاض NAs
      group_by(st, BAPS1) ٪>٪ # المجموعة حسب الأعمدة
      تلخيص (n = n()) ٪>٪ # ملاحظات العد
      mutate(simpson = diversity(n, "simpson")) ٪>٪ # حساب التنوع
      group_by(st) ٪>٪ # المجموعة حسب العمود
      تلخيص (سيمبسون = الوسط (سيمبسون)) ٪>٪ # حساب متوسط المؤشر
      melt(id.vars=c("st"), measure.vars="simpson",
      variable.name="index", value.name="value") ٪>٪ # سرية في شكل طويل
      mutate(strat = "BAPS1") # إنشاء عمود طبقة
      ملاحظة: لدى السكان الأكثر تنوعا وراثيا (أي المزيد من المتغيرات في طبقات مختلفة من دقة النمط الوراثي) مؤشر أعلى على مستوى cgMLST وينتج قيما متزايدة قائمة على المؤشر تنتقل من مستوى BAPS 2 إلى 6 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd).
  9. دراسة درجة التنوع الجيني لسلالات ST عن طريق رسم التردد النسبي للمجموعات الفرعية BAPS على جميع مستويات الاستبانة (BAPS1-6) (الشكل التكميلي 4). كلما كان السكان أكثر تنوعا ، كلما أصبح توزيع المجموعات الفرعية BAPS (الأنماط الفردية) أكثر انخفاضا من BAPS1 (مستوى أقل من الدقة) إلى BAPS6 (مستوى أعلى من الدقة) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd).

النتائج

من خلال استخدام المنصة الحسابية ProkEvo لتحليلات الجينوم السكاني ، تتكون الخطوة الأولى في استخراج بيانات WGS البكتيرية من فحص بنية السكان الهرمية في سياق علم الوراثة الجينوم الأساسي (الشكل 1). في حالة S. سلالة enterica I ، كما يتضح من S. مجموعة بيانات نيوبورت ، يتم تنظيم...

Discussion

يوفر استخدام تحليل التركيب السكاني الإرشادي والهرمي القائم على النظم إطارا لتحديد التوقيعات الجينومية الجديدة في مجموعات البيانات البكتيرية التي لديها القدرة على شرح الأنماط الإيكولوجية والوبائية الفريدة20. بالإضافة إلى ذلك ، يمكن استخدام رسم خرائط بيانات الجينوم الملحقة ...

Disclosures

وقد أعلن صاحبا البلاغ أنه لا توجد مصالح متنافسة.

Acknowledgements

وقد تم دعم هذا العمل من خلال التمويل المقدم من شعبة البحوث الزراعية UNL-IANR والمعهد الوطني لبحوث مقاومة مضادات الميكروبات والتعليم ومن مركز نبراسكا للأغذية من أجل الصحة في إدارة علوم وتكنولوجيا الأغذية (UNL). لا يمكن إكمال هذا البحث إلا من خلال استخدام مركز هولندا للحوسبة (HCC) في UNL ، والذي يتلقى الدعم من مبادرة نبراسكا للأبحاث. نحن ممتنون أيضا لتمكننا من الوصول ، من خلال HCC ، إلى الموارد التي توفرها شبكة العلوم المفتوحة (OSG) ، والتي تدعمها المؤسسة الوطنية للعلوم ومكتب العلوم التابع لوزارة الطاقة الأمريكية. استخدم هذا العمل برنامج Pegasus لإدارة سير العمل الذي تموله المؤسسة الوطنية للعلوم (منحة #1664162).

Materials

NameCompanyCatalog NumberComments
amr_data_filteredhttps://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_rawhttps://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_outputhttps://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogenyhttps://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_srahttps://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PCany high-performance platform
mlst_outputhttps://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_outputhttps://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -. H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -. F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -. F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. MLST. GitHub Available from: https://github.com/tseemann/mist (2020)
  29. ABRicate. GitHub Available from: https://github.com/tseemann/abricate (2020)
  30. R: A language and environment for statistical computing. R Foundation for Statistical Computing Available from: https://cran.r-project.org (2021)
  31. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  32. rOpenSci: The skimr package. GitHub Available from: https://github.com/ropensci/skimr/ (2021)
  33. . vegan: Community ecology package. R package version 2.5-5 Available from: https://CRAN.R-project.org/package=vegan (2019)
  34. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  35. . ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0 Available from: https://CRAN.R-project.org/package=ggpubr (2020)
  36. . ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1 Available from: https://CRAN.R-project.org/package=ggrepel (2021)
  37. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  38. . RColorBrewer: ColorBrewer Palettes. R package version 1.1-2 Available from: https://CRAN.R-project.org/package=RColorBrewer (2014)
  39. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  40. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  41. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  42. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  43. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  44. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  45. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  46. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  47. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  48. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  49. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  50. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  51. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  52. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  53. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  54. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  55. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  56. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  57. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  58. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  59. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Explore More Articles

178

This article has been published

Video Coming Soon

JoVE Logo

Privacy

Terms of Use

Policies

Research

Education

ABOUT JoVE

Copyright © 2025 MyJoVE Corporation. All rights reserved