منصة آلة افتراضية للمهنيين غير الكمبيوتر لاستخدام التعلم العميق لتصنيف التسلسلات البيولوجية للبيانات الميتاجنومية

Zhencheng Fang; Hongwei Zhou

doi:10.3791/62250

A subscription to JoVE is required to view this content. Sign in or start your free trial.

Method Article

منصة آلة افتراضية للمهنيين غير الكمبيوتر لاستخدام التعلم العميق لتصنيف التسلسلات البيولوجية للبيانات الميتاجنومية

DOI:

10.3791/62250

⸱

September 25th, 2021

Zhencheng Fang¹^,², Hongwei Zhou¹^,³

¹Microbiome Medicine Center, Department of Laboratory Medicine, Zhujiang Hospital, Southern Medical University, ²Center for Quantitative Biology, Peking University, ³State Key Laboratory of Organ Failure Research, Southern Medical University

Please note that all translations are automatically generated. Click here for the English version.

Summary

يصف هذا البرنامج التعليمي طريقة بسيطة لبناء خوارزمية التعلم العميق لأداء تصنيف تسلسل من فئتين من البيانات metagenomic.

Abstract

ومن المتوقع القيام بمجموعة متنوعة من مهام تصنيف التسلسل البيولوجي، مثل تصنيف الأنواع وتصنيف وظائف الجينات وتصنيف المضيف الفيروسي، بعمليات في العديد من تحليلات البيانات الميتاجنومية. وبما أن البيانات الميتاجنومية تحتوي على عدد كبير من الأنواع والجينات الجديدة، فإن هناك حاجة إلى خوارزميات تصنيف عالية الأداء في العديد من الدراسات. غالبا ما يواجه علماء الأحياء تحديات في العثور على أدوات تصنيف التسلسل والتعليق المناسبة لمهمة محددة ، وغالبا ما لا يكونون قادرين على بناء خوارزمية مقابلة بمفردهم بسبب نقص المعرفة الرياضية والحسابية اللازمة. تقنيات التعلم العميق أصبحت مؤخرا موضوعا شعبيا وتظهر مزايا قوية في العديد من مهام التصنيف. حتى الآن ، تم تطوير العديد من حزم التعلم العميق المعبأة للغاية ، والتي تجعل من الممكن لعلماء الأحياء بناء أطر تعلم عميقة وفقا لاحتياجاتهم الخاصة دون معرفة متعمقة بتفاصيل الخوارزمية. في هذا البرنامج التعليمي، ونحن نقدم مبادئ توجيهية لبناء سهلة الاستخدام إطار التعلم العميق لتصنيف تسلسل دون الحاجة إلى المعرفة الرياضية الكافية أو مهارات البرمجة. يتم تحسين كافة التعليمات البرمجية في جهاز ظاهري بحيث يمكن للمستخدمين مباشرة تشغيل التعليمات البرمجية باستخدام البيانات الخاصة بهم.

Introduction

تتجاوز تقنية التسلسل الميتاجنومي عملية عزل السلالة وتسلسل الحمض النووي الإجمالي مباشرة في عينة بيئية. وهكذا، تحتوي البيانات الميتاجنومية على الحمض النووي من كائنات حية مختلفة، ومعظم التسلسلات البيولوجية هي من كائنات حية جديدة غير موجودة في قاعدة البيانات الحالية. وفقا لأغراض بحثية مختلفة، يحتاج علماء الأحياء إلى تصنيف هذه التسلسلات من وجهات نظر مختلفة، مثل التصنيف التصنيفي¹، وتصنيف البكتيريا^{الفيروسات 2}^،³^،⁴، تصنيف الكروموسومات البلازميد³،⁵^،⁶^،⁷، والشروح وظيفة الجينات (مثل تصنيف الجينات مقاومة المضادات الحيوية⁸ وتصنيف عامل الفوعة⁹). ولأن البيانات الميتاجنومية تحتوي على عدد كبير من الأنواع والجينات الجديدة، فإن خوارزميات ab initio، التي لا تعتمد على قواعد بيانات معروفة لتصنيف التسلسل (بما في ذلك تصنيف الحمض النووي وتصنيف البروتين)، هي نهج مهم في تحليل البيانات الميتاجينومية. ومع ذلك ، فإن تصميم هذه الخوارزميات يتطلب معرفة الرياضيات المهنية ومهارات البرمجة ؛ لذلك ، يواجه العديد من علماء الأحياء ومبتدئي تصميم الخوارزمية صعوبة في بناء خوارزمية تصنيف لتناسب احتياجاتهم الخاصة.

مع تطور الذكاء الاصطناعي ، تم استخدام خوارزميات التعلم العميق على نطاق واسع في مجال المعلوماتية الحيوية لإكمال مهام مثل تصنيف التسلسل في التحليل الميتاجنومي. لمساعدة المبتدئين على فهم خوارزميات التعلم العميق ، نصف الخوارزمية بطريقة سهلة الفهم أدناه.

يتم عرض نظرة عامة على تقنية التعلم العميق في الشكل 1. التكنولوجيا الأساسية لوغاريتم التعلم العميق هي شبكة عصبية اصطناعية ، مستوحاة من بنية الدماغ البشري. من وجهة نظر رياضية، يمكن اعتبار الشبكة العصبية الاصطناعية وظيفة معقدة. يتم رقمنة كل كائن (مثل تسلسل الحمض النووي أو صورة أو فيديو) أولا. ثم يتم استيراد الكائن الرقمي إلى الدالة. مهمة الشبكة العصبية الاصطناعية هي إعطاء استجابة صحيحة وفقا لبيانات الإدخال. على سبيل المثال، إذا تم إنشاء شبكة عصبية اصطناعية لتنفيذ مهمة تصنيف من فئتين، يجب على الشبكة إخراج درجة احتمالية تتراوح بين 0-1 لكل كائن. يجب أن تعطي الشبكة العصبية الكائن الإيجابي درجة أعلى (مثل درجة أعلى من 0.5) مع إعطاء الكائن السلبي درجة أقل. وللحصول على هذا الهدف، يتم بناء شبكة عصبية اصطناعية مع عمليات التدريب والاختبار. أثناء هذه العمليات، يتم تحميل البيانات من قاعدة البيانات المعروفة ثم تقسيمها إلى مجموعة التدريب ومجموعة الاختبار. يتم رقمنة كل كائن بطريقة مناسبة وإعطاء تسمية ("1" للكائنات الموجبة و "0" للكائنات السالبة). في عملية التدريب، يتم إدخال البيانات الرقمية في مجموعة التدريب في الشبكة العصبية. الشبكة العصبية الاصطناعية يبني وظيفة الخسارة التي تمثل الاختلاف بين درجة الإخراج من كائن الإدخال والتسمية المقابلة للكائن. على سبيل المثال، إذا كان تسمية كائن الإدخال هو "1" بينما درجة الإخراج "0.1" ، ستكون دالة الخسارة عالية; وإذا كانت تسمية كائن الإدخال "0" بينما درجة الإخراج "0.1"، ستكون وظيفة الخسارة منخفضة. تستخدم الشبكة العصبية الاصطناعية خوارزمية تكرارية محددة تعدل معلمات الشبكة العصبية لتقليل وظيفة الخسارة. تنتهي عملية التدريب عندما لا يمكن زيادة انخفاض وظيفة الخسارة. وأخيرا، يتم استخدام البيانات في مجموعة الاختبار لاختبار الشبكة العصبية الثابتة، ويتم تقييم قدرة الشبكة العصبية على حساب التسميات الصحيحة للكائنات الجديدة. يمكن العثور على المزيد من مبادئ خوارزميات التعلم العميق في المراجعة في LeCun وآخرون. ^10.

على الرغم من أن المبادئ الرياضية لخوارزميات التعلم العميق قد تكون معقدة ، فقد تم مؤخرا تطوير العديد من حزم التعلم العميق المعبأة للغاية ، ويمكن للمبرمجين بناء شبكة عصبية اصطناعية بسيطة مباشرة مع بضعة أسطر من التعليمات البرمجية.

لمساعدة علماء الأحياء والمبتدئين تصميم خوارزمية في البدء في استخدام التعلم العميق بسرعة أكبر، ويوفر هذا البرنامج التعليمي مبادئ توجيهية لبناء إطار التعلم العميق سهلة الاستخدام لتصنيف تسلسل. يستخدم هذا الإطار نموذج الترميز "واحد الساخنة" كنموذج رياضي لرقمنة التسلسلات البيولوجية ويستخدم شبكة عصبية ملتوية لأداء مهمة التصنيف (انظر المواد التكميلية). الشيء الوحيد الذي يحتاج المستخدمون إلى القيام به قبل استخدام هذا المبدأ التوجيهي هو إعداد أربعة ملفات تسلسل في تنسيق "fasta". يحتوي الملف الأول على كافة تسلسلات الفئة الإيجابية لعملية التدريب (المشار إليها ب "p_train.fasta")؛ يحتوي الملف الثاني على كافة تسلسلات الفئة السالبة لعملية التدريب (المشار إليها ب "n_train.fasta")؛ يحتوي الملف الثالث على كافة تسلسلات الفئة موجبة لعملية الاختبار (المشار إليها إلى "p_test.fasta"); ويحتوي الملف الأخير على كافة تسلسلات الفئة السالبة لعملية الاختبار (المشار إليها ب "n_test.fasta"). يتم توفير نظرة عامة على المخطط الانسيابي لهذا البرنامج التعليمي في الشكل 2، وسيتم ذكر المزيد من التفاصيل أدناه.

Protocol

1. تركيب الجهاز الظاهري

تحميل ملف الجهاز الظاهري من (https://github.com/zhenchengfang/DL-VM).
تحميل برنامج فيرتثلبوإكس من https://www.virtualbox.org.
فك ضغط ملف ".7z" باستخدام البرامج ذات الصلة، مثل "7-Zip" أو "WinRAR" أو "WinZip".
تثبيت برنامج فيرتثلبوإكس بالنقر فوق الزر التالي في كل خطوة.
افتح برنامج فيرتثلبوإكس وانقر فوق الزر جديد لإنشاء جهاز ظاهري.
الخطوة 6: أدخل اسم الجهاز الظاهري المحدد في إطار "الاسم"، وحدد لينكس كنظام تشغيل في إطار "النوع"، وحدد أوبونتو في إطار "الإصدار" وانقر على الزر التالي.
تخصيص حجم الذاكرة للجهاز الظاهري. نوصي المستخدمين بسحب الزر إلى الجزء الأيمن من الشريط الأخضر لتعيين أكبر قدر ممكن من الذاكرة للجهاز الظاهري، ثم انقر فوق الزر التالي.
اختر تحديد استخدام ملف القرص الثابت الظاهري موجود، حدد الملف "VM_Bioinfo.vdi" تحميلها من الخطوة 1.1 ثم انقر فوق الزر إنشاء.
انقر فوق الزر Star لفتح الجهاز الظاهري.
ملاحظة: يظهر الشكل 3 لقطة شاشة سطح المكتب للجهاز الظاهري.

2. إنشاء مجلدات مشتركة لتبادل الملفات بين المضيف الفعلي والجهاز الظاهري

في المضيف الفعلي، قم بإنشاء مجلد مشترك يسمى "shared_host"، وعلى سطح المكتب للجهاز الظاهري، قم بإنشاء مجلد مشترك يسمى "shared_VM".
في شريط القوائم للجهاز الظاهري، انقر فوق الأجهزة، المجلد المشترك، إعدادات المجلدات المشتركة على التوالي.
انقر فوق الزر الموجود في الزاوية العلوية اليمنى.
حدد المجلد المشترك في المضيف الفعلي الذي تم إنشاؤه في الخطوة 2.1 وحدد الخيار تحميل تلقائي. انقر فوق الزر موافق.
أعد تشغيل الجهاز الظاهري.
انقر على زر الماوس الأيمن على سطح المكتب من الجهاز الظاهري وفتح المحطة الطرفية.
نسخ الأمر متابعة إلى المحطة الطرفية:
سودو جبل -t vboxsf shared_host ./سطح المكتب/shared_VM
1. عند مطالبتك بكلمة مرور، أدخل "1" ثم اضغط على مفتاح"Enter"كما هو موضح في الشكل 4.

3. إعداد الملفات لمجموعة التدريب ومجموعة اختبار

نسخ كافة الملفات تسلسل أربعة بتنسيق "fasta" لعملية التدريب والاختبار إلى المجلد "shared_host" المضيف الفعلي. بهذه الطريقة، سوف تحدث كافة الملفات أيضا في المجلد "shared_VM" من الجهاز الظاهري. ثم نسخ الملفات في المجلد "shared_VM" إلى المجلد "DeepLearning" من الجهاز الظاهري.

4. رقمنة التسلسلات البيولوجية باستخدام نموذج ترميز "واحد الساخنة"

انتقل إلى مجلد "DeepLearning" ، انقر فوق النقر بزر الماوس الأيمن وافتح المحطة الطرفية. اكتب الأمر التالي:
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta aa
(لتسلسل الأحماض الأمينية)
أو
./onehot_encoding p_train.fasta n_train.fasta p_test.fasta n_test.fasta nt
(لتسلسل الحمض النووي)
ملاحظة: يتم توفير لقطة شاشة لهذه العملية في الشكل 5.

5. تدريب واختبار الشبكة العصبية الاصطناعية

في المحطة الطرفية، اكتب الأمر التالي كما هو موضح في الشكل 6:
بيثون train.py
ملاحظة: ستبدأ عملية التدريب.

النتائج

في عملنا السابق، قمنا بتطوير سلسلة من أدوات تصنيف تسلسل للبيانات metagenomic باستخدام نهج مماثل لهذا البرنامج التعليمي^3،^11،¹². كمثال، قمنا بإيداع ملفات تسلسل مجموعة التدريب الفرعية ومجموعة الاختبار من عملنا السابق³^،

Discussion

يوفر هذا البرنامج التعليمي لمحة عامة لعلماء الأحياء والمبتدئين تصميم خوارزمية حول كيفية بناء إطار التعلم العميق سهلة الاستخدام لتصنيف التسلسل البيولوجي في البيانات metagenomic. يهدف هذا البرنامج التعليمي إلى توفير فهم بديهي للتعلم العميق ومعالجة التحدي الذي يواجه المبتدئين في كثير من الأحي?...

Disclosures

ويعلن أصحاب البلاغ أنه لا يوجد تضارب في المصالح.

Acknowledgements

وقد دعم هذا التحقيق ماليا المؤسسة الوطنية للعلوم الطبيعية في الصين (81925026، 82002201، 81800746، 82102508).

Materials

Name	Company	Catalog Number	Comments
PC or server	NA	NA	Suggested memory: >6GB
VirtualBox software	NA	NA	Link: https://www.virtualbox.org

References

Liang, Q., Bible, P. W., Liu, Y., Zou, B., Wei, L. DeepMicrobes: taxonomic classification for metagenomics with deep learning. NAR Genomics and Bioinformatics. 2 (1), (2020).
Ren, J., et al. VirFinder: a novel k -mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome. 5 (1), 69 (2017).
Fang, Z., et al. PPR-Meta: a tool for identifying phages and plasmids from metagenomic fragments using deep learning. GigaScience. 8 (6), (2019).
Ren, J., et al. Identifying viruses from metagenomic data using deep learning. Quantitative Biology. 8 (1), 64-77 (2020).
Zhou, F., Xu, Y. cBar: a computer program to distinguish plasmid-derived from chromosome-derived sequence fragments in metagenomics data. Bioinformatics. 26 (16), 2051-2052 (2010).
Krawczyk, P. S., Lipinski, L., Dziembowski, A. PlasFlow: predicting plasmid sequences in metagenomic data using genome signatures. Nucleic Acids Research. 46 (6), (2018).
Pellow, D., Mizrahi, I., Shamir, R. PlasClass improves plasmid sequence classification. PLOS Computational Biology. 16 (4), (2020).
Arango-Argoty, G., et al. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome. 6 (1), 1-15 (2018).
Zheng, D., Pang, G., Liu, B., Chen, L., Yang, J. Learning transferable deep convolutional neural networks for the classification of bacterial virulence factors. Bioinformatics. 36 (12), 3693-3702 (2020).
LeCun, Y., Bengio, Y., Hinton, G. Deep learning. Nature. 521 (7553), 436-444 (2015).
Fang, Z., Zhou, H. VirionFinder: Identification of Complete and Partial Prokaryote Virus Virion Protein From Virome Data Using the Sequence and Biochemical Properties of Amino Acids. Frontiers in Microbiology. 12, 615711 (2021).
Fang, Z., Zhou, H. Identification of the conjugative and mobilizable plasmid fragments in the plasmidome using sequence signatures. Microbial Genomics. 6 (11), (2020).
Richter, D. C., Ott, F., Auch, A. F., Schmid, R., Huson, D. H. MetaSim-a sequencing simulator for genomics and metagenomics. PLoS One. 3 (10), 3373 (2008).
Zhang, M., et al. Prediction of virus-host infectious association by supervised learning methods. BMC Bioinformatics. 18 (3), 143-154 (2017).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Explore More Articles

175

This article has been published

Video Coming Soon

Keep me updated:

منصة آلة افتراضية للمهنيين غير الكمبيوتر لاستخدام التعلم العميق لتصنيف التسلسلات البيولوجية للبيانات الميتاجنومية

In This Article

Summary

Abstract

Introduction

Protocol

النتائج

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Explore More Articles