A subscription to JoVE is required to view this content. Sign in or start your free trial.
Method Article
DeepOmicsAE هو سير عمل يركز على تطبيق طريقة التعلم العميق (أي التشفير التلقائي) لتقليل أبعاد بيانات الأوميكس المتعددة ، مما يوفر أساسا للنماذج التنبؤية ووحدات الإشارات التي تمثل طبقات متعددة من بيانات omics.
أصبحت مجموعات بيانات omics الكبيرة متاحة بشكل متزايد للبحث في صحة الإنسان. تقدم هذه الورقة DeepOmicsAE ، وهو سير عمل محسن لتحليل مجموعات البيانات متعددة الأوميكس ، بما في ذلك البروتينات والأيض والبيانات السريرية. يستخدم سير العمل هذا نوعا من الشبكات العصبية يسمى autoencoder ، لاستخراج مجموعة موجزة من الميزات من بيانات الإدخال متعددة الأبعاد عالية الأبعاد. علاوة على ذلك ، يوفر سير العمل طريقة لتحسين المعلمات الرئيسية اللازمة لتنفيذ برنامج التشفير التلقائي. لعرض سير العمل هذا ، تم تحليل البيانات السريرية من مجموعة من 142 فردا كانوا إما أصحاء أو تم تشخيصهم بمرض الزهايمر ، إلى جانب البروتين والتمثيل الغذائي لعينات الدماغ بعد الوفاة. تحتفظ الميزات المستخرجة من الطبقة الكامنة للمشفر التلقائي بالمعلومات البيولوجية التي تفصل بين المرضى الأصحاء والمرضى. بالإضافة إلى ذلك ، تمثل الميزات المستخرجة الفردية وحدات إشارات جزيئية متميزة ، يتفاعل كل منها بشكل فريد مع السمات السريرية للأفراد ، مما يوفر وسيلة لدمج البروتينات والأيض والبيانات السريرية.
نسبة كبيرة بشكل متزايد من السكان يشيخون ومن المتوقع أن يزداد عبء الأمراض المرتبطة بالعمر ، مثل التنكس العصبي ، بشكل حاد في العقود القادمة1. مرض الزهايمر هو النوع الأكثر شيوعا من الأمراض التنكسية العصبية2. كان التقدم في العثور على علاج بطيئا نظرا لفهمنا الضعيف للآليات الجزيئية الأساسية التي تقود ظهور المرض وتقدمه. يتم الحصول على غالبية المعلومات حول مرض الزهايمر بعد الوفاة من فحص أنسجة المخ ، مما جعل التمييز بين الأسباب والعواقب مهمة صعبة3. مشروع دراسة الأوامر الدينية / الذاكرة والشيخوخة (ROSMAP) هو جهد طموح لاكتساب فهم أوسع للتنكس العصبي ، والذي يتضمن دراسة آلاف الأفراد الذين التزموا بالخضوع لفحوصات طبية ونفسية سنويا والمساهمة بأدمغتهم للبحث بعد وفاتهم4. تركز الدراسة على الانتقال من الأداء الطبيعي للدماغ إلى مرض الزهايمر2. ضمن المشروع ، تم تحليل عينات الدماغ بعد الوفاة مع عدد كبير من مناهج omics ، بما في ذلك علم الجينوم ، وعلم الجينوم ، وعلم النسخ ، والبروتينات5 ، وعلم الأيض.
تقنيات أوميكس التي تقدم قراءات وظيفية للحالات الخلوية (أي البروتينات والأيض)6,7 هي المفتاح لتفسير المرض8،9،10،11،12 ، بسبب العلاقة المباشرة بين وفرة البروتين والمستقلبات والأنشطة الخلوية. البروتينات هي المنفذين الأساسيين للعمليات الخلوية ، في حين أن المستقلبات هي ركائز ومنتجات التفاعلات الكيميائية الحيوية. يوفر تحليل بيانات Multi-omics إمكانية فهم العلاقات المعقدة بين بيانات البروتينات والأيض بدلا من تقديرها بمعزل عن غيرها. Multi-omics هو تخصص يدرس طبقات متعددة من البيانات البيولوجية عالية الأبعاد ، بما في ذلك البيانات الجزيئية (تسلسل الجينوم والطفرات ، والنسخ ، والبروتين ، والأيض) ، وبيانات التصوير السريري ، والميزات السريرية. على وجه الخصوص ، يهدف تحليل البيانات متعددة الأوميكس إلى دمج هذه الطبقات من البيانات البيولوجية ، وفهم تنظيمها المتبادل وديناميكيات التفاعل ، وتقديم فهم شامل لبداية المرض وتطوره. ومع ذلك ، لا تزال طرق دمج البيانات متعددة الأوميكس في المراحل الأولى من التطوير13.
تعد أجهزة التشفير التلقائي ، وهي نوع من الشبكات العصبية غير الخاضعة للإشراف14 ، أداة قوية لتكامل البيانات متعددة الأوميكس. على عكس الشبكات العصبية الخاضعة للإشراف ، لا تقوم أجهزة التشفير الذاتي بتعيين عينات إلى قيم مستهدفة محددة (مثل صحية أو مريضة) ، ولا يتم استخدامها للتنبؤ بالنتائج. يكمن أحد تطبيقاتها الأساسية في تقليل الأبعاد. ومع ذلك ، توفر أجهزة التشفير التلقائي العديد من المزايا مقارنة بطرق تقليل الأبعاد الأبسط مثل تحليل المكون الرئيسي (PCA) ، أو تضمين الجار العشوائي الموزع على t (tSNE) ، أو التقريب والإسقاط المشعب الموحد (UMAP). على عكس PCA ، يمكن لأجهزة التشفير التلقائي التقاط العلاقات غير الخطية داخل البيانات. على عكس tSNE و UMAP ، يمكنهم اكتشاف العلاقات الهرمية ومتعددة الوسائط داخل البيانات لأنها تعتمد على طبقات متعددة من الوحدات الحسابية تحتوي كل منها على وظائف تنشيط غير خطية. لذلك ، فهي تمثل نماذج جذابة لالتقاط تعقيد بيانات الأوميكس المتعددة. أخيرا ، في حين أن التطبيق الأساسي ل PCA و tSNE و UMAP هو تجميع البيانات ، تقوم أجهزة التشفير التلقائي بضغط بيانات الإدخال إلى ميزات مستخرجة مناسبة تماما للمهام التنبؤية النهائية15,16.
باختصار ، تتكون الشبكات العصبية من عدة طبقات ، تحتوي كل منها على وحدات حسابية متعددة أو "خلايا عصبية". يشار إلى الطبقات الأولى والأخيرة باسم طبقات الإدخال والإخراج ، على التوالي. التشفير الذاتي عبارة عن شبكات عصبية ذات بنية الساعة الرملية ، تتكون من طبقة إدخال ، تليها طبقة واحدة إلى ثلاث طبقات مخفية وطبقة صغيرة "كامنة" تحتوي عادة على ما بين اثنين وستة خلايا عصبية. يعرف النصف الأول من هذا الهيكل باسم التشفير ويتم دمجه مع وحدة فك ترميز تعكس برنامج التشفير. ينتهي جهاز فك التشفير بطبقة خرج تحتوي على نفس عدد الخلايا العصبية مثل طبقة الإدخال. تأخذ أجهزة التشفير التلقائي المدخلات من خلال عنق الزجاجة وتعيد بنائها في طبقة الإخراج ، بهدف إنشاء مخرجات تعكس المعلومات الأصلية بأكبر قدر ممكن. يتم تحقيق ذلك عن طريق التقليل رياضيا من معلمة تسمى "خسارة إعادة الإعمار". يتكون المدخل من مجموعة من الميزات ، والتي في التطبيق المعروض هنا ستكون وفرة البروتين والأيض ، والخصائص السريرية (أي الجنس والتعليم والعمر عند الوفاة). تحتوي الطبقة الكامنة على تمثيل مضغوط وغني بالمعلومات للمدخلات ، والذي يمكن استخدامه للتطبيقات اللاحقة مثل النماذج التنبؤية17,18.
يقدم هذا البروتوكول سير عمل ، DeepOmicsAE ، والذي يتضمن: 1) المعالجة المسبقة للبروتينات والأيض والبيانات السريرية (أي التطبيع والقياس والإزالة الخارجية) للحصول على بيانات بمقياس ثابت لتحليل التعلم الآلي ؛ 2) اختيار ميزات إدخال التشفير التلقائي المناسبة ، لأن الحمل الزائد للميزة قد يحجب أنماط المرض ذات الصلة ؛ 3) تحسين وتدريب التشفير الذاتي ، بما في ذلك تحديد العدد الأمثل للبروتينات والمستقلبات للاختيار ، والخلايا العصبية للطبقة الكامنة ؛ 4) استخراج الميزات من الطبقة الكامنة ؛ و 5) استخدام الميزات المستخرجة للتفسير البيولوجي من خلال تحديد وحدات الإشارات الجزيئية وعلاقتها بالسمات السريرية.
يهدف هذا البروتوكول إلى أن يكون بسيطا وقابلا للتطبيق من قبل علماء الأحياء ذوي الخبرة الحسابية المحدودة الذين لديهم فهم أساسي للبرمجة باستخدام بايثون. يركز البروتوكول على تحليل بيانات الأوميكس المتعددة ، بما في ذلك البروتينات والأيض والسمات السريرية ، ولكن يمكن توسيع استخدامه ليشمل أنواعا أخرى من بيانات التعبير الجزيئي ، بما في ذلك النسخ. أحد التطبيقات الجديدة المهمة التي قدمها هذا البروتوكول هو تعيين درجات أهمية الميزات الأصلية على الخلايا العصبية الفردية في الطبقة الكامنة. نتيجة لذلك ، تمثل كل خلية عصبية في الطبقة الكامنة وحدة إشارات ، توضح بالتفصيل التفاعلات بين التغيرات الجزيئية المحددة والخصائص السريرية للمرضى. يتم الحصول على التفسير البيولوجي لوحدات الإشارات الجزيئية باستخدام MetaboAnalyst ، وهي أداة متاحة للجمهور تدمج بيانات الجينات / البروتين والأيض لاشتقاق مسارات إشارات التمثيل الغذائي والخليةالمخصب 17.
ملاحظة: البيانات المستخدمة هنا هي بيانات ROSMAP التي تم تنزيلها من بوابة AD المعرفية. ليست هناك حاجة إلى موافقة مستنيرة لتنزيل البيانات وإعادة استخدامها. يستخدم البروتوكول المقدم هنا التعلم العميق لتحليل بيانات الأوميكس المتعددة وتحديد وحدات الإشارات التي تميز مجموعات معينة من المرضى أو العينات بناء على تشخيصهم على سبيل المثال. يقدم البروتوكول أيضا مجموعة صغيرة من الميزات المستخرجة التي تلخص البيانات الأصلية واسعة النطاق ويمكن استخدامها لمزيد من التحليل مثل تدريب نموذج تنبؤي باستخدام خوارزميات التعلم الآلي (الشكل 1). ارجع إلى الملف التكميلي 1 وجدول المواد للحصول على معلومات حول الوصول إلى الكود وإعداد البيئة الحسابية قبل تنفيذ البروتوكول. يجب تنفيذ الطرق باتباع الترتيب المحدد أدناه.
الشكل 1: رسم تخطيطي لسير عمل DeepOmicsAE. تمثيل تخطيطي لسير العمل لتحليل بيانات متعددة الأوميكس باستخدام سير العمل. في تصوير المشفر التلقائي ، تمثل المستطيلات طبقات من الشبكة العصبية وتمثل الدوائر الخلايا العصبية داخل الطبقات. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.
1. المعالجة المسبقة للبيانات
ملاحظة: الهدف من هذا القسم هو المعالجة المسبقة للبيانات ، بما في ذلك معالجة البيانات المفقودة ؛ تطبيع وتوسيع نطاق التعبير البروتيني والأيضي والبيانات السريرية ؛ وإزالة القيم المتطرفة. تم تصميم البروتوكول لمجموعة بيانات تتضمن بيانات البروتينات المعبر عنها بالسجل2 (النسبة) ؛ بيانات الأيض معبرا عنها كتغيير أضعاف ؛ والسمات السريرية بما في ذلك السمات المستمرة والفئوية. يجب تجميع المرضى أو العينات بناء على التشخيص أو معايير أخرى مماثلة. يجب أن تكون العينات أو المرضى عبر الصفوف والميزات عبر الأعمدة.
2. التحسين المخصص لسير العمل (اختياري)
ملاحظة: القسم 2 اختياري لأنه يتطلب استخدام الكمبيوتر بشكل مكثف. يجب على المستخدمين التخطي مباشرة إلى القسم 4 إذا قرروا عدم تنفيذ القسم 2. سيوجه هذا البروتوكول المستخدم من خلال تحسين سير العمل بطريقة آلية. على وجه التحديد ، تحدد الطريقة المعلمات التي تقدم أفضل أداء للمشفر التلقائي من حيث إنشاء الميزات المستخرجة التي تفصل مجموعات العينات جيدا. تتضمن المعلمات المحسنة التي تم إنشاؤها كمخرجات عدد الميزات التي يجب استخدامها لاختيار الميزة (k_prot و k_met) وعدد الخلايا العصبية في طبقة التشفير الذاتي الكامنة (الكامنة). يمكن بعد ذلك استخدام هذه المعلمات في البروتوكول الموضح في القسم 3 لإنشاء النموذج.
3. تنفيذ سير العمل مع معلمات محسنة مخصصة
ملاحظة: قم بإجراء هذا البروتوكول فقط بعد تحسين الأسلوب (القسم 2). إذا اختار المستخدمون عدم إجراء تحسين الطريقة، فانتقل مباشرة إلى القسم 4. سيوجه هذا البروتوكول المستخدم من خلال إنشاء نموذج باستخدام المعلمات المحسنة المخصصة المستمدة من القسم 2. سيقوم المشفر التلقائي 1) بإنشاء مجموعة من الميزات المستخرجة التي تلخص البيانات الأصلية و 2) تحديد الميزات المهمة التي تقود كل خلية عصبية في الطبقة الكامنة ، والتي تمثل بشكل فعال وحدات إشارات فريدة. سيتم تفسير وحدات التشوير باستخدام البروتوكول المنصوص عليه في القسم 5.
4. تنفيذ سير العمل مع معلمات محددة مسبقا
5. التفسير البيولوجي باستخدام MetaboAnalyst
لعرض البروتوكول ، قمنا بتحليل مجموعة بيانات تضم البروتينات والأيض والمعلومات السريرية المستمدة من أدمغة ما بعد الوفاة ل 142 فردا كانوا إما أصحاء أو تم تشخيصهم بمرض الزهايمر.
بعد إجراء قسم البروتوكول 1 للمعالجة المسبقة للبيانات ، تضمنت مجموعة البيانات 6,497 بروتينا و 443 مستقلبا...
هيكل مجموعة البيانات أمر بالغ الأهمية لنجاح البروتوكول ويجب التحقق منه بعناية. يجب تنسيق البيانات كما هو موضح في قسم البروتوكول 1. يعد التعيين الصحيح لمواضع الأعمدة أمرا بالغ الأهمية أيضا لنجاح الطريقة. تتم معالجة بيانات البروتيوميات والأيض بشكل مختلف ويتم اختيار الميزة بشكل منفصل بسبب ا...
يعلن صاحب البلاغ أنه ليس لديهم تضارب في المصالح.
تم دعم هذا العمل من قبل CA201402 منحة المعاهد الوطنية للصحة وجائزة الباحث المتميز لمركز كورنيل لعلم جينوم الفقاريات (CVG). تستند النتائج المنشورة هنا كليا أو جزئيا إلى البيانات التي تم الحصول عليها من بوابة المعرفة الخاصة بأبوظبي (https://adknowledgeportal.org). تم توفير بيانات الدراسة من خلال شراكة الطب المسرع لمرض الزهايمر (U01AG046161 و U01AG061357) بناء على العينات المقدمة من مركز مرض الزهايمر راش ، المركز الطبي بجامعة راش ، شيكاغو. تم دعم جمع البيانات من خلال التمويل من قبل منح NIA P30AG10161 و R01AG15819 و R01AG17917 و R01AG30146 و R01AG36836 و U01AG32984 و U01AG46152 وإدارة الصحة العامة في إلينوي ومعهد أبحاث الجينوم الانتقالي. تم إنشاء مجموعة بيانات الأيض في Metabolon ومعالجتها مسبقا بواسطة ADMC.
Name | Company | Catalog Number | Comments |
Computer | Apple | Mac Studio | Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory |
Conda v23.3.1 | Anaconda, Inc. | N/A | package management system and environment manager |
conda environment DeepOmicsAE | N/A | DeepOmicsAE_env.yml | contains packages necessary to run the worflow |
github repository DeepOmicsAE | Microsoft | https://github.com/elepan84/DeepOmicsAE/ | provides scripts, Jupyter notebooks, and the conda environment file |
Jupyter notebook v6.5.4 | Project Jupyter | N/A | a platform for interactive data science and scientific computing |
DT01-metabolomics data | N/A | ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv | This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org |
DT02-TMT proteomics data | N/A | C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817x400.csv | |
DT03-clinical data | N/A | ROSMAP_clinical.csv | |
DT04-biospecimen metadata | N/A | ROSMAP_biospecimen_metadata .csv | |
Python 3.11.3 | Python Software Foundation | N/A | programming language |
Request permission to reuse the text or figures of this JoVE article
Request PermissionThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. All rights reserved