A subscription to JoVE is required to view this content. Sign in or start your free trial.
Method Article
يصف البروتوكول الحالي طريقة تجزئة فعالة متعددة الأعضاء تسمى Swin-PSAxialNet ، والتي حققت دقة ممتازة مقارنة بطرق التجزئة السابقة. تتضمن الخطوات الرئيسية لهذا الإجراء جمع مجموعات البيانات ، وتكوين البيئة ، والمعالجة المسبقة للبيانات ، والتدريب على النموذج ومقارنته ، وتجارب الاستئصال.
يعد تجزئة أعضاء البطن المتعددة من أهم الموضوعات في مجال تحليل الصور الطبية ، ويلعب دورا مهما في دعم سير العمل السريري مثل تشخيص الأمراض وتخطيط العلاج. في هذه الدراسة ، تم اقتراح طريقة تجزئة فعالة متعددة الأعضاء تسمى Swin-PSAxialNet بناء على بنية nnU-Net. تم تصميمه خصيصا للتجزئة الدقيقة ل 11 عضوا في البطن في صور التصوير المقطعي المحوسب. أجرت الشبكة المقترحة التحسينات التالية مقارنة ب nnU-Net. أولا ، تم إدخال وحدات الفضاء إلى العمق (SPD) وكتل استخراج ميزة الانتباه المحوري المشترك للمعلمات (PSAA) ، مما يعزز قدرة استخراج ميزة الصورة ثلاثية الأبعاد. ثانيا ، تم استخدام نهج دمج الصور متعدد المقاييس لالتقاط المعلومات التفصيلية والميزات المكانية ، مما أدى إلى تحسين القدرة على استخراج الميزات الدقيقة وميزات الحافة. أخيرا ، تم تقديم طريقة مشاركة المعلمات لتقليل التكلفة الحسابية للنموذج وسرعة التدريب. تحقق الشبكة المقترحة متوسط معامل النرد 0.93342 لمهمة التجزئة التي تشمل 11 جهازا. تشير النتائج التجريبية إلى التفوق الملحوظ ل Swin-PSAxialNet على طرق التجزئة السائدة السابقة. تظهر الطريقة دقة ممتازة وتكاليف حسابية منخفضة في تجزئة أعضاء البطن الرئيسية.
يعتمد التدخل السريري المعاصر ، بما في ذلك تشخيص الأمراض ، وصياغة خطط العلاج ، وتتبع نتائج العلاج ، على التجزئة الدقيقة للصورالطبية 1. ومع ذلك ، فإن العلاقات الهيكلية المعقدة بين أعضاء البطن2تجعل من الصعب تحقيق تجزئة دقيقة لأعضاء البطنالمتعددة 3. على مدى العقود القليلة الماضية ، قدمت التطورات المزدهرة في التصوير الطبي والرؤية الحاسوبية فرصا وتحديات جديدة في مجال تجزئة الأعضاء متعددة البطن. تمكننا تقنية التصوير بالرنين المغناطيسي المتقدم (MRI)4 والتصوير المقطعي المحوسب (CT)5 من الحصول على صور عالية الدقة للبطن. يحمل التجزئة الدقيقة لأعضاء متعددة من صور التصوير المقطعي المحوسب قيمة سريرية كبيرة لتقييم وعلاج الأعضاء الحيوية مثل الكبد والكلى والطحال والبنكرياس وما إلى ذلك.6،7،8،9،10 ومع ذلك ، فإن التعليق التوضيحي اليدوي لهذه الهياكل التشريحية ، خاصة تلك التي تتطلب تدخلا من أخصائيي الأشعة أو أخصائيي علاج الأورام بالإشعاع ، يستغرق وقتا طويلا وعرضة للتأثيرات الذاتية11. لذلك ، هناك حاجة ملحة لتطوير طرق آلية ودقيقة لتجزئة أعضاء البطن المتعددة.
اعتمدت الأبحاث السابقة حول تجزئة الصور في الغالب على الشبكات العصبية التلافيفية (CNNs) ، والتي تعمل على تحسين كفاءة التجزئة عن طريق تكديس الطبقات وإدخال ResNet12. في عام 2020 ، قدم فريق أبحاث Google نموذج Vision Transformer (VIT)13 ، مما يمثل مثالا رائدا لدمج بنية المحولات في المجال المرئي التقليدي لمجموعة من المهام المرئية14. في حين أن العمليات التلافيفية يمكن أن تفكر فقط في معلومات الميزات المحلية ، فإن آلية الانتباه في المحولات تتيح النظر الشامل في معلومات الميزات العالمية.
بالنظر إلى تفوق البنى القائمة على المحولات على الشبكات التلافيفيةالتقليدية 15 ، أجرت العديد من فرق البحث استكشافا مكثفا في تحسين التآزر بين نقاط القوة في المحولات والشبكات التلافيفية16،17،18،19. قدم Chen et آخرون TransUNet لمهام تجزئة الصور الطبية16 ، والتي تستفيد من المحولات لاستخراج الميزات العالمية من الصور. نظرا لارتفاع تكلفة التدريب على الشبكة والفشل في الاستفادة من مفهوم التسلسل الهرمي لاستخراج الميزات ، لم تتحقق مزايا المحولات بالكامل.
لمعالجة هذه المشكلات ، بدأ العديد من الباحثين في تجربة دمج المحولات كعمود فقري لتدريب شبكات التجزئة. قدم Liu et al.17 محول سوين ، الذي استخدم طريقة بناء هرمية لاستخراج الميزات ذات الطبقات. تم اقتراح مفهوم Windows Multi-Head Self-Attention (W-MSA) ، مما يقلل بشكل كبير من التكلفة الحسابية ، لا سيما في وجود خرائط ميزات ذات مستوى ضحل أكبر. في حين أن هذا النهج قلل من المتطلبات الحسابية ، إلا أنه عزل أيضا نقل المعلومات بين النوافذ المختلفة. لمعالجة هذه المشكلة ، قدم المؤلفون أيضا مفهوم الانتباه الذاتي متعدد الرؤوس (SW-MSA) ، مما يتيح نشر المعلومات بين النوافذ المجاورة. بناء على هذه المنهجية ، صاغ Cao et al. Swin-UNet18 ، واستبدل التلافيفات ثنائية الأبعاد في U-Net بوحدات Swin ودمج W-MSA و SW-MSA في عمليات التشفير وفك التشفير ، مما حقق نتائج تجزئة جديرة بالثناء.
على العكس من ذلك ، Zhou et al. سلط الضوء على أنه لا يمكن تجاهل ميزة تشغيل الإحلال عند معالجة الصور عالية الاستبانة19. يستخدم nnFormer المقترح طريقة حساب الانتباه الذاتي بناء على كتل الصور المحلية ثلاثية الأبعاد ، والتي تشكل نموذج محول يتميز بهيكل متقاطع. أدى استخدام الانتباه القائم على الكتل المحلية ثلاثية الأبعاد إلى تقليل عبء التدريب على الشبكة بشكل كبير.
بالنظر إلى مشاكل الدراسة أعلاه ، تم اقتراح هيكل هرمي هجين فعال لتجزئة الصور الطبية ثلاثية الأبعاد ، يسمى Swin-PSAxialNet. تتضمن هذه الطريقة كتلة تخفيض العينات، الكتلة من الفضاء إلى العمق (SPD)20 ، قادرة على استخراج المعلومات العالمية21. بالإضافة إلى ذلك ، فإنه يضيف وحدة الانتباه المحوري المشترك للمعلمة (PSAA) ، مما يقلل من عدد معلمات التعلم من تربيعي إلى خطي وسيكون له تأثير جيد على دقة تدريب الشبكة وتعقيد نماذجالتدريب 22.
شبكة Swin-PSAxialNet
تتبنى البنية العامة للشبكة الهيكل على شكل حرف U ل nnU-Net23 ، والذي يتكون من هياكل التشفير ووحدة فك التشفير. تشارك هذه الهياكل في استخراج الميزات المحلية وتسلسل الميزات من الصور الكبيرة والصغيرة الحجم ، كما هو موضح في الشكل 1.
الشكل 1: الرسم التخطيطي Swin-PSAxialNet لبنية الشبكة. الرجاء النقر هنا لعرض نسخة أكبر من هذا الشكل.
في هيكل التشفير ، يتم دمج كتلة Conv التقليدية مع كتلة SPD20 لتشكيل حجم تخفيض العينات. تشتمل الطبقة الأولى من برنامج التشفير على تضمين التصحيح ، وهي وحدة تقسم البيانات ثلاثية الأبعاد إلى تصحيحات ثلاثية الأبعاد ، (P1 ، P2 ، P3) تمثل تصحيحات غير متداخلة في هذا السياق ،
مما يدل على طول تسلسل التصحيحات ثلاثية الأبعاد. بعد طبقة التضمين ، تتضمن الخطوة التالية وحدة تصغير أخذ العينات التلافيفية غير المتداخلة التي تشتمل على كل من كتلة تلافيفية وكتلة SPD. في هذا الإعداد ، تحتوي الكتلة التلافيفية على خطوة محددة على 1 ، ويتم استخدام كتلة SPD لقياس الصورة ، مما يؤدي إلى انخفاض الدقة بمقدار أربعة أضعاف وزيادة مضاعفة في القنوات.
في بنية وحدة فك التشفير، تتكون كل كتلة عينة بعد طبقة ميزة عنق الزجاجة من مجموعة من كتلة أخذ العينات وكتلة PSAA. وتزداد استبانة خريطة المعالم بضعفين، ويخفض عدد القنوات إلى النصف بين كل زوج من مراحل وحدة فك التشفير. لاستعادة المعلومات المكانية وتحسين تمثيل المعالم ، يتم إجراء دمج الميزات بين الصور الكبيرة والصغيرة الحجم بين كتل أخذ العينات. في النهاية ، يتم إدخال نتائج أخذ العينات في طبقة الرأس لاستعادة حجم الصورة الأصلي ، بحجم إخراج (H × W × D × C ، C = 3).
بنية كتلة SPD
في الطرق التقليدية ، يستخدم قسم أخذ العينات خطوة واحدة بحجم خطوة 2. يتضمن ذلك التجميع التلافيفي في المواضع المحلية في الصورة ، مما يحد من المجال الاستقبالي ، ويقصر النموذج على استخراج الميزات من تصحيحات الصور الصغيرة. تستخدم هذه الطريقة كتلة SPD ، التي تقسم الصورة الأصلية بدقة إلى ثلاثة أبعاد. يتم تقسيم الصورة ثلاثية الأبعاد الأصلية بالتساوي على طول المحاور x و y و z ، مما ينتج عنه أربعة أجسام ذات حجم فرعي. (الشكل 2) بعد ذلك ، يتم تسلسل المجلدات الأربعة من خلال عملية "cat" ، وتخضع الصورة الناتجة لتلاف 1 × 1 × 1 للحصول على الصورة المأخوذةمن العينات السفلية 20.
الشكل 2: مخطط كتلة SPD. الرجاء النقر هنا لعرض نسخة أكبر من هذا الشكل.
بنية كتلة PSAA
على عكس شبكات CNN التقليدية ، فإن كتلة PSAA المقترحة أكثر فعالية في إجراء التركيز العالمي على المعلومات وأكثر كفاءة في التعلم والتدريب على الشبكات. يتيح ذلك التقاط صور أكثر ثراء وميزات مكانية. تتضمن كتلة PSAA تعلم الانتباه المحوري بناء على مشاركة المعلمات في ثلاثة أبعاد: الارتفاع والعرض والعمق. بالمقارنة مع آلية الانتباه التقليدية التي تقوم بتعلم الانتباه لكل بكسل في الصورة ، تجري هذه الطريقة بشكل مستقل تعلم الانتباه لكل من الأبعاد الثلاثة ، مما يقلل من تعقيد الانتباه الذاتي من التربيعي إلى الخطي. علاوة على ذلك ، يتم استخدام آلية مشاركة معلمات المفاتيح والاستعلامات القابلة للتعلم ، مما يمكن الشبكة من أداء عمليات آلية الانتباه بالتوازي عبر الأبعاد الثلاثة ، مما يؤدي إلى تمثيل أسرع ومتفوق وأكثر فعالية.
Access restricted. Please log in or start a trial to view this content.
تمت الموافقة على هذا البروتوكول من قبل لجنة الأخلاقيات بجامعة نانتونغ. يتضمن التقييم الذكي والبحث للبيانات متعددة الوسائط غير الغازية أو طفيفة التوغل المكتسبة ، بما في ذلك الصور الطبية البشرية وحركات الأطراف وتصوير الأوعية الدموية ، باستخدام تقنية الذكاء الاصطناعي. يوضح الشكل 3 المخطط الانسيابي الكلي للتجزئة متعددة الأعضاء. يتم توفير جميع روابط الويب اللازمة في جدول المواد.
الشكل 3: مخطط انسيابي شامل للتجزئة متعددة الأعضاء. الرجاء النقر هنا لعرض نسخة أكبر من هذا الشكل.
1. جمع مجموعات البيانات
2. تكوين البيئة
3. المعالجة المسبقة للبيانات
4. نموذج التدريب والمقارنة
ملاحظة: كخط أساس مستخدم على نطاق واسع في مجال تجزئة الصور ، يعمل nnU-Net23 كنموذج أساسي في الدراسة. عملية مقارنة النموذج المحددة هي كما يلي.
5. تجربة الاستئصال
Access restricted. Please log in or start a trial to view this content.
يستخدم هذا البروتوكول مقياسين لتقييم النموذج: درجة تشابه النرد (DSC) و 95٪ مسافة Hausdorff (HD95). يقيس DSC التداخل بين تنبؤات تجزئة فوكسل والحقيقة الأرضية ، بينما يقوم 95٪ HD بتقييم التداخل بين حدود التنبؤ بتجزئة فوكسل والحقيقة الأرضية ، وتصفية 5٪ من القيم المتطرفة. وفيما يلي تعريف DSC<...
Access restricted. Please log in or start a trial to view this content.
تجزئة أعضاء البطن عمل معقد. بالمقارنة مع الهياكل الداخلية الأخرى لجسم الإنسان ، مثل الدماغ أو القلب ، يبدو تجزئة أعضاء البطن أكثر صعوبة بسبب التباين المنخفض والتغيرات الكبيرة في الشكل في صور التصوير المقطعي المحوسب27،28. يقترح Swin-PSAxialNet هنا...
Access restricted. Please log in or start a trial to view this content.
يعلن أصحاب البلاغ عدم وجود تضارب في المصالح.
تم دعم هذه الدراسة من قبل المشروع الهندسي "333" لمقاطعة جيانغسو ([2022] 21-003) ، والبرنامج العام للجنة الصحة في Wuxi (M202205) ، وصندوق Wuxi لتطوير العلوم والتكنولوجيا (Y20212002-1) ، والتي كانت مساهماتها لا تقدر بثمن في نجاح هذا العمل ". يشكر المؤلفون جميع مساعدي الباحثين والمشاركين في الدراسة على دعمهم.
Access restricted. Please log in or start a trial to view this content.
Name | Company | Catalog Number | Comments |
AMOS2022 dataset | None | None | Datasets for network training and testing. The weblink is: https://pan.baidu.com/s/1x2ZW5FiZtVap0er55Wk4VQ?pwd=xhpb |
ASUS mainframe | ASUS | https://www.asusparts.eu/en/asus-13020-01910200 | |
CUDA version 11.7 | NVIDIA | https://developer.nvidia.com/cuda-11-7-0-download-archive | |
NVIDIA GeForce RTX 3090 | NVIDIA | https://www.nvidia.com/en-in/geforce/graphics-cards/30-series/rtx-3090-3090ti/ | |
Paddlepaddle environment | Baidu | None | Environmental preparation for network training. The weblink is: https://www.paddlepaddle.org.cn/ |
PaddleSeg | Baidu | None | The baseline we use: https://github.com/PaddlePaddle/PaddleSeg |
Access restricted. Please log in or start a trial to view this content.
Request permission to reuse the text or figures of this JoVE article
Request PermissionThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. All rights reserved