A subscription to JoVE is required to view this content. Sign in or start your free trial.
Method Article
הפרוטוקול הנוכחי מתאר שיטת פילוח יעילה מרובת איברים הנקראת Swin-PSAxialNet, שהשיגה דיוק מצוין בהשוואה לשיטות פילוח קודמות. השלבים העיקריים של הליך זה כוללים איסוף מערכי נתונים, תצורת סביבה, עיבוד מקדים של נתונים, אימון והשוואה של מודלים וניסויי אבלציה.
פילוח רב איברים בבטן הוא אחד הנושאים החשובים ביותר בתחום ניתוח תמונות רפואיות, והוא ממלא תפקיד חשוב בתמיכה בתהליכי עבודה קליניים כגון אבחון מחלות ותכנון טיפול. במחקר זה מוצעת שיטת פילוח יעילה מרובת איברים הנקראת Swin-PSAxialNet המבוססת על ארכיטקטורת nnU-Net. הוא תוכנן במיוחד לפילוח מדויק של 11 איברי בטן בתמונות CT. הרשת המוצעת ביצעה את השיפורים הבאים בהשוואה ל-nnU-Net. ראשית, הוצגו מודולי מרחב לעומק (SPD) ובלוקים לחילוץ תכונות תשומת לב צירית משותפת לפרמטרים (PSAA), מה ששיפר את היכולת של חילוץ תכונות תמונה תלת מימדית. שנית, נעשה שימוש בגישת היתוך תמונה רב-קנה מידה כדי ללכוד מידע מפורט ותכונות מרחביות, ולשפר את היכולת לחלץ תכונות עדינות ותכונות קצה. לבסוף, הוצגה שיטת שיתוף פרמטרים כדי להפחית את עלות החישוב ומהירות האימון של המודל. הרשת המוצעת משיגה מקדם קוביות ממוצע של 0.93342 עבור משימת הפילוח הכוללת 11 איברים. תוצאות ניסיוניות מצביעות על העליונות הבולטת של Swin-PSAxialNet על פני שיטות פילוח מיינסטרים קודמות. השיטה מציגה דיוק מצוין ועלויות חישוביות נמוכות בפילוח איברי בטן עיקריים.
התערבות קלינית עכשווית, כולל אבחון מחלות, גיבוש תוכניות טיפול ומעקב אחר תוצאות הטיפול, מסתמכת על פילוח מדויק של תמונות רפואיות1. עם זאת, היחסים המבניים המורכבים בין איברי הבטן2הופכים את זה למשימה מאתגרת להשיג פילוח מדויק של איברי בטןמרובים 3. במהלך העשורים האחרונים, ההתפתחויות המשגשגות בהדמיה רפואית וראייה ממוחשבת הציגו הזדמנויות ואתגרים חדשים בתחום הסגמנטציה של איברים מרובי איברים בבטן. הדמיית תהודה מגנטית מתקדמת (MRI)4 וטכנולוגיית טומוגרפיה ממוחשבת (CT)5 מאפשרות לנו לרכוש תמונות בטן ברזולוציה גבוהה. לפילוח המדויק של איברים מרובים מתמונות CT יש ערך קליני משמעותי להערכה וטיפול באיברים חיוניים כגון הכבד, הכליות, הטחול, הלבלב וכו'.6,7,8,9,10 עם זאת, ביאור ידני של מבנים אנטומיים אלה, במיוחד אלה הדורשים התערבות של רדיולוגים או אונקולוגים קרינתיים, הוא גם גוזל זמן וגם רגיש להשפעות סובייקטיביות 11. לכן, יש צורך דחוף בפיתוח שיטות אוטומטיות ומדויקות לפילוח רב איברים בבטן.
מחקר קודם על פילוח תמונות הסתמך בעיקר על רשתות עצביות קונבולוציוניות (CNNs), המשפרות את יעילות הפילוח על ידי ערימת שכבות והצגת ResNet12. בשנת 2020, צוות המחקר של גוגל הציג את דגם Vision Transformer (VIT)13, וסימן מופע חלוצי של שילוב ארכיטקטורת שנאי בתחום הוויזואלי המסורתי עבור מגוון משימות חזותיות14. בעוד שפעולות קונבולוציוניות יכולות להרהר רק במידע על תכונות מקומיות, מנגנון הקשב ב-Transformers מאפשר התייחסות מקיפה למידע על תכונות גלובליות.
בהתחשב בעליונותן של ארכיטקטורות מבוססות רובוטריקים על פני רשתות קונבולוציוניות מסורתיות15, צוותי מחקר רבים ביצעו מחקר מקיף באופטימיזציה של הסינרגיה בין נקודות החוזק של רובוטריקים ורשתות קונבולוציוניות 16,17,18,19. צ'ן ועמיתיו הציגו את TransUNet למשימות פילוח תמונות רפואיות16, הממנף רובוטריקים כדי לחלץ תכונות גלובליות מתמונות. בשל העלות הגבוהה של אימון הרשת והכישלון לנצל את הרעיון של היררכיית חילוץ תכונות, היתרונות של Transformer לא מומשו במלואם.
כדי לטפל בבעיות אלה, חוקרים רבים החלו להתנסות בשילוב רובוטריקים כעמוד השדרה של רשתות פילוח הדרכה. ליו ואחרים הציגו את שנאי סווין, שהשתמש בשיטת בנייה היררכית לחילוץ תכונות שכבות. הרעיון של תשומת לב עצמית מרובת ראשים של Windows (W-MSA) הוצע, והפחית משמעותית את עלות החישוב, במיוחד בנוכחות מפות תכונות גדולות יותר ברמה רדודה. בעוד שגישה זו הפחיתה את הדרישות החישוביות, היא גם בודדה העברת מידע בין חלונות שונים. כדי לטפל בבעיה זו, המחברים הציגו עוד את הרעיון של תשומת לב עצמית מרובת ראשים של חלונות מוסטים (SW-MSA), המאפשר הפצת מידע בין חלונות סמוכים. בהתבסס על מתודולוגיה זו, Cao et al. ניסחו את Swin-UNet18, החליפו את הפיתולים הדו-ממדיים ב-U-Net במודולי Swin ושילבו W-MSA ו-SW-MSA בתהליכי הקידוד והפענוח, והשיגו תוצאות פילוח ראויות לשבח.
לעומת זאת, ג'ואו ואחרים הדגישו כי לא ניתן להתעלם מהיתרון של פעולת המרה בעת עיבוד תמונות ברזולוציה גבוהה19. nnFormer המוצע שלהם משתמש בשיטת חישוב תשומת לב עצמית המבוססת על בלוקים מקומיים של תמונה תלת מימדית, המהווים מודל שנאי המאופיין במבנה בצורת צלב. ניצול הקשב המבוסס על בלוקים תלת מימדיים מקומיים הפחית משמעותית את עומס האימון ברשת.
בהתחשב בבעיות במחקר הנ"ל, מוצע מבנה היררכי היברידי יעיל לפילוח תמונות רפואיות תלת מימדיות, המכונה Swin-PSAxialNet. שיטה זו משלבת בלוק דגימה, בלוק מרחב לעומק (SPD)20 , המסוגל לחלץ מידע גלובלי21. בנוסף, הוא מוסיף מודול קשב צירי משותף (PSAA), המפחית את ספירת פרמטרי הלמידה מריבועי לליניארי וישפיע לטובה על הדיוק של אימון הרשת ועל המורכבות של מודלים של אימון22.
רשת Swin-PSAxialNet
הארכיטקטורה הכוללת של הרשת מאמצת את המבנה בצורת U של nnU-Net23, המורכב ממבני מקודד ומפענח. מבנים אלה עוסקים בחילוץ תכונות מקומיות ובשרשור של תכונות מתמונות בקנה מידה גדול וקטן, כפי שמודגם באיור 1.
איור 1: דיאגרמה סכמטית של Swin-PSAxialNet של ארכיטקטורת רשת. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
במבנה המקודד, בלוק הקונב המסורתי משולב עם בלוק SPD20 ליצירת נפח דגימה. השכבה הראשונה של המקודד משלבת Patch Embedding, מודול המחלק את נתוני התלת מימד לתיקונים תלת מימדיים , (P1, P2, P3) מייצג טלאים לא חופפים בהקשר זה,
מסמן את אורך הרצף של טלאים תלת מימדיים. לאחר שכבת ההטמעה, השלב הבא כולל יחידת דגימה קונבולוציונית לא חופפת הכוללת גם בלוק קונבולוציוני וגם בלוק SPD. במערך זה, לבלוק הקונבולוציוני יש צעד מוגדר ל-1, ובלוק ה-SPD משמש לשינוי קנה מידה של תמונה, מה שמוביל להפחתה של פי ארבעה ברזולוציה ולעלייה כפולה בערוצים.
במבנה המפענח, כל בלוק דגימה לאחר שכבת תכונת צוואר הבקבוק מורכב משילוב של בלוק דגימה ובלוק PSAA. הרזולוציה של מפת התכונות גדלה פי שניים, וספירת הערוצים מצטמצמת בחצי בין כל זוג שלבי מפענח. כדי לשחזר מידע מרחבי ולשפר את ייצוג התכונות, מיזוג תכונות בין תמונות בקנה מידה גדול וקטן מתבצע בין גושי הדגימה. בסופו של דבר, תוצאות ההגדלה מוזנות לשכבת הראש כדי לשחזר את גודל התמונה המקורי, עם גודל פלט של (H × W × D × C, C = 3).
ארכיטקטורת בלוקים SPD
בשיטות מסורתיות, קטע הפחתת הדגימה משתמש בצעד בודד עם גודל צעד של 2. זה כרוך באיגום קונבולוציוני במיקומים מקומיים בתמונה, הגבלת שדה הקליטה והגבלת המודל לחילוץ תכונות מטלאי תמונה קטנים. שיטה זו משתמשת בבלוק SPD, המחלק דק את התמונה המקורית לתלת מימד. התמונה התלת-ממדית המקורית מחולקת באופן שווה לאורך צירי x, y ו-z, והתוצאה היא ארבעה גופים תת-נפחיים. (איור 2) לאחר מכן, ארבעת הכרכים משורשרים באמצעות פעולת "חתול", והתמונה המתקבלת עוברת פיתול של 1 × 1 × 1 כדי לקבל את התמונה שנדגמה למטה20.
איור 2: דיאגרמת בלוקים SPD. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.
ארכיטקטורת בלוק PSAA
בניגוד לרשתות CNN מסורתיות, בלוק ה-PSAA המוצע יעיל יותר בניהול מיקוד מידע גלובלי ויעיל יותר בלמידה והדרכה ברשת. זה מאפשר ללכוד תמונות עשירות יותר ותכונות מרחביות. בלוק ה-PSAA כולל למידת קשב צירית המבוססת על פרמטרים החולקים בשלושה ממדים: גובה, רוחב ועומק. בהשוואה למנגנון הקשב המקובל המבצע למידת קשב עבור כל פיקסל בתמונה, שיטה זו מבצעת באופן עצמאי למידת קשב עבור כל אחד משלושת הממדים, ומפחיתה את מורכבות הקשב העצמי מריבועית לליניארית. יתר על כן, נעשה שימוש במנגנון שיתוף פרמטרים של שאילתות מפתחות הניתן ללמידה, המאפשר לרשת לבצע פעולות מנגנון קשב במקביל על פני שלושת הממדים, וכתוצאה מכך ייצוג תכונות מהיר, מעולה ויעיל יותר.
הפרוטוקול הנוכחי אושר על ידי ועדת האתיקה של אוניברסיטת ננטונג. זה כרוך בהערכה ומחקר חכמים של נתונים מולטי-מודאליים לא פולשניים או זעיר פולשניים שנרכשו, כולל תמונות רפואיות אנושיות, תנועות גפיים והדמיית כלי דם, תוך שימוש בטכנולוגיית בינה מלאכותית. איור 3 מתאר את תרשים הזרימה הכולל של פילוח מרובה איברים. כל קישורי האינטרנט הדרושים מסופקים בטבלת החומרים.
איור 3: תרשים זרימה כולל של פילוח רב-איברים. אנא לחץ כאן לצפייה בגרסה גדולה יותר של איור זה.
1. איסוף מערכי נתונים
2. תצורת סביבה
3. עיבוד מקדים של נתונים
4. הדרכה והשוואה של מודלים
הערה: כבסיס בשימוש נרחב בתחום פילוח התמונות, nnU-Net23 משמש כמודל בסיס במחקר. תהליך השוואת הדגמים הספציפי הוא כדלקמן.
5. ניסוי אבלציה
פרוטוקול זה משתמש בשני מדדים כדי להעריך את המודל: ציון דמיון בקוביות (DSC) ומרחק האוסדורף 95% (HD95). DSC מודד את החפיפה בין תחזיות פילוח ווקסל לאמת הקרקע, בעוד ש-95% HD מעריך את החפיפה בין גבולות חיזוי סגמנטציה של ווקסל לבין האמת הקרקעית, ומסנן 5% מהחריגים. ההגדרה של DSC26 ?...
פילוח איברי הבטן הוא עבודה מורכבת. בהשוואה למבנים פנימיים אחרים של גוף האדם, כגון המוח או הלב, פילוח איברי הבטן נראה מאתגר יותר בגלל הניגודיות הנמוכה ושינויי הצורה הגדולים בתמונות CT27,28. Swin-PSAxialNet מוצע כאן כדי לפתור בעיה קשה זו.
המחברים מצהירים שאין ניגודי אינטרסים.
מחקר זה נתמך על ידי פרויקט ההנדסה '333' של מחוז ג'יאנגסו ([2022]21-003), התוכנית הכללית של ועדת הבריאות של וושי (M202205) וקרן פיתוח המדע והטכנולוגיה של וושי (Y20212002-1), שתרומתם לא תסולא בפז להצלחת עבודה זו". המחברים מודים לכל עוזרי המחקר ומשתתפי המחקר על תמיכתם.
Name | Company | Catalog Number | Comments |
AMOS2022 dataset | None | None | Datasets for network training and testing. The weblink is: https://pan.baidu.com/s/1x2ZW5FiZtVap0er55Wk4VQ?pwd=xhpb |
ASUS mainframe | ASUS | https://www.asusparts.eu/en/asus-13020-01910200 | |
CUDA version 11.7 | NVIDIA | https://developer.nvidia.com/cuda-11-7-0-download-archive | |
NVIDIA GeForce RTX 3090 | NVIDIA | https://www.nvidia.com/en-in/geforce/graphics-cards/30-series/rtx-3090-3090ti/ | |
Paddlepaddle environment | Baidu | None | Environmental preparation for network training. The weblink is: https://www.paddlepaddle.org.cn/ |
PaddleSeg | Baidu | None | The baseline we use: https://github.com/PaddlePaddle/PaddleSeg |
Request permission to reuse the text or figures of this JoVE article
Request PermissionThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. All rights reserved