Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.
Method Article
Настоящий протокол описывает эффективный метод многоорганной сегментации под названием Swin-PSAxialNet, который достиг превосходной точности по сравнению с предыдущими методами сегментации. Ключевые этапы этой процедуры включают сбор наборов данных, настройку среды, предварительную обработку данных, обучение и сравнение моделей, а также эксперименты по абляции.
Абдоминальная полиорганная сегментация является одной из наиболее важных тем в области анализа медицинских изображений и играет важную роль в поддержке клинических рабочих процессов, таких как диагностика заболеваний и планирование лечения. В данном исследовании предложен эффективный метод многоорганной сегментации под названием Swin-PSAxialNet на основе архитектуры nnU-Net. Он был разработан специально для точной сегментации 11 органов брюшной полости на КТ-изображениях. В предлагаемую сеть были внесены следующие улучшения по сравнению с nnU-Net. Во-первых, были представлены модули Space-to-depth (SPD) и блоки извлечения признаков с разделяемым по параметрам осевого внимания (PSAA), что расширило возможности извлечения признаков 3D-изображений. Во-вторых, для получения подробной информации и пространственных особенностей был использован подход слияния многомасштабных изображений, что улучшило возможности извлечения тонких особенностей и краевых особенностей. Наконец, был введен метод совместного использования параметров, чтобы снизить вычислительные затраты модели и скорость обучения. Предложенная сеть достигает среднего коэффициента Dice 0,93342 для задачи сегментации с участием 11 органов. Экспериментальные результаты указывают на заметное превосходство Swin-PSAxialNet над предыдущими методами сегментации. Метод показывает отличную точность и низкие вычислительные затраты при сегментации основных органов брюшной полости.
Современное клиническое вмешательство, включая диагностику заболеваний, составление планов лечения и отслеживание результатов лечения, опирается на точную сегментацию медицинских изображений1. Тем не менее, сложные структурные взаимоотношения между органами брюшной полости2делают задачу достижения точной сегментации нескольких органов брюшной полостисложной задачей 3. За последние несколько десятилетий бурное развитие медицинской визуализации и компьютерного зрения открыло как новые возможности, так и вызовы в области сегментации полиорганов брюшной полости. Передовые технологии магнитно-резонансной томографии (МРТ)4 и компьютерной томографии (КТ)5 позволяют получать изображения брюшной полости с высоким разрешением. Точная сегментация нескольких органов по изображениям КТ имеет важное клиническое значение для оценки и лечения жизненно важных органов, таких как печень, почки, селезенка, поджелудочная железа и т. д.6,7,8,9,10 Однако ручное аннотирование этих анатомических структур, особенно тех, которые требуют вмешательства радиологов или онкологов-радиологов, занимает много времени и подвержено субъективному влиянию 11. В связи с этим существует острая необходимость в разработке автоматизированных и точных методов полиорганной сегментации брюшной полости.
Предыдущие исследования сегментации изображений в основном опирались на сверточные нейронные сети (СНС), которые повышают эффективность сегментации за счет наложения слоев и внедрения ResNet12. В 2020 году исследовательская группа Google представила модель Vision Transformer (VIT)13, которая стала первым примером внедрения архитектуры Transformer в традиционную визуальную область для ряда визуальных задач14. В то время как сверточные операции могут рассматривать только информацию о локальных признаках, механизм внимания в «Трансформерах» позволяет всесторонне рассматривать информацию о глобальных признаках.
Учитывая превосходство архитектур на основе трансформаторов над традиционными сверточными сетями15, многочисленные исследовательские группы провели обширные исследования по оптимизации синергии между сильными сторонами трансформаторов и сверточных сетей 16,17,18,19. Чен и др. представили TransUNet для задачсегментации медицинских изображений 16, которые используют трансформеры для извлечения глобальных характеристик из изображений. Из-за высокой стоимости обучения сети и неспособности использовать концепцию иерархии извлечения признаков, преимущества Transformer не были реализованы в полной мере.
Чтобы решить эти проблемы, многие исследователи начали экспериментировать с использованием трансформеров в качестве основы для обучающих сегментационных сетей. Лю и др.17 представили трансформатор Свина, который использовал метод иерархического построения для многоуровневого извлечения признаков. Была предложена концепция Windows Multi-Head Self-Attention (W-MSA), значительно снижающая вычислительные затраты, особенно при наличии более крупных карт функций мелкого уровня. Хотя такой подход снизил вычислительные требования, он также изолировал передачу информации между различными окнами. Чтобы решить эту проблему, авторы ввели концепцию Shifted Windows Multi-Head Self-Attention (SW-MSA), позволяющую распространять информацию между соседними окнами. Основываясь на этой методологии, Цао и др. сформулировали Swin-UNet18, заменив двухмерные свертки в U-Net на модули Swin и включив W-MSA и SW-MSA в процессы кодирования и декодирования, достигнув похвальных результатов сегментации.
И наоборот, Zhou et al. подчеркнули, что преимущество операции conv нельзя игнорировать при обработке изображений с высоким разрешением19. Предложенный ими nnFormer использует метод вычисления собственного внимания, основанный на локальных трехмерных блоках изображений, составляющих модель Трансформера, характеризующуюся крестообразной структурой. Использование внимания на основе локальных трехмерных блоков значительно снижало учебную нагрузку на сеть.
Учитывая проблемы, связанные с вышеупомянутым исследованием, предлагается эффективная гибридная иерархическая структура для сегментации 3D-медицинских изображений, получившая название Swin-PSAxialNet. Этот метод включает в себя блок понижающей дискретизации, блок Space-to-depth (SPD)20 , способный извлекать глобальную информацию21. Кроме того, он добавляет модуль параметра «Разделяемое осевое внимание» (PSAA), который сокращает количество параметров обучения с квадратичного до линейного и окажет хорошее влияние на точность обучения сети и сложность обучающих моделей22.
Сеть Swin-PSAxialNet
Общая архитектура сети использует U-образную структуру nnU-Net23, состоящую из структур энкодера и декодера. Эти структуры участвуют в локальном извлечении признаков и конкатенации признаков из больших и мелких изображений, как показано на рисунке 1.
Рисунок 1: Принципиальная схема сетевой архитектуры Swin-PSAxialNet. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
В структуре энкодера традиционный блок Conv объединен с блоком SPD20 для формирования объема понижающей дискретизации. Первый слой кодировщика включает в себя Patch Embedding, модуль, который разделяет 3D-данные на 3D-патчи , (P1, P2, P3), представляет неперекрывающиеся патчи в этом контексте,
обозначает длину последовательности 3D-патчей. Следующий шаг включает в себя неперекрывающуюся сверточную единицу понижающей дискретизации, содержащую как сверточный блок, так и блок SPD. В этой конфигурации сверточный блок имеет шаг, равный 1, а блок SPD используется для масштабирования изображения, что приводит к четырехкратному снижению разрешения и двукратному увеличению каналов.
В структуре декодера каждый блок повышающей дискретизации после уровня Bottleneck Feature состоит из комбинации блока повышающей дискретизации и блока PSAA. Разрешение карты функций увеличивается в два раза, а количество каналов уменьшается вдвое между каждой парой каскадов декодера. Для восстановления пространственной информации и улучшения представления объектов выполняется слияние объектов между большими и мелкомасштабными изображениями между блоками повышающей дискретизации. В конечном счете, результаты повышающей дискретизации подаются в слой Head для восстановления исходного размера изображения с выходным размером (H × W × D × C, C = 3).
Блочная архитектура SPD
В традиционных методах секция понижающей дискретизации выполняется одним шагом с шагом 2. Это включает в себя сверточный пул в локальных положениях изображения, ограничение рецептивного поля и ограничение модели извлечением признаков из небольших участков изображения. В этом методе используется блок SPD, который тонко делит исходное изображение на три измерения. Исходное 3D-изображение равномерно сегментировано по осям x, y и z, в результате чего образуются четыре подобъемных тела. (Рисунок 2) Впоследствии четыре тома объединяются с помощью операции «cat», и полученное изображение подвергается свертке 1 × 1 × 1 для получения изображения20 с пониженной дискретизацией.
Рисунок 2: Блок-схема SPD. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Блочная архитектура PSAA
В отличие от традиционных сетей CNN, предлагаемый блок PSAA более эффективен в проведении глобального информационного фокуса и более эффективен в обучении и обучении сети. Это позволяет получать более насыщенные изображения и пространственные особенности. Блок PSAA включает в себя осевое обучение внимания на основе совместного использования параметров в трех измерениях: высота, ширина и глубина. По сравнению с обычным механизмом внимания, который выполняет обучение внимания для каждого пикселя на изображении, этот метод независимо проводит обучение внимания для каждого из трех измерений, снижая сложность собственного внимания с квадратичной до линейной. Кроме того, используется обучаемый механизм совместного использования параметров ключей-запросов, позволяющий сети выполнять операции механизма внимания параллельно в трех измерениях, что приводит к более быстрому, превосходному и эффективному представлению признаков.
Настоящий протокол был одобрен Этическим комитетом Наньтунского университета. Он включает в себя интеллектуальную оценку и исследование полученных неинвазивных или минимально инвазивных мультимодальных данных, включая медицинские изображения человека, движения конечностей и визуализацию сосудов, с использованием технологии искусственного интеллекта. На рисунке 3 показана общая блок-схема многоорганной сегментации. Все необходимые веб-ссылки приведены в Таблице материалов.
Рисунок 3: Общая блок-схема многоорганной сегментации. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
1. Сбор наборов данных
2. Настройка окружения
3. Предварительная обработка данных
4. Обучение и сравнение моделей
ПРИМЕЧАНИЕ: Являясь широко используемым базовым уровнем в области сегментации изображений, nnU-Net23 служит базовой моделью в исследовании. Процесс сравнения конкретных моделей выглядит следующим образом.
5. Эксперимент по абляции
Этот протокол использует две метрики для оценки модели: индекс сходства кубиков (DSC) и 95% расстояние Хаусдорфа (HD95). DSC измеряет перекрытие между прогнозами воксельной сегментации и наземной достоверностью, в то время как 95% HD оценивает перекрытие между границами прогно...
Сегментация органов брюшной полости – сложная работа. По сравнению с другими внутренними структурами человеческого тела, такими как мозг или сердце, сегментация органов брюшной полости кажется более сложной задачей из-за низкого контраста и больших изменений формы ...
Авторы заявляют об отсутствии конфликта интересов.
Это исследование было поддержано инженерным проектом «333» провинции Цзянсу ([2022]21-003), Общей программой Комиссии по здравоохранению Уси (M202205) и Фондом развития науки и технологий Уси (Y20212002-1), чей вклад был неоценим для успеха этой работы». Авторы благодарят всех научных сотрудников и участников исследования за поддержку.
Name | Company | Catalog Number | Comments |
AMOS2022 dataset | None | None | Datasets for network training and testing. The weblink is: https://pan.baidu.com/s/1x2ZW5FiZtVap0er55Wk4VQ?pwd=xhpb |
ASUS mainframe | ASUS | https://www.asusparts.eu/en/asus-13020-01910200 | |
CUDA version 11.7 | NVIDIA | https://developer.nvidia.com/cuda-11-7-0-download-archive | |
NVIDIA GeForce RTX 3090 | NVIDIA | https://www.nvidia.com/en-in/geforce/graphics-cards/30-series/rtx-3090-3090ti/ | |
Paddlepaddle environment | Baidu | None | Environmental preparation for network training. The weblink is: https://www.paddlepaddle.org.cn/ |
PaddleSeg | Baidu | None | The baseline we use: https://github.com/PaddlePaddle/PaddleSeg |
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены