Модель на основе трансформатора Swin для обнаружения узлов щитовидной железы на ультразвуковых изображениях

Ye Tian; Jingqiang Zhu; Lei Zhang; Lichao Mou; Xiaoxiang Zhu; Yilei Shi; Buyun Ma; Wanjun Zhao

doi:10.3791/64480

АВТОРЫ

СВЯЖИТЕСЬ С НАМИ

Войдите в систему

Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.

Method Article

Модель на основе трансформатора Swin для обнаружения узлов щитовидной железы на ультразвуковых изображениях

DOI:

10.3791/64480

⸱

April 21st, 2023

Ye Tian¹, Jingqiang Zhu², Lei Zhang³, Lichao Mou³, Xiaoxiang Zhu³, Yilei Shi³, Buyun Ma¹, Wanjun Zhao²

¹Department of Ultrasonography, West China Hospital of Sichuan University, ²Department of Thyroid Surgery, West China Hospital of Sichuan University, ³MedAI Technology (Wuxi) Co. Ltd.

Please note that all translations are automatically generated. Click here for the English version.

Резюме

Здесь предложена новая модель обнаружения узлов щитовидной железы на ультразвуковых изображениях, которая использует Swin Transformer в качестве основы для выполнения долгосрочного контекстного моделирования. Эксперименты доказывают, что он хорошо работает с точки зрения чувствительности и точности.

Аннотация

В последние годы заболеваемость раком щитовидной железы растет. Обнаружение узлов щитовидной железы имеет решающее значение как для выявления, так и для лечения рака щитовидной железы. Сверточные нейронные сети (CNN) достигли хороших результатов в задачах ультразвукового анализа изображений щитовидной железы. Однако из-за ограниченного действительного рецептивного поля сверточных слоев CNN не могут улавливать долгосрочные контекстуальные зависимости, которые важны для идентификации узлов щитовидной железы на ультразвуковых изображениях. Трансформаторные сети эффективны при захвате контекстной информации на большие расстояния. Вдохновленные этим, мы предлагаем новый метод обнаружения узлов щитовидной железы, который сочетает в себе основу Swin Transformer и Faster R-CNN. В частности, ультразвуковое изображение сначала проецируется в 1D-последовательность встраиваний, которые затем подаются в иерархический преобразователь Swin Transformer.

Магистраль Swin Transformer извлекает функции в пяти различных масштабах, используя смещенные окна для вычисления самовнимания. Впоследствии сеть пирамиды признаков (FPN) используется для объединения объектов из разных масштабов. Наконец, головка обнаружения используется для прогнозирования ограничительных рамок и соответствующих оценок достоверности. Данные, собранные у 2 680 пациентов, были использованы для проведения экспериментов, и результаты показали, что этот метод достиг наилучшего показателя mAP 44,8%, превзойдя исходные показатели на основе CNN. Кроме того, мы получили лучшую чувствительность (90,5%), чем конкуренты. Это указывает на то, что контекстное моделирование в этой модели эффективно для обнаружения узлов щитовидной железы.

Введение

Заболеваемость раком щитовидной железы быстро росла с 1970 года, особенно среди женщин среднего возраста¹. Узлы щитовидной железы могут предсказывать появление рака щитовидной железы, и большинство узлов щитовидной железы протекают бессимптомно². Раннее выявление узлов щитовидной железы очень полезно при лечении рака щитовидной железы. Поэтому, согласно современным практическим рекомендациям, все пациенты с подозрением на узловой зоб при физикальном осмотре или с аномальными результатами визуализации должны пройти дальнейшее обследование ^3,4.

УЗИ щитовидной железы (УЗИ) является распространенным методом, используемым для выявления и характеристики поражений щитовидной железы ^5,6. США — это удобная, недорогая и безрадиационная технология. Тем не менее, на применение США легко влияет оператор ^7,8. Такие особенности, как форма, размер, эхогенность и текстура узлов щитовидной железы, легко различимы на изображениях УЗИ. Хотя некоторые особенности УЗИ - кальцификаты, эхогенность и неровные границы - часто считаются критериями для выявления узлов щитовидной железы, наличие межнаблюдательной вариабельности неизбежно ^8,9. Результаты диагностики рентгенологов с разным уровнем опыта отличаются. Неопытные радиологи чаще ставят неправильный диагноз, чем опытные радиологи. Некоторые характеристики УЗИ, такие как отражения, тени и эхо, могут ухудшить качество изображения. Это ухудшение качества изображения, вызванное характером визуализации УЗИ, затрудняет даже опытным врачам точное определение местоположения узелков.

Компьютерная диагностика (ИБС) узлов щитовидной железы быстро развивалась в последние годы и может эффективно уменьшить ошибки, вызванные различными врачами, и помочь радиологам быстро и точно диагностировать узлы^10,11. Для анализа узлов щитовидной железы были предложены различные системы САПР на основе CNN, включая сегментацию^12,13, обнаружение 14,15 и классификацию ^16,17. CNN представляет собой многоуровневую модель^{обучения с учителем 18}, а основными модулями CNN являются уровни свертки и объединения. Слои свертки используются для извлечения признаков, а слои пула — для даунсамплинга. Теневые сверточные слои могут извлекать первичные признаки, такие как текстура, края и контуры, в то время как глубокие сверточные слои изучают высокоуровневые семантические признаки.

CNN имели большой успех в области компьютерного зрения 19,20,21. Однако CNN не могут улавливать долгосрочные контекстуальные зависимости из-за ограниченного действительного рецептивного поля сверточных слоев. В прошлом магистральные архитектуры для классификации изображений в основном использовали CNN. С появлением Vision Transformer (ViT)^22,23 эта тенденция изменилась^, и теперь многие современные модели используют трансформаторы в качестве основы. Основываясь на неперекрывающихся участках изображения, ViT использует стандартный кодировщик-трансформатор²⁵ для глобального моделирования пространственных отношений. Swin Transformer²⁴ дополнительно вводит окна переключения передач для изучения функций. Окна сдвига не только повышают эффективность, но и значительно сокращают длину последовательности, потому что в окне рассчитывается внимание к себе. При этом взаимодействие между двумя соседними окнами может осуществляться посредством операции сдвига (перемещения). Успешное применение трансформатора Swin в компьютерном зрении привело к исследованию архитектур на основе трансформаторов для анализа ультразвуковых изображений²⁶.

Недавно Ли и др. предложили подход к глубокому обучению²⁸ для обнаружения папиллярного рака щитовидной железы, вдохновленный Faster R-CNN²⁷. Faster R-CNN — это классическая архитектура обнаружения объектов на основе CNN. Оригинальный Faster R-CNN имеет четыре модуля: магистраль CNN, сеть региональных предложений (RPN), уровень пула ROI и головку обнаружения. Магистраль CNN использует набор базовых слоев conv+bn+relu+pooling для извлечения карт объектов из входного изображения. Затем карты объектов передаются в RPN и слой пула ROI. Роль сети RPN заключается в подготовке предложений по регионам. Этот модуль использует softmax для определения того, являются ли якоря положительными, и генерирует точные якоря путем регрессии ограничительной рамки. Слой пула ROI извлекает карты объектов предложений, собирая входные карты объектов и предложения, и передает карты объектов предложений в последующую головку обнаружения. Головка обнаружения использует карты признаков предложения для классификации объектов и получения точного положения блоков обнаружения путем регрессии ограничительных рамок.

В этой статье представлена новая сеть обнаружения узлов щитовидной железы под названием Swin Faster R-CNN, образованная путем замены основной цепи CNN в Faster R-CNN на Swin Transformer, что приводит к лучшему извлечению признаков для обнаружения узлов из ультразвуковых изображений. Кроме того, сеть пирамид признаков (FPN)²⁹ используется для улучшения характеристик обнаружения модели для конкреций разного размера путем агрегирования признаков разных масштабов.

Access restricted. Please log in or start a trial to view this content.

протокол

Это ретроспективное исследование было одобрено институциональным наблюдательным советом Западно-Китайской больницы Сычуаньского университета, Сычуань, Китай, и требование о получении информированного согласия было отменено.

1. Настройка среды

Программное обеспечение графического процессора (GPU)
1. Чтобы реализовать приложения глубокого обучения, сначала настройте среду, связанную с графическим процессором. Загрузите и установите соответствующее графическому процессору программное обеспечение и драйверы с веб-сайта графического процессора.
  ПРИМЕЧАНИЕ: См. Таблицу материалов для тех, которые использовались в этом исследовании.
Установка Python3.8
1. Откройте терминал на машине. Введите следующее:
  Командная строка: sudo apt-get install python3.8 python-dev python-virtualenv
Установка Pytorch1.7
1. Следуйте инструкциям на официальном сайте, чтобы загрузить и установить Miniconda.
2. Создайте среду conda и активируйте ее.
  Командная строка: conda create --name SwinFasterRCNN python=3.8 -y
  Командная строка: conda activate SwinFasterRCNN
3. Установите Pytorch.
  Командная строка: conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2
Установка MMDetection
1. Клонирование из официального репозитория Github.
  Командная строка: git clone https://github.com/open-mmlab/mmdetection.git
2. Установите MMDetection.
  Командная строка: cd mmdetection
  Командная строка: pip install -v -e .

2. Подготовка данных

Сбор данных
1. Собраны ультразвуковые изображения (здесь 3,000 случаев из третичной больницы класса А). Убедитесь, что у каждого случая есть диагностические записи, планы лечения, отчеты США и соответствующие изображения США.
2. Поместите все изображения из США в папку с именем «images».
  ПРИМЕЧАНИЕ: Данные, использованные в этом исследовании, включали 3,853 изображения США из 3,000 случаев.
Очистка данных
1. Вручную проверьте набор данных на наличие изображений областей, не связанных с щитовидной железой, таких как изображения лимфы.
2. Вручную проверьте набор данных на наличие изображений, содержащих поток цветового доплера.
3. Удалите изображения, выбранные на предыдущих двух шагах.
  ПРИМЕЧАНИЕ: После очистки данных из 2 680 случаев осталось 3 000 изображений.
Аннотации данных
1. Попросите старшего врача найти область узелка на снимке УЗИ и наметить границу узелка.
  ПРИМЕЧАНИЕ: Программное обеспечение и процесс аннотации можно найти в дополнительном файле 1.
2. Попросите другого старшего врача просмотреть и пересмотреть результаты аннотации.
3. Поместите аннотированные данные в отдельную папку под названием «Аннотации».
Разделение данных
1. Запустите скрипт python и задайте путь к изображению на шаге 2.1.2 и пути к аннотациям на шаге 2.3.3. Случайным образом разделите все изображения и соответствующие помеченные файлы на обучающие и проверочные наборы в соотношении 8:2. Сохраните данные обучающего набора в папке "Train", а данные проверочного набора - в папке "Val".
  ПРИМЕЧАНИЕ: Скрипты Python представлены в дополнительном файле 2.
Преобразование в формат набора данных CoCo
ПРИМЕЧАНИЕ: Чтобы использовать MMDetection, обработайте данные в формате набора данных CoCo, который включает в себя файл json, содержащий информацию об аннотации, и папку изображений, содержащую изображения США.
1. Запустите скрипт python и введите пути к папкам аннотаций (шаг 2.3.3), чтобы извлечь области узелков, очерченные врачом, и преобразовать их в маски. Сохраните все маски в папке «Маски».
  ПРИМЕЧАНИЕ: Скрипты Python представлены в дополнительном файле 3.
2. Запустите скрипт python и задайте путь к папке masks на шаге 2.5.1, чтобы преобразовать данные в набор данных в формате CoCo и сгенерировать файл json с изображениями США.
  ПРИМЕЧАНИЕ: Скрипты Python представлены в дополнительном файле 4.

3. Конфигурация Swin Faster RCNN

Загрузите файл модели Swin Transformer (https://github.com/microsoft/Swin-Transformer/blob/main/models/swin_transformer.py), измените его и поместите в папку «mmdetection/mmdet/models/backbones/». Откройте файл «swin_transformer.py» в текстовом редакторе vim и измените его как файл модели Swin Transformer, представленный в дополнительном файле 5.
Командная строка: vim swin_transformer.py
Сделайте копию конфигурационного файла Faster R-CNN, измените магистраль на Swin Transformer и настройте параметры FPN.
Командная строка: cd mmdetection/configs/faster_rcnn
Командная строка: cp faster_rcnn_r50_fpn_1x_coco.py swin_faster_rcnn_swin.py
ПРИМЕЧАНИЕ: Конфигурационный файл Swin Faster R-CNN (swin_faster_rcnn_swin.py) приведен в дополнительном файле 6. Структура сети Swin Faster R-CNN показана на рисунке 1.
Задайте путь к набору данных в формате CoCo (шаг 2.5.2) в файле конфигурации. Откройте файл «coco_detection.py» в текстовом редакторе vim и измените следующую строку:
data_root = "путь к набору данных(этап 2.5.2)"
Командная строка:vim mmdetection/configs/_base_/datasets/coco_detection.py

4. Тренировка Swin быстрее R-CNN

Отредактируйте mmdetection/configs/_base_/schedules/schedule_1x.py и задайте параметры, связанные с обучением по умолчанию, включая скорость обучения, оптимизатор и эпоху. Откройте файл «schedule_1x.py» в текстовом редакторе vim и измените следующие строки:
оптимизатор = dict(type="AdamW"; lr=0.001, momentum=0.9, weight_decay=0.0001)
runner = dict(type='EpochBasedRunner', max_epochs=48)
Командная строка:vim mmdetection/configs/_base_/schedules/schedule_1x.py
ПРИМЕЧАНИЕ: В этом протоколе для этой статьи скорость обучения была установлена равной 0,001, использовался оптимизатор AdamW, максимальная эпоха обучения была установлена на 48, а размер пакета был установлен на 16.
Начните обучение, введя следующие команды. Подождите, пока сеть начнет обучение для 48 эпох и в выходной папке будут сгенерированы результирующие тренированные веса сети Swin Faster R-CNN. Сохраняйте весовые коэффициенты модели с высочайшей точностью в проверочном наборе.
Командная строка: cd mmdetection
Командная строка: python tools/train.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --work-dir ./work_dirs
ПРИМЕЧАНИЕ: Модель была обучена на графическом процессоре NVIDIA GeForce RTX3090 24G. В качестве центрального процессора использовался «64-ядерный процессор AMD Epyc 7742 × 128», а операционной системой — Ubuntu 18.06. Общее время тренировки составило ~2 часа.

5. Обнаружение узлов щитовидной железы на новых изображениях

После обучения выберите модель с наилучшими показателями в наборе валидации для обнаружения узлов щитовидной железы на новых изображениях.
1. Сначала измените размер изображения до 512 x 512 пикселей и нормализуйте его. Эти операции выполняются автоматически при запуске тестового скрипта.
  Командная строка: python tools/test.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --out ./output
2. Подождите, пока сценарий автоматически загрузит предварительно обученные параметры модели в Swin Faster R-CNN, и передайте предварительно обработанное изображение в Swin Faster R-CNN для вывода. Подождите, пока Swin Faster R-CNN выведет окно прогнозирования для каждого изображения.
3. Наконец, разрешите сценарию автоматически выполнять постобработку NMS для каждого изображения, чтобы удалить дубликаты блоков обнаружения.
  ПРИМЕЧАНИЕ: Результаты обнаружения выводятся в указанную папку, которая содержит изображения с полями обнаружения и координатами ограничительной рамки в упакованном файле.

Access restricted. Please log in or start a trial to view this content.

Результаты

Снимки щитовидной железы были получены в двух больницах Китая с сентября 2008 года по февраль 2018 года. Критериями приемлемости для включения изображений США в это исследование были обычное обследование УЗИ перед биопсией и хирургическим лечением, диагностика с помощью биопсии или после...

Access restricted. Please log in or start a trial to view this content.

Обсуждение

В этом документе подробно описывается, как выполнить настройку среды, подготовку данных, конфигурацию модели и обучение сети. На этапе настройки среды необходимо обратить внимание на совместимость и согласованность зависимых библиотек. Обработка данных является очень важным шагом; В?...

Access restricted. Please log in or start a trial to view this content.

Раскрытие информации

Авторы заявляют об отсутствии конфликта интересов.

Благодарности

Это исследование было поддержано Национальным фондом естественных наук Китая (грант No 32101188) и Генеральным проектом Департамента науки и технологий провинции Сычуань (грант No 2021YFS0102), Китай.

Access restricted. Please log in or start a trial to view this content.

Материалы

Name	Company	Catalog Number	Comments
GPU RTX3090	Nvidia	1	24G GPU
mmdetection2.11.0	SenseTime	4	https://github.com/open-mmlab/mmdetection.git
python3.8	—	2	https://www.python.org
pytorch1.7.1	Facebook	3	https://pytorch.org

Ссылки

Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5(2013).
Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
Park, J. -Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
Moon, W. -J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
Chang, T. -C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
Fully convolutional networks for ultrasound image segmentation of thyroid nodules. Li, X. IEEE 20th International Conference on High Performance Computing and Communications; IEEE 16th International Conference on Smart City; IEEE 4th International Conference on Data Science and Systems (HPCC/SmartCity/DSS), , 886-890 (2018).
Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484(2022).
Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. Wang, J., et al. 2018 25Th IEEE International Conference on Image Processing (ICIP), , IEEE. 3114-3118 (2018).
Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718(2022).
Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
Szegedy, C., et al. Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015).
Dosovitskiy, A., et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600(2018).
Lin, T. -Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199(2022).
Castleman, K. R. Digital Image Processing. , Prentice Hall Press. Hoboken, NJ. (1996).
Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
Redmon, J., Farhadi, A. Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018).
Lin, T. -Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , Glasgow, UK. 23-28 (2020).

Access restricted. Please log in or start a trial to view this content.

Перепечатки и разрешения

Запросить разрешение на использование текста или рисунков этого JoVE статьи

Запросить разрешение

Смотреть дополнительные статьи

194

This article has been published

Video Coming Soon

Keep me updated:

Конфиденциальность

Условия эксплуатации

Политика

СВЯЖИТЕСЬ С НАМИ

РЕКОМЕНДОВАТЬ БИБЛИОТЕКЕ

НОВОСТИ JoVE

Исследования

Образование

АВТОРЫ

Библиотекарь

О JoVE