Un modelo basado en transformador de Swin para la detección de nódulos tiroideos en imágenes de ultrasonido

Ye Tian; Jingqiang Zhu; Lei Zhang; Lichao Mou; Xiaoxiang Zhu; Yilei Shi; Buyun Ma; Wanjun Zhao

doi:10.3791/64480

Autores

Contáctenos

Iniciar sesión

Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.

En este artículo

Resumen
Resumen
Introducción
Protocolo
Resultados
Discusión
Divulgaciones
Agradecimientos
Materiales
Referencias
Reimpresiones y Permisos

Resumen

Aquí, se propone un nuevo modelo para la detección de nódulos tiroideos en imágenes de ultrasonido, que utiliza Swin Transformer como columna vertebral para realizar modelos de contexto de largo alcance. Los experimentos demuestran que funciona bien en términos de sensibilidad y precisión.

Resumen

En los últimos años, la incidencia de cáncer de tiroides ha ido en aumento. La detección de nódulos tiroideos es fundamental tanto para la detección como para el tratamiento del cáncer de tiroides. Las redes neuronales convolucionales (CNN) han logrado buenos resultados en las tareas de análisis de imágenes de ultrasonido tiroideo. Sin embargo, debido al limitado campo receptivo válido de las capas convolucionales, las CNN no logran capturar dependencias contextuales de largo alcance, que son importantes para identificar nódulos tiroideos en imágenes de ultrasonido. Las redes de transformadores son eficaces para capturar información contextual de largo alcance. Inspirados en esto, proponemos un nuevo método de detección de nódulos tiroideos que combina la columna vertebral Swin Transformer y Faster R-CNN. Específicamente, una imagen de ultrasonido se proyecta primero en una secuencia 1D de incrustaciones, que luego se introducen en un transformador Swin jerárquico.

La columna vertebral de Swin Transformer extrae características en cinco escalas diferentes mediante la utilización de ventanas desplazadas para el cálculo de la autoatención. Posteriormente, se utiliza una red piramidal de entidades (FPN) para fusionar las entidades de diferentes escalas. Finalmente, se utiliza un cabezal de detección para predecir los cuadros delimitadores y las puntuaciones de confianza correspondientes. Los datos recopilados de 2.680 pacientes se utilizaron para realizar los experimentos, y los resultados mostraron que este método logró la mejor puntuación de mAP del 44,8%, superando las líneas de base basadas en CNN. Además, ganamos mejor sensibilidad (90,5%) que los competidores. Esto indica que el modelado de contexto en este modelo es eficaz para la detección de nódulos tiroideos.

Introducción

La incidencia de cáncer de tiroides ha aumentado rápidamente desde 1970, especialmente entre las mujeres de mediana edad¹. Los nódulos tiroideos pueden predecir la aparición de cáncer de tiroides, y la mayoría de los nódulos tiroideos son asintomáticos². La detección temprana de nódulos tiroideos es muy útil para curar el cáncer de tiroides. Por lo tanto, de acuerdo con las guías de práctica actuales, todos los pacientes con sospecha de bocio nodular en el examen físico o con hallazgos anormales de imagen deben someterse a un examen adicional ^3,4.

La ecografía tiroidea (US) es un método común utilizado para detectar y caracterizar las lesiones tiroideas ^5,6. US es una tecnología conveniente, económica y libre de radiación. Sin embargo, la aplicación de US se ve fácilmente afectada por el operador ^7,8. Características como la forma, el tamaño, la ecogenicidad y la textura de los nódulos tiroideos son fácilmente distinguibles en las imágenes estadounidenses. Aunque ciertas características de EE.UU. -calcificaciones, ecogenicidad y bordes irregulares- a menudo se consideran criterios para identificar nódulos tiroideos, la presencia de variabilidad interobservador es inevitable ^8,9. Los resultados del diagnóstico de los radiólogos con diferentes niveles de experiencia son diferentes. Los radiólogos sin experiencia son más propensos a diagnosticar erróneamente que los radiólogos experimentados. Algunas características de US, como reflejos, sombras y ecos, pueden degradar la calidad de la imagen. Esta degradación en la calidad de la imagen causada por la naturaleza de las imágenes de EE.UU. hace que sea difícil incluso para los médicos experimentados localizar los nódulos con precisión.

El diagnóstico asistido por computadora (EAC) para los nódulos tiroideos se ha desarrollado rápidamente en los últimos años y puede reducir eficazmente los errores causados por diferentes médicos y ayudar a los radiólogos a diagnosticar los nódulos de forma rápida y precisa^10,11. Se han propuesto varios sistemas CAD basados en CNN para el análisis de nódulos tiroideos de EE.UU., incluida la segmentación 12,13, la detección 14,15 y la clasificación ^16,17. CNN es un modelo de aprendizaje supervisado^{multicapa 18}, y los módulos centrales de CNN son las capas de convolución y agrupación. Las capas de convolución se utilizan para la extracción de entidades y las capas de agrupación se utilizan para el muestreo descendente. Las capas convolucionales de sombra pueden extraer características primarias como la textura, los bordes y los contornos, mientras que las capas convolucionales profundas aprenden características semánticas de alto nivel.

Las CNN han tenido un gran éxito en la visión por computadora 19,20,21. Sin embargo, las CNN no logran capturar dependencias contextuales de largo alcance debido al limitado campo receptivo válido de las capas convolucionales. En el pasado, las arquitecturas troncales para la clasificación de imágenes utilizaban principalmente CNN. Con la llegada del transformador de visión (ViT)^22,23, esta tendencia ha cambiado, y ahora muchos modelos de última generación utilizan transformadores como columna vertebral. Basado en parches de imagen no superpuestos, ViT utiliza un codificador transformador estándar²⁵ para modelar globalmente las relaciones espaciales. El Swin Transformer²⁴ introduce además ventanas de cambio para aprender características. Las ventanas de desplazamiento no solo aportan una mayor eficiencia, sino que también reducen en gran medida la longitud de la secuencia porque la autoatención se calcula en la ventana. Al mismo tiempo, la interacción entre dos ventanas adyacentes se puede hacer a través de la operación de desplazamiento (movimiento). La aplicación exitosa del transformador Swin en visión artificial ha llevado a la investigación de arquitecturas basadas en transformadores para el análisis de imágenes de ultrasonido²⁶.

Recientemente, Li et al. propusieron un enfoque de aprendizaje profundo²⁸ para la detección del cáncer papilar de tiroides inspirado en Faster R-CNN²⁷. Faster R-CNN es una arquitectura clásica de detección de objetos basada en CNN. El R Faster original tiene cuatro módulos: la red troncal CNN, la red de propuestas de región (RPN), la capa de agrupación de ROI y el cabezal de detección. La red troncal de CNN utiliza un conjunto de capas básicas conv+bn+relu+pooling para extraer mapas de entidades de la imagen de entrada. A continuación, los mapas de entidades se introducen en la RPN y la capa de agrupación de ROI. El papel de la red RPN es generar propuestas regionales. Este módulo utiliza softmax para determinar si los anclajes son positivos y genera anclajes precisos mediante la regresión de cuadro delimitador. La capa de agrupación de ROI extrae los mapas de entidades de la propuesta recopilando los mapas de entidades de entrada y las propuestas y alimenta los mapas de entidades de la propuesta en el cabezal de detección posterior. El cabezal de detección utiliza los mapas de entidades de propuesta para clasificar objetos y obtener posiciones precisas de los cuadros de detección mediante regresión de cuadro delimitador.

Este artículo presenta una nueva red de detección de nódulos tiroideos llamada Swin Faster R-CNN formada al reemplazar la columna vertebral de CNN en Faster R-CNN con el transformador Swin, lo que resulta en una mejor extracción de características para la detección de nódulos a partir de imágenes de ultrasonido. Además, la red piramidal de características (FPN)²⁹ se utiliza para mejorar el rendimiento de detección del modelo para nódulos de diferentes tamaños mediante la agregación de características de diferentes escalas.

Protocolo

Este estudio retrospectivo fue aprobado por la junta de revisión institucional del Hospital de China Occidental, Universidad de Sichuan, Sichuan, China, y se renunció al requisito de obtener el consentimiento informado.

1. Configuración del entorno

Software de unidad de procesamiento gráfico (GPU)
1. Para implementar aplicaciones de aprendizaje profundo, primero configure el entorno relacionado con la GPU. Descargue e instale el software y los controladores apropiados para la GPU desde el sitio web de la GPU.
  NOTA: Consulte la Tabla de materiales para los utilizados en este estudio.
Instalación de Python3.8
1. Abra un terminal en la máquina. Escriba lo siguiente:
  Línea de comandos: sudo apt-get install python3.8 python-dev python-virtualenv
Instalación de Pytorch1.7
1. Siga los pasos en el sitio web oficial para descargar e instalar Miniconda.
2. Crea un entorno conda y actívalo.
  Línea de comandos: conda create --name SwinFasterRCNN python=3.8 -y
  Línea de comandos: conda activate SwinFasterRCNN
3. Instale Pytorch.
  Línea de comandos: conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2
Instalación de MMDetection
1. Clone desde el repositorio oficial de Github.
  Línea de comandos: git clone https://github.com/open-mmlab/mmdetection.git
2. Instale MMDetection.
  Línea de comandos: cd mmdetection
  Línea de comandos: pip install -v -e .

2. Preparación de datos

Recogida de datos
1. Se recogieron las imágenes de ultrasonido (aquí, 3.000 casos de un hospital terciario de grado A). Asegúrese de que cada caso tenga registros de diagnóstico, planes de tratamiento, informes de EE. UU. y las imágenes correspondientes de EE. UU.
2. Coloque todas las imágenes de EE. UU. en una carpeta llamada "imágenes".
  NOTA: Los datos utilizados en este estudio incluyeron 3.853 imágenes estadounidenses de 3.000 casos.
Limpieza de datos
1. Compruebe manualmente el conjunto de datos en busca de imágenes de áreas no tiroideas, como imágenes linfáticas.
2. Compruebe manualmente el conjunto de datos en busca de imágenes que contengan flujo Doppler en color.
3. Elimine las imágenes seleccionadas en los dos pasos anteriores.
  NOTA: Después de la limpieza de datos, se dejaron 3.000 imágenes de 2.680 casos.
Anotación de datos
1. Pídale a un médico superior que localice el área del nódulo en la imagen de EE. UU. y delinee el límite del nódulo.
  NOTA: El software y el proceso de anotación se pueden encontrar en el archivo complementario 1.
2. Haga que otro médico superior revise y revise los resultados de las anotaciones.
3. Coloque los datos anotados en una carpeta separada llamada "Anotaciones".
División de datos
1. Ejecute el script de Python y establezca la ruta de la imagen en el paso 2.1.2 y las rutas de las anotaciones en el paso 2.3.3. Divida aleatoriamente todas las imágenes y los archivos etiquetados correspondientes en conjuntos de entrenamiento y validación en una proporción de 8: 2. Guarde los datos del conjunto de entrenamiento en la carpeta "Tren" y los datos del conjunto de validación en la carpeta "Val".
  NOTA: Las secuencias de comandos de Python se proporcionan en el archivo complementario 2.
Conversión al formato de conjunto de datos CoCo
NOTA: Para utilizar MMDetection, procese los datos en un formato de conjunto de datos CoCo, que incluye un archivo json que contiene la información de anotación y una carpeta de imágenes que contiene las imágenes de EE. UU.
1. Ejecute el script de Python e ingrese las rutas de la carpeta de anotaciones (paso 2.3.3) para extraer las áreas de nódulos delineadas por el médico y convertirlas en máscaras. Guarde todas las máscaras en la carpeta "Máscaras".
  NOTA: Las secuencias de comandos de Python se proporcionan en el archivo complementario 3.
2. Ejecute el script de Python y establezca la ruta de la carpeta de máscaras en el paso 2.5.1 para convertir los datos en un conjunto de datos en formato CoCo y generar un archivo json con las imágenes de EE. UU.
  NOTA: Las secuencias de comandos de Python se proporcionan en el archivo complementario 4.

3. Configuración de RCNN Swin Faster

Descargue el archivo de modelo de Swin Transformer (https://github.com/microsoft/Swin-Transformer/blob/main/models/swin_transformer.py), modifíquelo y colóquelo en la carpeta "mmdetection/mmdet/models/backbones/". Abra el archivo "swin_transformer.py" en un editor de texto vim y modifíquelo como el archivo de modelo Swin Transformer proporcionado en el archivo complementario 5.
Línea de comandos: vim swin_transformer.py
Haga una copia del archivo de configuración de Faster R-CNN, cambie la red troncal a Swin Transformer y configure los parámetros FPN.
Línea de comandos: cd mmdetection/configs/faster_rcnn
Línea de comandos: cp faster_rcnn_r50_fpn_1x_coco.py swin_faster_rcnn_swin.py
NOTA: El archivo de configuración de R-CNN de Swin Faster (swin_faster_rcnn_swin.py) se proporciona en el archivo complementario 6. La estructura de red R-CNN de Swin Faster se muestra en la Figura 1.
Establezca la ruta del conjunto de datos en la ruta del conjunto de datos con formato CoCo (paso 2.5.2) en el archivo de configuración. Abra el archivo "coco_detection.py" en el editor de texto vim y modifique la siguiente línea:
data_root = "ruta del conjunto de datos(paso 2.5.2)"
Línea de comandos:vim mmdetection/configs/_base_/datasets/coco_detection.py

4. Entrenando al Swin más rápido R-CNN

Edite mmdetection/configs/_base_/schedules/schedule_1x.py y establezca los parámetros predeterminados relacionados con la formación, incluida la tasa de aprendizaje, el optimizador y la época. Abra el archivo "schedule_1x.py" en el editor de texto vim y modifique las siguientes líneas:
optimizer = dict(type="AdamW", lr=0.001, momentum=0.9, weight_decay=0.0001)
runner = dict(type='EpochBasedRunner', max_epochs=48)
Línea de comandos:vim mmdetection/configs/_base_/schedules/schedule_1x.py
NOTA: En este protocolo para este documento, la tasa de aprendizaje se estableció en 0.001, se utilizó el optimizador AdamW, la época máxima de entrenamiento se estableció en 48 y el tamaño del lote se estableció en 16.
Comience el entrenamiento escribiendo los siguientes comandos. Espere a que la red comience a entrenar durante 48 épocas y a que los pesos entrenados resultantes de la red Swin Faster R-CNN se generen en la carpeta de salida. Guarde los pesos del modelo con la mayor precisión en el conjunto de validación.
Línea de comandos: cd mmdetection
Línea de comandos: python tools/train.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --work-dir ./work_dirs
NOTA: El modelo fue entrenado en una GPU "NVIDIA GeForce RTX3090 24G". La unidad central de procesamiento utilizada fue el "AMD Epyc 7742 64-core processor × 128", y el sistema operativo fue Ubuntu 18.06. El tiempo total de entrenamiento fue de ~ 2 h.

5. Realizar la detección de nódulos tiroideos en nuevas imágenes

Después del entrenamiento, seleccione el modelo con el mejor rendimiento en el conjunto de validación para la detección de nódulos tiroideos en las nuevas imágenes.
1. Primero, cambie el tamaño de la imagen a 512 píxeles x 512 píxeles y normalícela. Estas operaciones se realizan automáticamente cuando se ejecuta el script de prueba.
  Línea de comandos: python tools/test.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --out ./output
2. Espere a que el script cargue automáticamente los parámetros del modelo previamente entrenado en Swin Faster R-CNN y alimente la imagen preprocesada en Swin Faster R-CNN para su inferencia. Espere a que Swin Faster R-CNN genere el cuadro de predicción para cada imagen.
3. Finalmente, permita que el script realice automáticamente el posprocesamiento NMS en cada imagen para eliminar los cuadros de detección duplicados.
  Nota : los resultados de la detección se envían a la carpeta especificada, que contiene las imágenes con los cuadros de detección y las coordenadas del cuadro delimitador en un archivo empaquetado.

Resultados

Las imágenes de tiroides de Estados Unidos se recopilaron de dos hospitales en China desde septiembre de 2008 hasta febrero de 2018. Los criterios de elegibilidad para incluir las imágenes de EE.UU. en este estudio fueron el examen convencional de EE.UU. antes de la biopsia y el tratamiento quirúrgico, el diagnóstico con biopsia o patología posquirúrgica, y la edad ≥ 18 años. Los criterios de exclusión fueron imágenes sin tejido tiroideo.

Las 3.000 imágenes de ultrasonido incluyero...

Discusión

Este documento describe en detalle cómo realizar la configuración del entorno, la preparación de datos, la configuración del modelo y el entrenamiento de la red. En la fase de configuración del entorno, hay que prestar atención para asegurarse de que las bibliotecas dependientes sean compatibles y coinciden. El procesamiento de datos es un paso muy importante; Se debe dedicar tiempo y esfuerzo para garantizar la exactitud de las anotaciones. Al entrenar el modelo, se puede encontrar un "ModuleNotFoundError". En est...

Divulgaciones

Los autores declaran no tener conflictos de intereses.

Agradecimientos

Este estudio fue apoyado por la Fundación Nacional de Ciencias Naturales de China (Subvención No.32101188) y el Proyecto General del Departamento de Ciencia y Tecnología de la Provincia de Sichuan (Subvención No. 2021YFS0102), China.

Materiales

Name	Company	Catalog Number	Comments
GPU RTX3090	Nvidia	1	24G GPU
mmdetection2.11.0	SenseTime	4	https://github.com/open-mmlab/mmdetection.git
python3.8	—	2	https://www.python.org
pytorch1.7.1	Facebook	3	https://pytorch.org

Referencias

Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5 (2013).
Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
Park, J. -. Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
Moon, W. -. J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
Chang, T. -. C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
Li, X. Fully convolutional networks for ultrasound image segmentation of thyroid nodules. , 886-890 (2018).
Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484 (2022).
Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
Wang, J., et al. Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. , 3114-3118 (2018).
Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718 (2022).
Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
Szegedy, C., et al. Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015).
Dosovitskiy, A., et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600 (2018).
Lin, T. -. Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199 (2022).
Castleman, K. R. . Digital Image Processing. , (1996).
Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
Redmon, J., Farhadi, A. Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018).
Lin, T. -. Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , 23-28 (2020).

Reimpresiones y Permisos

Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos

Solicitar permiso

Explorar más artículos

Medicina N mero 194

This article has been published

Video Coming Soon

Keep me updated: