Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.
Aquí, se propone un nuevo modelo para la detección de nódulos tiroideos en imágenes de ultrasonido, que utiliza Swin Transformer como columna vertebral para realizar modelos de contexto de largo alcance. Los experimentos demuestran que funciona bien en términos de sensibilidad y precisión.
En los últimos años, la incidencia de cáncer de tiroides ha ido en aumento. La detección de nódulos tiroideos es fundamental tanto para la detección como para el tratamiento del cáncer de tiroides. Las redes neuronales convolucionales (CNN) han logrado buenos resultados en las tareas de análisis de imágenes de ultrasonido tiroideo. Sin embargo, debido al limitado campo receptivo válido de las capas convolucionales, las CNN no logran capturar dependencias contextuales de largo alcance, que son importantes para identificar nódulos tiroideos en imágenes de ultrasonido. Las redes de transformadores son eficaces para capturar información contextual de largo alcance. Inspirados en esto, proponemos un nuevo método de detección de nódulos tiroideos que combina la columna vertebral Swin Transformer y Faster R-CNN. Específicamente, una imagen de ultrasonido se proyecta primero en una secuencia 1D de incrustaciones, que luego se introducen en un transformador Swin jerárquico.
La columna vertebral de Swin Transformer extrae características en cinco escalas diferentes mediante la utilización de ventanas desplazadas para el cálculo de la autoatención. Posteriormente, se utiliza una red piramidal de entidades (FPN) para fusionar las entidades de diferentes escalas. Finalmente, se utiliza un cabezal de detección para predecir los cuadros delimitadores y las puntuaciones de confianza correspondientes. Los datos recopilados de 2.680 pacientes se utilizaron para realizar los experimentos, y los resultados mostraron que este método logró la mejor puntuación de mAP del 44,8%, superando las líneas de base basadas en CNN. Además, ganamos mejor sensibilidad (90,5%) que los competidores. Esto indica que el modelado de contexto en este modelo es eficaz para la detección de nódulos tiroideos.
La incidencia de cáncer de tiroides ha aumentado rápidamente desde 1970, especialmente entre las mujeres de mediana edad1. Los nódulos tiroideos pueden predecir la aparición de cáncer de tiroides, y la mayoría de los nódulos tiroideos son asintomáticos2. La detección temprana de nódulos tiroideos es muy útil para curar el cáncer de tiroides. Por lo tanto, de acuerdo con las guías de práctica actuales, todos los pacientes con sospecha de bocio nodular en el examen físico o con hallazgos anormales de imagen deben someterse a un examen adicional 3,4.
La ecografía tiroidea (US) es un método común utilizado para detectar y caracterizar las lesiones tiroideas 5,6. US es una tecnología conveniente, económica y libre de radiación. Sin embargo, la aplicación de US se ve fácilmente afectada por el operador 7,8. Características como la forma, el tamaño, la ecogenicidad y la textura de los nódulos tiroideos son fácilmente distinguibles en las imágenes estadounidenses. Aunque ciertas características de EE.UU. -calcificaciones, ecogenicidad y bordes irregulares- a menudo se consideran criterios para identificar nódulos tiroideos, la presencia de variabilidad interobservador es inevitable 8,9. Los resultados del diagnóstico de los radiólogos con diferentes niveles de experiencia son diferentes. Los radiólogos sin experiencia son más propensos a diagnosticar erróneamente que los radiólogos experimentados. Algunas características de US, como reflejos, sombras y ecos, pueden degradar la calidad de la imagen. Esta degradación en la calidad de la imagen causada por la naturaleza de las imágenes de EE.UU. hace que sea difícil incluso para los médicos experimentados localizar los nódulos con precisión.
El diagnóstico asistido por computadora (EAC) para los nódulos tiroideos se ha desarrollado rápidamente en los últimos años y puede reducir eficazmente los errores causados por diferentes médicos y ayudar a los radiólogos a diagnosticar los nódulos de forma rápida y precisa10,11. Se han propuesto varios sistemas CAD basados en CNN para el análisis de nódulos tiroideos de EE.UU., incluida la segmentación 12,13, la detección 14,15 y la clasificación 16,17. CNN es un modelo de aprendizaje supervisadomulticapa 18, y los módulos centrales de CNN son las capas de convolución y agrupación. Las capas de convolución se utilizan para la extracción de entidades y las capas de agrupación se utilizan para el muestreo descendente. Las capas convolucionales de sombra pueden extraer características primarias como la textura, los bordes y los contornos, mientras que las capas convolucionales profundas aprenden características semánticas de alto nivel.
Las CNN han tenido un gran éxito en la visión por computadora 19,20,21. Sin embargo, las CNN no logran capturar dependencias contextuales de largo alcance debido al limitado campo receptivo válido de las capas convolucionales. En el pasado, las arquitecturas troncales para la clasificación de imágenes utilizaban principalmente CNN. Con la llegada del transformador de visión (ViT)22,23, esta tendencia ha cambiado, y ahora muchos modelos de última generación utilizan transformadores como columna vertebral. Basado en parches de imagen no superpuestos, ViT utiliza un codificador transformador estándar25 para modelar globalmente las relaciones espaciales. El Swin Transformer24 introduce además ventanas de cambio para aprender características. Las ventanas de desplazamiento no solo aportan una mayor eficiencia, sino que también reducen en gran medida la longitud de la secuencia porque la autoatención se calcula en la ventana. Al mismo tiempo, la interacción entre dos ventanas adyacentes se puede hacer a través de la operación de desplazamiento (movimiento). La aplicación exitosa del transformador Swin en visión artificial ha llevado a la investigación de arquitecturas basadas en transformadores para el análisis de imágenes de ultrasonido26.
Recientemente, Li et al. propusieron un enfoque de aprendizaje profundo28 para la detección del cáncer papilar de tiroides inspirado en Faster R-CNN27. Faster R-CNN es una arquitectura clásica de detección de objetos basada en CNN. El R Faster original tiene cuatro módulos: la red troncal CNN, la red de propuestas de región (RPN), la capa de agrupación de ROI y el cabezal de detección. La red troncal de CNN utiliza un conjunto de capas básicas conv+bn+relu+pooling para extraer mapas de entidades de la imagen de entrada. A continuación, los mapas de entidades se introducen en la RPN y la capa de agrupación de ROI. El papel de la red RPN es generar propuestas regionales. Este módulo utiliza softmax para determinar si los anclajes son positivos y genera anclajes precisos mediante la regresión de cuadro delimitador. La capa de agrupación de ROI extrae los mapas de entidades de la propuesta recopilando los mapas de entidades de entrada y las propuestas y alimenta los mapas de entidades de la propuesta en el cabezal de detección posterior. El cabezal de detección utiliza los mapas de entidades de propuesta para clasificar objetos y obtener posiciones precisas de los cuadros de detección mediante regresión de cuadro delimitador.
Este artículo presenta una nueva red de detección de nódulos tiroideos llamada Swin Faster R-CNN formada al reemplazar la columna vertebral de CNN en Faster R-CNN con el transformador Swin, lo que resulta en una mejor extracción de características para la detección de nódulos a partir de imágenes de ultrasonido. Además, la red piramidal de características (FPN)29 se utiliza para mejorar el rendimiento de detección del modelo para nódulos de diferentes tamaños mediante la agregación de características de diferentes escalas.
Este estudio retrospectivo fue aprobado por la junta de revisión institucional del Hospital de China Occidental, Universidad de Sichuan, Sichuan, China, y se renunció al requisito de obtener el consentimiento informado.
1. Configuración del entorno
2. Preparación de datos
3. Configuración de RCNN Swin Faster
4. Entrenando al Swin más rápido R-CNN
5. Realizar la detección de nódulos tiroideos en nuevas imágenes
Las imágenes de tiroides de Estados Unidos se recopilaron de dos hospitales en China desde septiembre de 2008 hasta febrero de 2018. Los criterios de elegibilidad para incluir las imágenes de EE.UU. en este estudio fueron el examen convencional de EE.UU. antes de la biopsia y el tratamiento quirúrgico, el diagnóstico con biopsia o patología posquirúrgica, y la edad ≥ 18 años. Los criterios de exclusión fueron imágenes sin tejido tiroideo.
Las 3.000 imágenes de ultrasonido incluyero...
Este documento describe en detalle cómo realizar la configuración del entorno, la preparación de datos, la configuración del modelo y el entrenamiento de la red. En la fase de configuración del entorno, hay que prestar atención para asegurarse de que las bibliotecas dependientes sean compatibles y coinciden. El procesamiento de datos es un paso muy importante; Se debe dedicar tiempo y esfuerzo para garantizar la exactitud de las anotaciones. Al entrenar el modelo, se puede encontrar un "ModuleNotFoundError". En est...
Los autores declaran no tener conflictos de intereses.
Este estudio fue apoyado por la Fundación Nacional de Ciencias Naturales de China (Subvención No.32101188) y el Proyecto General del Departamento de Ciencia y Tecnología de la Provincia de Sichuan (Subvención No. 2021YFS0102), China.
Name | Company | Catalog Number | Comments |
GPU RTX3090 | Nvidia | 1 | 24G GPU |
mmdetection2.11.0 | SenseTime | 4 | https://github.com/open-mmlab/mmdetection.git |
python3.8 | — | 2 | https://www.python.org |
pytorch1.7.1 | 3 | https://pytorch.org |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoExplorar más artículos
This article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados