Se requiere una suscripción a JoVE para ver este contenido. Inicie sesión o comience su prueba gratuita.
Method Article
El presente protocolo describe un método eficiente de segmentación multi-órgano llamado Swin-PSAxialNet, que ha logrado una excelente precisión en comparación con los métodos de segmentación anteriores. Los pasos clave de este procedimiento incluyen la recopilación de conjuntos de datos, la configuración del entorno, el preprocesamiento de datos, el entrenamiento y la comparación de modelos y los experimentos de ablación.
La segmentación multiorgánica abdominal es uno de los temas más importantes en el campo del análisis de imágenes médicas y desempeña un papel importante en el apoyo a los flujos de trabajo clínicos, como el diagnóstico de enfermedades y la planificación de tratamientos. En este estudio se propone un método eficiente de segmentación multi-órgano denominado Swin-PSAxialNet basado en la arquitectura nnU-Net. Fue diseñado específicamente para la segmentación precisa de 11 órganos abdominales en imágenes de TC. La red propuesta ha realizado las siguientes mejoras en comparación con nnU-Net. En primer lugar, se introdujeron los módulos de espacio-profundidad (SPD) y los bloques de extracción de características de atención axial compartida por parámetros (PSAA), lo que mejoró la capacidad de extracción de características de imágenes 3D. En segundo lugar, se empleó un enfoque de fusión de imágenes a múltiples escalas para capturar información detallada y características espaciales, mejorando la capacidad de extraer características sutiles y características de borde. Por último, se introdujo un método de compartición de parámetros para reducir el coste computacional del modelo y la velocidad de entrenamiento. La red propuesta alcanza un coeficiente de Dice promedio de 0.93342 para la tarea de segmentación que involucra a 11 órganos. Los resultados experimentales indican la notable superioridad de Swin-PSAxialNet sobre los métodos de segmentación convencionales anteriores. El método muestra una excelente precisión y bajos costos computacionales en la segmentación de los principales órganos abdominales.
La intervención clínica contemporánea, que incluye el diagnóstico de enfermedades, la formulación de planes de tratamiento y el seguimiento de los resultados del tratamiento, se basa en la segmentación precisa de las imágenes médicas1. Sin embargo, las complejas relaciones estructurales entre los órganos abdominales2hacen que sea una tarea desafiante lograr una segmentación precisa de múltiples órganos abdominales3. En las últimas décadas, los florecientes desarrollos en imágenes médicas y visión por computadora han presentado nuevas oportunidades y desafíos en el campo de la segmentación multiorgánica abdominal. La tecnología avanzada de Resonancia Magnética (RM)4 y Tomografía Computarizada (TC)5 nos permite obtener imágenes abdominales de alta resolución. La segmentación precisa de múltiples órganos a partir de imágenes de TC tiene un valor clínico significativo para la evaluación y el tratamiento de órganos vitales como el hígado, los riñones, el bazo, el páncreas, etc.6,7,8,9,10 Sin embargo, la anotación manual de estas estructuras anatómicas, especialmente aquellas que requieren la intervención de radiólogos u oncólogos radioterápicos, requiere mucho tiempo y es susceptible a influencias subjetivas11. Por lo tanto, existe una necesidad urgente de desarrollar métodos automatizados y precisos para la segmentación multiorgánica abdominal.
Las investigaciones anteriores sobre la segmentación de imágenes se basaron principalmente en las redes neuronales convolucionales (CNN), que mejoran la eficiencia de la segmentación mediante el apilamiento de capas y la introducción de ResNet12. En 2020, el equipo de investigación de Google presentó el modelo Vision Transformer (VIT)13, marcando un ejemplo pionero de incorporación de la arquitectura Transformer en el dominio visual tradicional para una variedad de tareas visuales14. Mientras que las operaciones convolucionales solo pueden contemplar la información de las características locales, el mecanismo de atención de Transformers permite la consideración integral de la información de las características globales.
Teniendo en cuenta la superioridad de las arquitecturas basadas en transformadores sobre las redes convolucionales tradicionales15, numerosos equipos de investigación han emprendido una amplia exploración para optimizar la sinergia entre las fortalezas de los transformadores y las redes convolucionales 16,17,18,19. Chen et al. introdujeron el TransUNet para tareas de segmentación de imágenes médicas16, que aprovecha Transformers para extraer características globales de las imágenes. Debido al alto costo de la capacitación de la red y a la falta de utilización del concepto de jerarquía de extracción de características, las ventajas de Transformer no se han aprovechado por completo.
Para abordar estos problemas, muchos investigadores han comenzado a experimentar con la incorporación de Transformers como columna vertebral para entrenar redes de segmentación. Liu et al.17 introdujeron el transformador Swin, que empleaba un método de construcción jerárquica para la extracción de características en capas. Se propuso el concepto de autoatención multicabezal de Windows (W-MSA), lo que reduce significativamente el costo computacional, particularmente en presencia de mapas de características de nivel superficial más grandes. Si bien este enfoque redujo los requisitos computacionales, también aisló la transmisión de información entre diferentes ventanas. Para abordar este problema, los autores introdujeron el concepto de autoatención multicabezal de ventanas desplazadas (SW-MSA), que permite la propagación de información entre ventanas adyacentes. Sobre la base de esta metodología, Cao et al. formularon el Swin-UNet18, reemplazando las convoluciones 2D en U-Net con módulos Swin e incorporando W-MSA y SW-MSA en los procesos de codificación y decodificación, logrando resultados de segmentación encomiables.
Por el contrario, Zhou et al. destacaron que la ventaja de la operación conv no podía ignorarse cuando se procesaban imágenes de alta resolución19. Su propuesta nnFormer emplea un método de cálculo de autoatención basado en bloques de imágenes tridimensionales locales, constituyendo un modelo Transformer caracterizado por una estructura en forma de cruz. La utilización de la atención basada en bloques tridimensionales locales redujo significativamente la carga de entrenamiento en la red.
Dados los problemas con el estudio anterior, se propone una estructura jerárquica híbrida eficiente para la segmentación de imágenes médicas en 3D, denominada Swin-PSAxialNet. Este método incorpora un bloque de downmuestreo, el bloque Space-to-depth (SPD)20 , capaz de extraer información global21. Además, agrega un módulo de atención axial compartida de parámetros (PSAA), que reduce el recuento de parámetros de aprendizaje de cuadrático a lineal y tendrá un buen efecto en la precisión del entrenamiento de la red y la complejidad de los modelos de entrenamiento22.
Red Swin-PSAxialNet
La arquitectura general de la red adopta la estructura en forma de U de nnU-Net23, que consta de estructuras de codificador y decodificador. Estas estructuras participan en la extracción de características locales y la concatenación de características a partir de imágenes a gran y pequeña escala, como se ilustra en la Figura 1.
Figura 1: Diagrama esquemático de la arquitectura de red de Swin-PSAxialNet. Haga clic aquí para ver una versión más grande de esta figura.
En la estructura del codificador, el bloque Conv tradicional se combina con el bloque SPD20 para formar un volumen de muestreo descendente. La primera capa del codificador incorpora Patch Embedding, un módulo que divide los datos 3D en parches 3D, (P1, P2, P3) representa parches no superpuestos en este contexto,
significa la longitud de la secuencia de parches 3D. Después de la capa de incrustación, el siguiente paso implica una unidad de submuestreo convolucional no superpuesta que comprende un bloque convolucional y un bloque SPD. En esta configuración, el bloque convolucional tiene un paso establecido en 1, y el bloque SPD se emplea para el escalado de la imagen, lo que lleva a una reducción de cuatro veces en la resolución y un aumento del doble en los canales.
En la estructura del descodificador, cada bloque de sobremuestreo después de la capa de entidad de cuello de botella consta de una combinación de un bloque de sobremuestreo y un bloque PSAA. La resolución del mapa de características se duplica y el número de canales se reduce a la mitad entre cada par de etapas del decodificador. Para restaurar la información espacial y mejorar la representación de características, se realiza la fusión de características entre imágenes a gran y pequeña escala entre los bloques de sobremuestreo. En última instancia, los resultados del sobremuestreo se introducen en la capa Head para restaurar el tamaño de la imagen original, con un tamaño de salida de (H × W × D × C, C = 3).
Arquitectura de bloques SPD
En los métodos tradicionales, la sección de reducción de muestreo emplea un solo paso con un tamaño de paso de 2. Esto implica la agrupación convolucional en posiciones locales de la imagen, lo que limita el campo receptivo y limita el modelo a la extracción de características de pequeños parches de imagen. Este método utiliza el bloque SPD, que divide finamente la imagen original en tres dimensiones. La imagen 3D original está segmentada uniformemente a lo largo de los ejes x, y y z, lo que da como resultado cuatro cuerpos de subvolumen. (Figura 2) Posteriormente, los cuatro volúmenes se concatenan mediante la operación "gato", y la imagen resultante se somete a una convolución 1 × 1 × 1 para obtener la imagen submuestreada20.
Figura 2: Diagrama de bloques SPD. Haga clic aquí para ver una versión más grande de esta figura.
Arquitectura de bloques PSAA
A diferencia de las redes tradicionales de CNN, el bloque PSAA propuesto es más eficaz para llevar a cabo un enfoque de información global y más eficiente en el aprendizaje y la capacitación de la red. Esto permite la captura de imágenes y características espaciales más ricas. El bloque PSAA incluye el aprendizaje de la atención axial basado en el intercambio de parámetros en tres dimensiones: Altura, Anchura y Profundidad. En comparación con el mecanismo de atención convencional que realiza el aprendizaje de la atención para cada píxel de la imagen, este método lleva a cabo de forma independiente el aprendizaje de la atención para cada una de las tres dimensiones, reduciendo la complejidad de la autoatención de cuadrática a lineal. Además, se emplea un mecanismo de intercambio de parámetros de consultas de claves aprendible, lo que permite a la red realizar operaciones de mecanismo de atención en paralelo en las tres dimensiones, lo que da como resultado una representación de características más rápida, superior y efectiva.
El presente protocolo fue aprobado por el Comité de Ética de la Universidad de Nantong. Implica la evaluación e investigación inteligente de datos multimodales adquiridos no invasivos o mínimamente invasivos, incluidas imágenes médicas humanas, movimientos de extremidades e imágenes vasculares, utilizando tecnología de inteligencia artificial. La Figura 3 muestra el diagrama de flujo general de la segmentación multiorgánica. Todos los enlaces web necesarios se proporcionan en la Tabla de Materiales.
Figura 3: Diagrama de flujo general de la segmentación multiorgánica. Haga clic aquí para ver una versión más grande de esta figura.
1. Recopilación de conjuntos de datos
2. Configuración del entorno
3. Pretratamiento de datos
4. Entrenamiento y comparación de modelos
NOTA: Como línea de base ampliamente utilizada en el campo de la segmentación de imágenes, nnU-Net23 sirve como modelo de referencia en el estudio. El proceso específico de comparación de modelos es el siguiente.
5. Experimento de ablación
Este protocolo emplea dos métricas para evaluar el modelo: Puntuación de similitud de dados (DSC) y Distancia de Hausdorff del 95% (HD95). DSC mide la superposición entre las predicciones de segmentación de vóxeles y la realidad del terreno, mientras que el HD del 95 % evalúa la superposición entre los límites de la predicción de la segmentación de vóxeles y la realidad del terreno, filtrando el 5 % de los valores atípicos. La definición de DSC26 es l...
La segmentación de los órganos abdominales es un trabajo complicado. En comparación con otras estructuras internas del cuerpo humano, como el cerebro o el corazón, la segmentación de los órganos abdominales parece más difícil debido al bajo contraste y a los grandes cambios de forma en las imágenes de TC27,28. Swin-PSAxialNet se propone aquí para resolver este difícil problema.
En la etapa d...
Los autores declaran no tener conflictos de intereses.
Este estudio contó con el apoyo del Proyecto de Ingeniería '333' de la provincia de Jiangsu ([2022]21-003), el Programa General de la Comisión de Salud de Wuxi (M202205) y el Fondo de Desarrollo de Ciencia y Tecnología de Wuxi (Y20212002-1), cuyas contribuciones han sido invaluables para el éxito de este trabajo". Los autores agradecen a todos los asistentes de investigación y participantes en el estudio por su apoyo.
Name | Company | Catalog Number | Comments |
AMOS2022 dataset | None | None | Datasets for network training and testing. The weblink is: https://pan.baidu.com/s/1x2ZW5FiZtVap0er55Wk4VQ?pwd=xhpb |
ASUS mainframe | ASUS | https://www.asusparts.eu/en/asus-13020-01910200 | |
CUDA version 11.7 | NVIDIA | https://developer.nvidia.com/cuda-11-7-0-download-archive | |
NVIDIA GeForce RTX 3090 | NVIDIA | https://www.nvidia.com/en-in/geforce/graphics-cards/30-series/rtx-3090-3090ti/ | |
Paddlepaddle environment | Baidu | None | Environmental preparation for network training. The weblink is: https://www.paddlepaddle.org.cn/ |
PaddleSeg | Baidu | None | The baseline we use: https://github.com/PaddlePaddle/PaddleSeg |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados