È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.
Method Article
Il presente protocollo descrive un efficiente metodo di segmentazione multiorgano chiamato Swin-PSAxialNet, che ha raggiunto un'eccellente accuratezza rispetto ai precedenti metodi di segmentazione. I passaggi chiave di questa procedura includono la raccolta di set di dati, la configurazione dell'ambiente, la pre-elaborazione dei dati, l'addestramento e il confronto dei modelli e gli esperimenti di ablazione.
La segmentazione multiorgano addominale è uno degli argomenti più importanti nel campo dell'analisi delle immagini mediche e svolge un ruolo importante nel supportare i flussi di lavoro clinici come la diagnosi della malattia e la pianificazione del trattamento. In questo studio, viene proposto un efficiente metodo di segmentazione multiorgano chiamato Swin-PSAxialNet basato sull'architettura nnU-Net. È stato progettato specificamente per la segmentazione precisa di 11 organi addominali nelle immagini TC. La rete proposta ha apportato i seguenti miglioramenti rispetto a nnU-Net. In primo luogo, sono stati introdotti i moduli SPD (Space-to-depth) e i blocchi di estrazione delle caratteristiche dell'attenzione assiale condivisa con parametri (PSAA), migliorando la capacità di estrazione delle caratteristiche delle immagini 3D. In secondo luogo, è stato impiegato un approccio di fusione di immagini multiscala per acquisire informazioni dettagliate e caratteristiche spaziali, migliorando la capacità di estrarre caratteristiche sottili e caratteristiche di bordo. Infine, è stato introdotto un metodo di condivisione dei parametri per ridurre il costo computazionale del modello e la velocità di addestramento. La rete proposta raggiunge un coefficiente medio di Dice di 0,93342 per il compito di segmentazione che coinvolge 11 organi. I risultati sperimentali indicano la notevole superiorità di Swin-PSAxialNet rispetto ai precedenti metodi di segmentazione tradizionali. Il metodo mostra un'eccellente accuratezza e bassi costi computazionali nella segmentazione dei principali organi addominali.
L'intervento clinico contemporaneo, compresa la diagnosi delle malattie, la formulazione dei piani di trattamento e il monitoraggio dei risultati del trattamento, si basa sull'accurata segmentazione delle immagini mediche1. Tuttavia, le complesse relazioni strutturali tra gli organi addominali2rendono un compito impegnativo ottenere una segmentazione accurata di più organi addominali3. Negli ultimi decenni, i fiorenti sviluppi nell'imaging medico e nella visione artificiale hanno presentato nuove opportunità e sfide nel campo della segmentazione multiorgano addominale. La risonanza magnetica avanzata (MRI)4 e la tomografia computerizzata (TC)5 ci consentono di acquisire immagini addominali ad alta risoluzione. La segmentazione precisa di più organi dalle immagini TC ha un valore clinico significativo per la valutazione e il trattamento di organi vitali come fegato, reni, milza, pancreas, ecc.6,7,8,9,10 Tuttavia, l'annotazione manuale di queste strutture anatomiche, in particolare quelle che richiedono l'intervento di radiologi o radioterapisti, richiede tempo ed è suscettibile di influenze soggettive11. Pertanto, vi è un urgente bisogno di sviluppare metodi automatizzati e accurati per la segmentazione multiorgano addominale.
Le ricerche precedenti sulla segmentazione delle immagini si sono basate prevalentemente sulle reti neurali convoluzionali (CNN), che migliorano l'efficienza della segmentazione impilando i livelli e introducendo ResNet12. Nel 2020, il team di ricerca di Google ha introdotto il modello Vision Transformer (VIT)13, segnando un esempio pionieristico di incorporazione dell'architettura Transformer nel dominio visivo tradizionale per una serie di attività visive14. Mentre le operazioni convoluzionali possono contemplare solo le informazioni sulle caratteristiche locali, il meccanismo di attenzione in Transformers consente la considerazione completa delle informazioni sulle funzionalità globali.
Considerando la superiorità delle architetture basate su Transformer rispetto alle tradizionali reti convoluzionali15, numerosi team di ricerca hanno intrapreso un'ampia esplorazione per ottimizzare la sinergia tra i punti di forza dei Transformers e le reti convoluzionali 16,17,18,19. Chen et al. hanno introdotto il TransUNet per le attività di segmentazione delle immagini mediche16, che sfrutta i trasformatori per estrarre caratteristiche globali dalle immagini. A causa dell'elevato costo della formazione della rete e dell'incapacità di utilizzare il concetto di gerarchia di estrazione delle caratteristiche, i vantaggi di Transformer non sono stati pienamente realizzati.
Per affrontare questi problemi, molti ricercatori hanno iniziato a sperimentare l'incorporazione dei trasformatori come spina dorsale per l'addestramento delle reti di segmentazione. Liu et al.17 hanno introdotto il trasformatore Swin, che impiegava un metodo di costruzione gerarchico per l'estrazione di caratteristiche stratificate. È stato proposto il concetto di Windows Multi-Head Self-Attention (W-MSA), che riduce significativamente i costi computazionali, in particolare in presenza di mappe di funzionalità di livello superficiale più grandi. Se da un lato questo approccio ha ridotto i requisiti computazionali, dall'altro ha isolato la trasmissione delle informazioni tra diverse finestre. Per risolvere questo problema, gli autori hanno ulteriormente introdotto il concetto di Shifted Windows Multi-Head Self-Attention (SW-MSA), che consente la propagazione delle informazioni tra finestre adiacenti. Basandosi su questa metodologia, Cao et al. hanno formulato lo Swin-UNet18, sostituendo le circonvoluzioni 2D in U-Net con i moduli Swin e incorporando W-MSA e SW-MSA nei processi di codifica e decodifica, ottenendo risultati di segmentazione lodevoli.
Al contrario, Zhou et al. hanno evidenziato che il vantaggio del funzionamento conv non può essere ignorato durante l'elaborazione di immagini ad alta risoluzione19. Il loro proposto nnFormer impiega un metodo di calcolo dell'auto-attenzione basato su blocchi di immagini tridimensionali locali, costituendo un modello Transformer caratterizzato da una struttura a forma di croce. L'utilizzo dell'attenzione basata su blocchi tridimensionali locali ha ridotto significativamente il carico di formazione sulla rete.
Dati i problemi con lo studio di cui sopra, viene proposta un'efficiente struttura gerarchica ibrida per la segmentazione di immagini mediche 3D, denominata Swin-PSAxialNet. Questo metodo incorpora un blocco di downsampling, il blocco Space-to-depth (SPD)20 , in grado di estrarre informazioni globali21. Inoltre, aggiunge un modulo PSAA (Parameter Shared Axial Attention), che riduce il numero di parametri di apprendimento da quadratico a lineare e avrà un buon effetto sull'accuratezza dell'addestramento della rete e sulla complessità dei modelli di addestramento22.
Rete Swin-PSAxialNet
L'architettura complessiva della rete adotta la struttura a forma di U di nnU-Net23, costituita da strutture di encoder e decoder. Queste strutture si occupano dell'estrazione di feature locali e della concatenazione di feature da immagini di grandi e piccole dimensioni, come illustrato nella Figura 1.
Figura 1: Diagramma schematico dell'architettura di rete di Swin-PSAxialNet. Fare clic qui per visualizzare una versione più grande di questa figura.
Nella struttura dell'encoder, il tradizionale blocco Conv è combinato con il blocco SPD20 per formare un volume di downsampling. Il primo livello dell'encoder incorpora Patch Embedding, un modulo che partiziona i dati 3D in patch 3D, (P1, P2, P3) rappresenta patch non sovrapposte in questo contesto,
indica la lunghezza della sequenza di patch 3D. Dopo lo strato di inclusione, la fase successiva prevede un'unità di downsampling convoluzionale non sovrapposta che comprende sia un blocco convoluzionale che un blocco SPD. In questa configurazione, il blocco convoluzionale ha uno stride impostato su 1 e il blocco SPD viene impiegato per il ridimensionamento dell'immagine, portando a una riduzione di quattro volte della risoluzione e a un aumento di due volte dei canali.
Nella struttura del decoder, ogni blocco di upsampling dopo il livello Bottleneck Feature è costituito da una combinazione di un blocco di upsampling e di un blocco PSAA. La risoluzione della mappa delle caratteristiche è raddoppiata e il numero di canali è dimezzato tra ogni coppia di stadi del decoder. Per ripristinare le informazioni spaziali e migliorare la rappresentazione delle caratteristiche, viene eseguita la fusione delle caratteristiche tra immagini su larga e piccola scala tra i blocchi di upsampling. Infine, i risultati dell'upsampling vengono inseriti nel livello Head per ripristinare le dimensioni originali dell'immagine, con una dimensione di output di (H × W × D × C, C = 3).
Architettura a blocchi SPD
Nei metodi tradizionali, la sezione di sottocampionamento impiega un singolo passo con una dimensione del passo di 2. Ciò comporta il pooling convoluzionale in posizioni locali nell'immagine, limitando il campo ricettivo e confinando il modello all'estrazione di caratteristiche da piccole patch dell'immagine. Questo metodo utilizza il blocco SPD, che divide finemente l'immagine originale in tre dimensioni. L'immagine 3D originale viene segmentata uniformemente lungo gli assi x, y e z, ottenendo quattro corpi di sottovolume. (Figura 2) Successivamente, i quattro volumi vengono concatenati attraverso l'operazione "cat" e l'immagine risultante subisce una convoluzione 1 × 1 × 1 per ottenere l'immagine sottocampionata20.
Figura 2: Diagramma a blocchi SPD. Fare clic qui per visualizzare una versione più grande di questa figura.
Architettura a blocchi PSAA
A differenza delle tradizionali reti CNN, il blocco PSAA proposto è più efficace nel condurre un focus sull'informazione globale e più efficiente nell'apprendimento e nella formazione della rete. Ciò consente l'acquisizione di immagini e caratteristiche spaziali più ricche. Il blocco PSAA include l'apprendimento dell'attenzione assiale basato sulla condivisione di parametri in tre dimensioni: altezza, larghezza e profondità. Rispetto al meccanismo di attenzione convenzionale che esegue l'apprendimento dell'attenzione per ogni pixel nell'immagine, questo metodo conduce in modo indipendente l'apprendimento dell'attenzione per ciascuna delle tre dimensioni, riducendo la complessità dell'auto-attenzione da quadratica a lineare. Inoltre, viene impiegato un meccanismo di condivisione dei parametri key-queries apprendibile, che consente alla rete di eseguire operazioni del meccanismo di attenzione in parallelo attraverso le tre dimensioni, ottenendo una rappresentazione delle caratteristiche più veloce, superiore ed efficace.
Il presente protocollo è stato approvato dal Comitato Etico dell'Università di Nantong. Implica la valutazione intelligente e la ricerca di dati multimodali acquisiti non invasivi o minimamente invasivi, tra cui immagini mediche umane, movimenti degli arti e imaging vascolare, utilizzando la tecnologia dell'intelligenza artificiale. La Figura 3 illustra il diagramma di flusso complessivo della segmentazione multiorgano. Tutti i collegamenti web necessari sono forniti nella Tabella dei Materiali.
Figura 3: Diagramma di flusso generale della segmentazione multiorgano. Fare clic qui per visualizzare una versione più grande di questa figura.
1. Raccolta di set di dati
2. Configurazione dell'ambiente
3. Pretrattamento dei dati
4. Addestramento e confronto dei modelli
NOTA: Come linea di base ampiamente utilizzata nel campo della segmentazione delle immagini, nnU-Net23 funge da modello di base nello studio. Il processo di confronto dei modelli specifico è il seguente.
5. Esperimento di ablazione
Questo protocollo utilizza due metriche per valutare il modello: il punteggio di somiglianza dei dadi (DSC) e la distanza di Hausdorff del 95% (HD95). Il DSC misura la sovrapposizione tra le previsioni di segmentazione dei voxel e la verità di base, mentre il 95% HD valuta la sovrapposizione tra i limiti di previsione della segmentazione dei voxel e la verità di base, filtrando il 5% dei valori anomali. La definizione di DSC26 è la seguente:
La segmentazione degli organi addominali è un lavoro complicato. Rispetto ad altre strutture interne del corpo umano, come il cervello o il cuore, la segmentazione degli organi addominali sembra più impegnativa a causa del basso contrasto e dei grandi cambiamenti di forma nelle immagini TC27,28. Swin-PSAxialNet è proposto qui per risolvere questo difficile problema.
Nella fase di raccolta dei dati, ...
Gli autori dichiarano di non avere conflitti di interesse.
Questo studio è stato sostenuto dal progetto di ingegneria '333' della provincia di Jiangsu ([2022]21-003), dal Wuxi Health Commission General Program (M202205) e dal Wuxi Science and Technology Development Fund (Y20212002-1), i cui contributi sono stati inestimabili per il successo di questo lavoro". Gli autori ringraziano tutti gli assistenti di ricerca e i partecipanti allo studio per il loro sostegno.
Name | Company | Catalog Number | Comments |
AMOS2022 dataset | None | None | Datasets for network training and testing. The weblink is: https://pan.baidu.com/s/1x2ZW5FiZtVap0er55Wk4VQ?pwd=xhpb |
ASUS mainframe | ASUS | https://www.asusparts.eu/en/asus-13020-01910200 | |
CUDA version 11.7 | NVIDIA | https://developer.nvidia.com/cuda-11-7-0-download-archive | |
NVIDIA GeForce RTX 3090 | NVIDIA | https://www.nvidia.com/en-in/geforce/graphics-cards/30-series/rtx-3090-3090ti/ | |
Paddlepaddle environment | Baidu | None | Environmental preparation for network training. The weblink is: https://www.paddlepaddle.org.cn/ |
PaddleSeg | Baidu | None | The baseline we use: https://github.com/PaddlePaddle/PaddleSeg |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon