Un modello basato su trasformatore swin per il rilevamento di noduli tiroidei nelle immagini ecografiche

Ye Tian; Jingqiang Zhu; Lei Zhang; Lichao Mou; Xiaoxiang Zhu; Yilei Shi; Buyun Ma; Wanjun Zhao

doi:10.3791/64480

È necessario avere un abbonamento a JoVE per visualizzare questo. Accedi o inizia la tua prova gratuita.

In questo articolo

Riepilogo
Abstract
Introduzione
Protocollo
Risultati
Discussione
Divulgazioni
Riconoscimenti
Materiali
Riferimenti
Ristampe e Autorizzazioni

Riepilogo

Qui viene proposto un nuovo modello per il rilevamento dei noduli tiroidei nelle immagini ecografiche, che utilizza Swin Transformer come spina dorsale per eseguire la modellazione del contesto a lungo raggio. Gli esperimenti dimostrano che funziona bene in termini di sensibilità e precisione.

Abstract

Negli ultimi anni, l'incidenza del cancro alla tiroide è in aumento. Il rilevamento dei noduli tiroidei è fondamentale sia per l'individuazione che per il trattamento del cancro della tiroide. Le reti neurali convoluzionali (CNN) hanno ottenuto buoni risultati nelle attività di analisi delle immagini ecografiche tiroidee. Tuttavia, a causa del limitato campo ricettivo valido degli strati convoluzionali, le CNN non riescono a catturare le dipendenze contestuali a lungo raggio, che sono importanti per identificare i noduli tiroidei nelle immagini ecografiche. Le reti di trasformatori sono efficaci nell'acquisizione di informazioni contestuali a lungo raggio. Ispirati da questo, proponiamo un nuovo metodo di rilevamento dei noduli tiroidei che combina la spina dorsale Swin Transformer e Faster R-CNN. In particolare, un'immagine ecografica viene prima proiettata in una sequenza 1D di incorporamenti, che vengono poi inseriti in un trasformatore Swin gerarchico.

La dorsale Swin Transformer estrae le caratteristiche su cinque diverse scale utilizzando finestre spostate per il calcolo dell'auto-attenzione. Successivamente, viene utilizzata una rete di piramide delle caratteristiche (FPN) per fondere le caratteristiche da scale diverse. Infine, una testina di rilevamento viene utilizzata per prevedere i riquadri di delimitazione e i punteggi di confidenza corrispondenti. I dati raccolti da 2.680 pazienti sono stati utilizzati per condurre gli esperimenti e i risultati hanno mostrato che questo metodo ha raggiunto il miglior punteggio mAP del 44,8%, superando le linee di base basate sulla CNN. Inoltre, abbiamo ottenuto una migliore sensibilità (90,5%) rispetto ai concorrenti. Ciò indica che la modellazione del contesto in questo modello è efficace per il rilevamento dei noduli tiroidei.

Introduzione

L'incidenza del cancro alla tiroide è aumentata rapidamente dal 1970, soprattutto tra le donne di mezza età¹. I noduli tiroidei possono predire l'emergere del cancro della tiroide e la maggior parte dei noduli tiroidei sono asintomatici². La diagnosi precoce dei noduli tiroidei è molto utile nella cura del cancro alla tiroide. Pertanto, secondo le attuali linee guida pratiche, tutti i pazienti con sospetto gozzo nodulare all'esame obiettivo o con risultati di imaging anomali dovrebbero essere sottoposti a ulteriori esami ^3,4.

L'ecografia tiroidea (US) è un metodo comune utilizzato per rilevare e caratterizzare le lesioni tiroidee ^5,6. Gli Stati Uniti sono una tecnologia conveniente, economica e priva di radiazioni. Tuttavia, l'applicazione di US è facilmente influenzata dall'operatore ^7,8. Caratteristiche come la forma, le dimensioni, l'ecogenicità e la consistenza dei noduli tiroidei sono facilmente distinguibili sulle immagini statunitensi. Sebbene alcune caratteristiche statunitensi - calcificazioni, ecogenicità e bordi irregolari - siano spesso considerate criteri per identificare i noduli tiroidei, la presenza di variabilità interosservatore è inevitabile ^8,9. I risultati diagnostici dei radiologi con diversi livelli di esperienza sono diversi. I radiologi inesperti hanno maggiori probabilità di diagnosticare erroneamente rispetto ai radiologi esperti. Alcune caratteristiche di US come riflessi, ombre ed echi possono degradare la qualità dell'immagine. Questo degrado della qualità dell'immagine causato dalla natura dell'imaging statunitense rende difficile anche per i medici esperti individuare i noduli con precisione.

La diagnosi computerizzata (CAD) per i noduli tiroidei si è sviluppata rapidamente negli ultimi anni e può ridurre efficacemente gli errori causati da diversi medici e aiutare i radiologi a diagnosticare i noduli in modo rapido e preciso^10,11. Sono stati proposti vari sistemi CAD basati su CNN per l'analisi dei noduli tiroidei statunitensi, tra cui la segmentazione 12,13, il rilevamento 14,15 e la classificazione ^16,17. CNN è un modello di apprendimento supervisionato multilivello¹⁸ e i moduli principali della CNN sono i livelli di convoluzione e pooling. I layer di convoluzione vengono utilizzati per l'estrazione delle feature, mentre i layer di pooling vengono utilizzati per il downsampling. I livelli convoluzionali ombra possono estrarre feature primarie come la texture, i bordi e i contorni, mentre i livelli convoluzionali profondi apprendono feature semantiche di alto livello.

Le CNN hanno avuto un grande successo nella visione artificiale 19,20,21. Tuttavia, le CNN non riescono a catturare le dipendenze contestuali a lungo raggio a causa del limitato campo ricettivo valido degli strati convoluzionali. In passato, le architetture backbone per la classificazione delle immagini utilizzavano principalmente le CNN. Con l'avvento di Vision Transformer (ViT)^22,23^, questa tendenza è cambiata e ora molti modelli all'avanguardia utilizzano trasformatori come spine dorsali. Basato su patch di immagini non sovrapposte, ViT utilizza un encoder di trasformatori standard²⁵ per modellare globalmente le relazioni spaziali. Lo Swin Transformer²⁴ introduce inoltre le finestre di spostamento per apprendere le funzionalità. Le finestre di spostamento non solo portano una maggiore efficienza, ma riducono anche notevolmente la lunghezza della sequenza perché l'auto-attenzione viene calcolata nella finestra. Allo stesso tempo, l'interazione tra due finestre adiacenti può essere effettuata attraverso l'operazione di spostamento (movimento). L'applicazione di successo del trasformatore Swin nella visione artificiale ha portato allo studio di architetture basate su trasformatori per l'analisi delle immagini a ultrasuoni²⁶.

Recentemente, Li et al. hanno proposto un approccio di deep learning²⁸ per il rilevamento del cancro papillare tiroideo ispirato da Faster R-CNN²⁷. Faster R-CNN è una classica architettura di rilevamento di oggetti basata su CNN. L'originale Faster R-CNN ha quattro moduli: la dorsale CNN, la rete di proposta regionale (RPN), il livello di pooling ROI e la testa di rilevamento. La dorsale CNN utilizza un set di layer di base conv+bn+relu+pooling per estrarre le feature map dall'immagine di input. Quindi, le mappe delle feature vengono inserite nell'RPN e nel livello di pooling ROI. Il ruolo della rete RPN è quello di generare proposte regionali. Questo modulo utilizza softmax per determinare se gli ancoraggi sono positivi e genera ancoraggi accurati mediante la regressione del riquadro di delimitazione. Il layer di pooling ROI estrae le feature map delle proposte raccogliendo le feature map e le proposte di input e alimenta le feature map della proposta nella successiva testa di rilevamento. La testina di rilevamento utilizza le feature map della proposta per classificare gli oggetti e ottenere posizioni accurate delle caselle di rilevamento mediante la regressione del riquadro di delimitazione.

Questo documento presenta una nuova rete di rilevamento dei noduli tiroidei chiamata Swin Faster R-CNN formata sostituendo la dorsale CNN in Faster R-CNN con il trasformatore Swin, che si traduce in una migliore estrazione delle caratteristiche per il rilevamento dei noduli dalle immagini ecografiche. Inoltre, la rete FPN (Feature Pyramid Network)²⁹ viene utilizzata per migliorare le prestazioni di rilevamento del modello per noduli di diverse dimensioni aggregando feature di scale diverse.

Access restricted. Please log in or start a trial to view this content.

Protocollo

Questo studio retrospettivo è stato approvato dal comitato di revisione istituzionale del West China Hospital, Sichuan University, Sichuan, Cina, e l'obbligo di ottenere il consenso informato è stato rinunciato.

1. Configurazione dell'ambiente

Software dell'unità di elaborazione grafica (GPU)
1. Per implementare applicazioni di deep learning, configura innanzitutto l'ambiente correlato alla GPU. Scarica e installa software e driver appropriati per la GPU dal sito Web della GPU.
  NOTA: Vedere la tabella dei materiali per quelli utilizzati in questo studio.
Installazione di Python3.8
1. Aprire un terminale sulla macchina. Digitare quanto segue:
  Riga di comando: sudo apt-get install python3.8 python-dev python-virtualenv
Installazione di Pytorch1.7
1. Seguire i passaggi sul sito Web ufficiale per scaricare e installare Miniconda.
2. Creare un ambiente conda e attivarlo.
  Riga di comando: conda create --name SwinFasterRCNN python=3.8 -y
  Riga di comando: conda activate SwinFasterRCNN
3. Installare Pytorch.
  Riga di comando: conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2
Installazione MMDetection
1. Clona dal repository ufficiale di Github.
  Riga di comando: git clone https://github.com/open-mmlab/mmdetection.git
2. Installare MMDetection.
  Riga di comando: cd mmdetection
  Riga di comando: pip install -v -e .

2. Preparazione dei dati

Raccolta dei dati
1. Raccolte le immagini ecografiche (qui, 3.000 casi da un ospedale terziario di grado A). Assicurati che ogni caso abbia record diagnostici, piani di trattamento, rapporti statunitensi e le corrispondenti immagini statunitensi.
2. Inserisci tutte le immagini statunitensi in una cartella denominata "immagini".
  NOTA: I dati utilizzati in questo studio includevano 3.853 immagini statunitensi da 3.000 casi.
Pulizia dei dati
1. Controllare manualmente il set di dati per le immagini di aree non tiroidee, come le immagini linfatiche.
2. Verificare manualmente la presenza di immagini contenenti flusso Doppler a colori.
3. Eliminare le immagini selezionate nei due passaggi precedenti.
  NOTA: dopo la pulizia dei dati, sono state lasciate 3.000 immagini da 2.680 casi.
Annotazione dei dati
1. Chiedi a un medico senior di individuare l'area del nodulo nell'immagine degli Stati Uniti e delineare il confine del nodulo.
  NOTA: il software e il processo di annotazione sono disponibili nel file supplementare 1.
2. Chiedi a un altro medico senior di rivedere e rivedere i risultati delle annotazioni.
3. Inserire i dati annotati in una cartella separata denominata "Annotazioni".
Divisione dei dati
1. Eseguire lo script python e impostare il percorso dell'immagine nel passaggio 2.1.2 e i percorsi delle annotazioni nel passaggio 2.3.3. Dividi casualmente tutte le immagini e i file etichettati corrispondenti in set di addestramento e convalida con un rapporto di 8:2. Salvare i dati del set di addestramento nella cartella "Train" e i dati del set di convalida nella cartella "Val".
  NOTA: gli script Python sono forniti nel file supplementare 2.
Conversione nel formato del set di dati CoCo
NOTA: per utilizzare MMDetection, elaborare i dati in un formato di set di dati CoCo, che include un file json che contiene le informazioni di annotazione e una cartella di immagini contenente le immagini statunitensi.
1. Eseguire lo script python e inserire i percorsi della cartella delle annotazioni (passaggio 2.3.3) per estrarre le aree dei noduli delineate dal medico e convertirle in maschere. Salva tutte le maschere nella cartella "Maschere".
  NOTA: gli script Python sono forniti nel file supplementare 3.
2. Eseguire lo script python e impostare il percorso della cartella masks nel passaggio 2.5.1 per trasformare i dati in un set di dati in formato CoCo e generare un file json con le immagini statunitensi.
  NOTA: gli script Python sono forniti nel file supplementare 4.

3. Configurazione RCNN Swin Faster

Scaricare il file di modello Swin Transformer (https://github.com/microsoft/Swin-Transformer/blob/main/models/swin_transformer.py), modificarlo e inserirlo nella cartella "mmdetection/mmdet/models/backbones/". Aprire il file "swin_transformer.py" in un editor di testo vim e modificarlo come file di modello Swin Transformer fornito nel file supplementare 5.
Riga di comando: vim swin_transformer.py
Creare una copia del file di configurazione Faster R-CNN, modificare la dorsale in Swin Transformer e impostare i parametri FPN.
Riga di comando: cd mmdetection/configs/faster_rcnn
Riga di comando: cp faster_rcnn_r50_fpn_1x_coco.py swin_faster_rcnn_swin.py
NOTA: il file di configurazione R-CNN Swin Faster (swin_faster_rcnn_swin.py) è fornito nel file supplementare 6. La struttura della rete Swin Faster R-CNN è mostrata nella Figura 1.
Impostare il percorso del set di dati sul percorso del set di dati in formato CoCo (passaggio 2.5.2) nel file di configurazione. Apri il file "coco_detection.py" nell'editor di testo vim e modifica la seguente riga:
data_root = "percorso del set di dati(passaggio 2.5.2)"
Riga di comando:vim mmdetection/configs/_base_/datasets/coco_detection.py

4. Allenare lo swin più velocemente R-CNN

Modifica mmdetection/configs/_base_/schedules/schedule_1x.py e imposta i parametri predefiniti relativi all'allenamento, inclusi il tasso di apprendimento, l'ottimizzatore e l'epoca. Apri il file "schedule_1x.py" nell'editor di testo vim e modifica le seguenti righe:
ottimizzatore = dict(type="AdamW", lr=0.001, momentum=0.9, weight_decay=0.0001)
runner = dict(type='EpochBasedRunner', max_epochs=48)
Riga di comando:vim mmdetection/configs/_base_/schedules/schedule_1x.py
NOTA: in questo protocollo per questo documento, il tasso di apprendimento è stato impostato su 0,001, è stato utilizzato l'ottimizzatore AdamW, l'epoca massima di addestramento è stata impostata su 48 e la dimensione del batch è stata impostata su 16.
Iniziare l'allenamento digitando i seguenti comandi. Attendere che la rete inizi l'addestramento per 48 epoche e che i pesi addestrati risultanti della rete Swin Faster R-CNN vengano generati nella cartella di output. Salvate i pesi del modello con la massima precisione sul set di convalida.
Riga di comando: cd mmdetection
Riga di comando: python tools/train.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --work-dir ./work_dirs
NOTA: il modello è stato addestrato su una GPU "NVIDIA GeForce RTX3090 24G". L'unità di elaborazione centrale utilizzata era il "processore AMD Epyc 7742 64-core × 128", e il sistema operativo era Ubuntu 18.06. Il tempo complessivo di allenamento è stato di ~ 2 ore.

5. Eseguire il rilevamento dei noduli tiroidei su nuove immagini

Dopo l'addestramento, selezionare il modello con le migliori prestazioni sul set di convalida per il rilevamento dei noduli tiroidei nelle nuove immagini.
1. Innanzitutto, ridimensiona l'immagine a 512 pixel x 512 pixel e normalizzala. Queste operazioni vengono eseguite automaticamente quando viene eseguito lo script di test.
  Riga di comando: python tools/test.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --out ./output
2. Attendere che lo script carichi automaticamente i parametri del modello pre-addestrati in Swin Faster R-CNN e inserire l'immagine preelaborata in Swin Faster R-CNN per l'inferenza. Attendi che Swin Faster R-CNN esegua la casella di previsione per ogni immagine.
3. Infine, consenti allo script di eseguire automaticamente la post-elaborazione NMS su ogni immagine per rimuovere le caselle di rilevamento duplicate.
  Nota : i risultati del rilevamento vengono restituiti alla cartella specificata, che contiene le immagini con le caselle di rilevamento e le coordinate del riquadro di selezione in un file compresso.

Access restricted. Please log in or start a trial to view this content.

Risultati

Le immagini della tiroide US sono state raccolte da due ospedali in Cina da settembre 2008 a febbraio 2018. I criteri di ammissibilità per includere le immagini statunitensi in questo studio erano l'esame convenzionale degli Stati Uniti prima della biopsia e del trattamento chirurgico, la diagnosi con biopsia o patologia post-chirurgica e l'età ≥ 18 anni. I criteri di esclusione erano immagini senza tessuti tiroidei.

Le 3.000 immagini ecografiche includevano 1.384 noduli maligni e 1.616 be...

Access restricted. Please log in or start a trial to view this content.

Discussione

In questo documento viene descritto in dettaglio come eseguire l'impostazione dell'ambiente, la preparazione dei dati, la configurazione del modello e l'addestramento della rete. Nella fase di configurazione dell'ambiente, è necessario prestare attenzione per garantire che le librerie dipendenti siano compatibili e corrispondenti. Il trattamento dei dati è un passo molto importante; Tempo e sforzi devono essere spesi per garantire l'accuratezza delle annotazioni. Durante il training del modello, è possibile che venga ...

Access restricted. Please log in or start a trial to view this content.

Divulgazioni

Gli autori non dichiarano conflitti di interesse.

Riconoscimenti

Questo studio è stato sostenuto dalla National Natural Science Foundation of China (Grant No.32101188) e dal General Project of Science and Technology Department of Sichuan Province (Grant No. 2021YFS0102), Cina.

Access restricted. Please log in or start a trial to view this content.

Materiali

Name	Company	Catalog Number	Comments
GPU RTX3090	Nvidia	1	24G GPU
mmdetection2.11.0	SenseTime	4	https://github.com/open-mmlab/mmdetection.git
python3.8	—	2	https://www.python.org
pytorch1.7.1	Facebook	3	https://pytorch.org

Riferimenti

Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5(2013).
Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
Park, J. -Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
Moon, W. -J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
Chang, T. -C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
Fully convolutional networks for ultrasound image segmentation of thyroid nodules. Li, X. IEEE 20th International Conference on High Performance Computing and Communications; IEEE 16th International Conference on Smart City; IEEE 4th International Conference on Data Science and Systems (HPCC/SmartCity/DSS), , 886-890 (2018).
Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484(2022).
Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. Wang, J., et al. 2018 25Th IEEE International Conference on Image Processing (ICIP), , IEEE. 3114-3118 (2018).
Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718(2022).
Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
Szegedy, C., et al. Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015).
Dosovitskiy, A., et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600(2018).
Lin, T. -Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199(2022).
Castleman, K. R. Digital Image Processing. , Prentice Hall Press. Hoboken, NJ. (1996).
Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
Redmon, J., Farhadi, A. Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018).
Lin, T. -Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , Glasgow, UK. 23-28 (2020).

Access restricted. Please log in or start a trial to view this content.

Ristampe e Autorizzazioni

Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE

Richiedi Autorizzazione

Esplora altri articoli

Medicina Numero 194

This article has been published

Video Coming Soon

Keep me updated: