Ein Swin Transformer-basiertes Modell zur Detektion von Schilddrüsenknoten in Ultraschallbildern

Ye Tian; Jingqiang Zhu; Lei Zhang; Lichao Mou; Xiaoxiang Zhu; Yilei Shi; Buyun Ma; Wanjun Zhao

doi:10.3791/64480

Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.

In diesem Artikel

Zusammenfassung
Zusammenfassung
Einleitung
Protokoll
Ergebnisse
Diskussion
Offenlegungen
Danksagungen
Materialien
Referenzen
Nachdrucke und Genehmigungen

Zusammenfassung

In dieser Arbeit wird ein neues Modell zur Detektion von Schilddrüsenknoten in Ultraschallbildern vorgeschlagen, das den Swin Transformer als Rückgrat für die langreichweitige Kontextmodellierung verwendet. Experimente belegen, dass es in Bezug auf Empfindlichkeit und Genauigkeit gut funktioniert.

Zusammenfassung

In den letzten Jahren hat die Inzidenz von Schilddrüsenkrebs zugenommen. Die Erkennung von Schilddrüsenknoten ist sowohl für die Erkennung als auch für die Behandlung von Schilddrüsenkrebs von entscheidender Bedeutung. Convolutional Neural Networks (CNNs) haben gute Ergebnisse bei der Analyse von Schilddrüsenultraschallbildern erzielt. Aufgrund des begrenzten gültigen rezeptiven Feldes der Faltungsschichten können CNNs jedoch keine weiträumigen kontextuellen Abhängigkeiten erfassen, die für die Identifizierung von Schilddrüsenknoten in Ultraschallbildern wichtig sind. Transformatornetzwerke sind effektiv bei der Erfassung von Kontextinformationen über große Reichweiten. Davon inspiriert, schlagen wir eine neuartige Methode zur Erkennung von Schilddrüsenknoten vor, die das Swin-Transformer-Backbone und Faster R-CNN kombiniert. Konkret wird zunächst ein Ultraschallbild in eine 1D-Sequenz von Einbettungen projiziert, die dann in einen hierarchischen Swin Transformer eingespeist werden.

Das Swin Transformer-Backbone extrahiert Merkmale in fünf verschiedenen Skalen, indem es verschobene Fenster für die Berechnung der Selbstaufmerksamkeit verwendet. Anschließend wird ein Feature-Pyramiden-Netzwerk (FPN) verwendet, um die Features aus verschiedenen Maßstäben zu fusionieren. Schließlich wird ein Erkennungskopf verwendet, um Begrenzungsrahmen und die entsprechenden Konfidenzwerte vorherzusagen. Für die Durchführung der Experimente wurden Daten von 2.680 Patienten verwendet, und die Ergebnisse zeigten, dass diese Methode den besten mAP-Score von 44,8 % erzielte und damit die CNN-basierten Baselines übertraf. Darüber hinaus haben wir eine bessere Empfindlichkeit (90,5 %) als die Wettbewerber erreicht. Dies deutet darauf hin, dass die Kontextmodellierung in diesem Modell für die Erkennung von Schilddrüsenknoten effektiv ist.

Einleitung

Die Inzidenz von Schilddrüsenkrebs hat seit 1970 rapide zugenommen, insbesondere bei Frauen mittleren Alters¹. Schilddrüsenknoten können die Entstehung von Schilddrüsenkrebs vorhersagen, und die meisten Schilddrüsenknoten sind asymptomatisch². Die Früherkennung von Schilddrüsenknoten ist sehr hilfreich bei der Heilung von Schilddrüsenkrebs. Daher sollten sich nach den aktuellen Praxisleitlinien alle Patienten mit Verdacht auf knotigen Kropf bei der körperlichen Untersuchung oder mit auffälligen Bildgebungsbefunden einer weiteren Untersuchung unterziehen ^3,4.

Der Schilddrüsenultraschall (US) ist eine gängige Methode zur Erkennung und Charakterisierung von Schilddrüsenläsionen ^5,6. US ist eine bequeme, kostengünstige und strahlungsfreie Technologie. Die Anwendung von US wird jedoch leicht durch den Operator^beeinflusst ^7,8. Merkmale wie Form, Größe, Echogenität und Textur von Schilddrüsenknoten sind auf US-Bildern leicht zu unterscheiden. Obwohl bestimmte US-Merkmale - Verkalkungen, Echogenität und unregelmäßige Grenzen - oft als Kriterien für die Identifizierung von Schilddrüsenknoten angesehen werden, ist das Vorhandensein von Interobserver-Variabilität unvermeidlich ^8,9. Die Diagnoseergebnisse von Radiologen mit unterschiedlichem Erfahrungsstand sind unterschiedlich. Unerfahrene Radiologen stellen häufiger Fehldiagnosen als erfahrene Radiologen. Einige Merkmale von US wie Reflexionen, Schatten und Echos können die Bildqualität beeinträchtigen. Diese Verschlechterung der Bildqualität, die durch die Art der US-Bildgebung verursacht wird, macht es selbst erfahrenen Ärzten schwer, Knötchen genau zu lokalisieren.

Die computergestützte Diagnose (CAD) von Schilddrüsenknoten hat sich in den letzten Jahren rasant weiterentwickelt und kann Fehler, die von verschiedenen Ärzten verursacht werden, effektiv reduzieren und Radiologen helfen, Knoten schnell und genau zu diagnostizieren^10,11. Für die Analyse von US-Knoten in der Schilddrüse wurden verschiedene CNN-basierte CAD-Systeme vorgeschlagen, darunter Segmentierung 12,13, Detektion 14,15 und Klassifizierung ^16,17. CNN ist ein mehrschichtiges, überwachtes Lernmodell¹⁸, und die Kernmodule von CNN sind die Faltungs- und Pooling-Schichten. Die Faltungs-Layer werden für die Feature-Extraktion verwendet, und die Pooling-Layer werden für das Downsampling verwendet. Die Faltungsebenen für Schatten können primäre Merkmale wie Textur, Kanten und Konturen extrahieren, während tiefe Faltungsebenen semantische Merkmale auf hoher Ebene erlernen.

CNNs haben große Erfolge im Bereich Computer Vision 19,20,21 erzielt. CNNs sind jedoch nicht in der Lage, weitreichende kontextuelle Abhängigkeiten zu erfassen, da das Feld der Faltungsschichten begrenzt ist. In der Vergangenheit verwendeten Backbone-Architekturen für die Bildklassifizierung meist CNNs. Mit dem Aufkommen von Vision Transformer (ViT)^22,23 hat sich dieser Trend geändert, und jetzt verwenden viele moderne Modelle Transformatoren als Backbone. Basierend auf nicht überlappenden Bildfeldern verwendet ViT einen Standard-Transformator-Encoder²⁵, um räumliche Beziehungen global zu modellieren. Der Swin Transformer²⁴ führt außerdem Shift-Fenster ein, um Funktionen zu erlernen. Die Verschiebungsfenster bringen nicht nur eine höhere Effizienz, sondern reduzieren auch die Länge der Sequenz erheblich, da die Selbstaufmerksamkeit im Fenster berechnet wird. Gleichzeitig kann die Interaktion zwischen zwei benachbarten Fenstern durch den Vorgang des Verschiebens (Bewegens) erfolgen. Die erfolgreiche Anwendung des Swin-Transformators in der Computer Vision hat zur Untersuchung von transformatorbasierten Architekturen für die Ultraschallbildanalyse geführt²⁶.

Kürzlich schlugen Li et al. einen Deep-Learning-Ansatz²⁸ für die Erkennung von papillärem Schilddrüsenkrebs vor, der von Faster R-CNN²⁷ inspiriert ist. Faster R-CNN ist eine klassische CNN-basierte Objekterkennungsarchitektur. Das ursprüngliche Faster R-CNN besteht aus vier Modulen: dem CNN-Backbone, dem Region Proposal Network (RPN), der ROI-Pooling-Schicht und dem Detektionskopf. Der CNN-Backbone verwendet eine Reihe grundlegender conv+bn+relu+pooling-Layer, um Feature-Maps aus dem Eingabebild zu extrahieren. Anschließend werden die Feature-Karten in den RPN- und den ROI-Pooling-Layer eingespeist. Die Aufgabe des RPN-Netzwerks besteht darin, regionale Vorschläge zu erstellen. Dieses Modul verwendet softmax, um zu bestimmen, ob Anker positiv sind, und generiert genaue Anker durch Regression des Begrenzungsrahmens. Der ROI-Pooling-Layer extrahiert die Vorschlags-Feature-Maps, indem er die Eingabe-Feature-Maps und -Vorschläge sammelt und die Proposal-Feature-Maps in den nachfolgenden Erkennungskopf einspeist. Der Erkennungskopf verwendet die Vorschlags-Feature-Karten, um Objekte zu klassifizieren und genaue Positionen der Erkennungsfelder durch Begrenzungsrahmenregression zu erhalten.

In diesem Artikel wird ein neues Netzwerk zur Erkennung von Schilddrüsenknoten namens Swin Faster R-CNN vorgestellt, das durch den Ersatz des CNN-Backbones in Faster R-CNN durch den Swin-Transformator gebildet wird, was zu einer besseren Extraktion von Merkmalen für die Erkennung von Knoten aus Ultraschallbildern führt. Darüber hinaus wird das Merkmalspyramidennetzwerk (FPN)²⁹ verwendet, um die Detektionsleistung des Modells für Knoten unterschiedlicher Größe durch die Aggregation von Merkmalen unterschiedlicher Maßstäbe zu verbessern.

Access restricted. Please log in or start a trial to view this content.

Protokoll

Diese retrospektive Studie wurde vom institutionellen Prüfungsausschuss des West China Hospital, Sichuan University, Sichuan, China, genehmigt und auf das Erfordernis der Einholung einer informierten Einwilligung verzichtet.

1. Einrichten der Umgebung

GPU-Software (Graphic Processing Unit)
1. Um Deep-Learning-Anwendungen zu implementieren, konfigurieren Sie zunächst die GPU-bezogene Umgebung. Laden Sie GPU-geeignete Software und Treiber von der GPU-Website herunter und installieren Sie sie.
  HINWEIS: In der Tabelle der Materialien finden Sie die in dieser Studie verwendeten Materialien.
Installation von Python3.8
1. Öffnen Sie ein Terminal an der Maschine. Geben Sie Folgendes ein:
  Befehlszeile: sudo apt-get install python3.8 python-dev python-virtualenv
Installation von Pytorch1.7
1. Befolgen Sie die Schritte auf der offiziellen Website, um Miniconda herunterzuladen und zu installieren.
2. Erstellen Sie eine Conda-Umgebung und aktivieren Sie sie.
  Befehlszeile: conda create --name SwinFasterRCNN python=3.8 -y
  Kommandozeile: conda activate SwinFasterRCNN
3. Installieren Sie Pytorch.
  Befehlszeile: conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2
MMDetection-Installation
1. Klonen Sie aus dem offiziellen Github-Repository.
  Befehlszeile: git clone https://github.com/open-mmlab/mmdetection.git
2. Installieren Sie MMDetection.
  Kommandozeile: cd mmdetection
  Befehlszeile: pip install -v -e .

2. Datenaufbereitung

Datensammlung
1. Sammelte die Ultraschallbilder (hier 3.000 Fälle aus einem Tertiärkrankenhaus der Klasse A). Stellen Sie sicher, dass jeder Fall über Diagnoseakten, Behandlungspläne, US-Berichte und die entsprechenden US-Bilder verfügt.
2. Legen Sie alle US-Bilder in einem Ordner mit dem Namen "images" ab.
  HINWEIS: Die in dieser Studie verwendeten Daten umfassten 3.853 US-Bilder aus 3.000 Fällen.
Datenbereinigung
1. Überprüfen Sie den Datensatz manuell auf Bilder von Nicht-Schilddrüsenbereichen, wie z. B. Lymphbilder.
2. Überprüfen Sie den Datensatz manuell auf Bilder, die einen Farbdopplerfluss enthalten.
3. Löschen Sie die Bilder, die Sie in den beiden vorherigen Schritten ausgewählt haben.
  HINWEIS: Nach der Datenbereinigung blieben 3.000 Bilder aus 2.680 Fällen übrig.
Annotation von Daten
1. Lassen Sie einen leitenden Arzt den Knotenbereich im US-Bild lokalisieren und die Knotengrenze skizzieren.
  HINWEIS: Die Annotationssoftware und der Annotationsprozess finden Sie in Supplemental File 1.
2. Lassen Sie die Annotationsergebnisse von einem anderen leitenden Arzt überprüfen und überarbeiten.
3. Platzieren Sie die mit Anmerkungen versehenen Daten in einem separaten Ordner mit dem Namen "Anmerkungen".
Aufteilung der Daten
1. Führen Sie das Python-Skript aus und legen Sie den Pfad des Bildes in Schritt 2.1.2 und die Pfade der Anmerkungen in Schritt 2.3.3 fest. Teilen Sie alle Bilder und die entsprechenden beschrifteten Dateien im Verhältnis 8:2 nach dem Zufallsprinzip in Trainings- und Validierungssätze auf. Speichern Sie die Trainingssatzdaten im Ordner "Train" und die Validierungssatzdaten im Ordner "Val".
  HINWEIS: Python-Skripte werden in Supplemental File 2 bereitgestellt.
Konvertieren in das CoCo-Dataset-Format
HINWEIS: Um MMDetection zu verwenden, verarbeiten Sie die Daten in einem CoCo-Dataset-Format, das eine JSON-Datei mit den Anmerkungsinformationen und einen Bildordner mit den US-Bildern enthält.
1. Führen Sie das Python-Skript aus und geben Sie die Ordnerpfade der Anmerkungen ein (Schritt 2.3.3), um die vom Arzt umrissenen Knotenbereiche zu extrahieren und in Masken umzuwandeln. Speichern Sie alle Masken im Ordner "Masken".
  HINWEIS: Die Python-Skripte werden in Supplemental File 3 bereitgestellt.
2. Führen Sie das Python-Skript aus und legen Sie in Schritt 2.5.1 den Pfad des Ordners masks fest, um die Daten in einen Datensatz im CoCo-Format umzuwandeln und eine JSON-Datei mit den US-Bildern zu generieren.
  HINWEIS: Python-Skripte werden in Supplemental File 4 bereitgestellt.

3. Schnellere RCNN-Konfiguration

Laden Sie die Swin Transformer-Modelldatei (https://github.com/microsoft/Swin-Transformer/blob/main/models/swin_transformer.py herunter, ändern Sie sie und legen Sie sie im Ordner "mmdetection/mmdet/models/backbones/" ab. Öffnen Sie die Datei "swin_transformer.py" in einem vim-Texteditor, und ändern Sie sie als Swin Transformer-Modelldatei, die in Supplemental File 5 enthalten ist.
Befehlszeile: vim swin_transformer.py
Erstellen Sie eine Kopie der Faster R-CNN-Konfigurationsdatei, ändern Sie das Backbone in Swin Transformer, und richten Sie die FPN-Parameter ein.
Kommandozeile: cd mmdetection/configs/faster_rcnn
Kommandozeile: cp faster_rcnn_r50_fpn_1x_coco.py swin_faster_rcnn_swin.py
HINWEIS: Die Swin Faster R-CNN-Konfigurationsdatei (swin_faster_rcnn_swin.py) wird in Supplemental File 6 bereitgestellt. Die Struktur des Swin Faster R-CNN-Netzwerks ist in Abbildung 1 dargestellt.
Legen Sie den Datensatzpfad in der Konfigurationsdatei auf den Datensatzpfad im CoCo-Format fest (Schritt 2.5.2). Öffnen Sie die Datei "coco_detection.py" im vim-Texteditor und ändern Sie die folgende Zeile:
data_root = "Datensatzpfad (Schritt 2.5.2)"
Befehlszeile:vim mmdetection/configs/_base_/datasets/coco_detection.py

4. Schnelleres Training des Swin R-CNN

Bearbeiten Sie mmdetection/configs/_base_/schedules/schedule_1x.py und legen Sie die standardmäßigen trainingsbezogenen Parameter fest, einschließlich der Lernrate, des Optimierers und der Epoche. Öffnen Sie die Datei "schedule_1x.py" im vim-Texteditor und ändern Sie die folgenden Zeilen:
optimizer = dict(type="AdamW", lr=0.001, momentum=0.9, weight_decay=0.0001)
runner = dict(type='EpochBasedRunner', max_epochs=48)
Befehlszeile:vim mmdetection/configs/_base_/schedules/schedule_1x.py
HINWEIS: In diesem Protokoll für dieses Dokument wurde die Lernrate auf 0,001 festgelegt, der AdamW-Optimierer wurde verwendet, die maximale Trainingsepoche wurde auf 48 und die Batchgröße auf 16 festgelegt.
Beginnen Sie das Training, indem Sie die folgenden Befehle eingeben. Warten Sie, bis das Netzwerk mit dem Training für 48 Epochen beginnt und die resultierenden trainierten Gewichtungen des Swin Faster R-CNN-Netzwerks im Ausgabeordner generiert werden. Speichern Sie die Modellgewichte mit der höchsten Genauigkeit im Validierungssatz.
Kommandozeile: cd mmdetection
Befehlszeile: python tools/train.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --work-dir ./work_dirs
HINWEIS: Das Modell wurde auf einer "NVIDIA GeForce RTX3090 24G"-GPU trainiert. Als zentrale Recheneinheit kam der "AMD Epyc 7742 64-Core Prozessor × 128" zum Einsatz, als Betriebssystem kam Ubuntu 18.06 zum Einsatz. Die Gesamttrainingszeit betrug ~2 h.

5. Erkennung von Schilddrüsenknoten auf neuen Bildern

Wählen Sie nach dem Training das Modell mit der besten Leistung im Validierungsset für die Erkennung von Schilddrüsenknoten in den neuen Bildern aus.
1. Ändern Sie zunächst die Größe des Bildes auf 512 Pixel x 512 Pixel und normalisieren Sie es. Diese Vorgänge werden automatisch ausgeführt, wenn das Testskript ausgeführt wird.
  Befehlszeile: python tools/test.py congfigs/faster_rcnn/swin_faster_rcnn_swin.py --out ./output
2. Warten Sie, bis das Skript die vortrainierten Modellparameter automatisch in das Swin Faster R-CNN geladen hat, und speisen Sie das vorverarbeitete Bild zur Inferenz in das Swin Faster R-CNN ein. Warten Sie, bis das Swin Faster R-CNN das Vorhersagefeld für jedes Bild ausgegeben hat.
3. Erlauben Sie dem Skript schließlich, automatisch eine NMS-Nachbearbeitung für jedes Bild durchzuführen, um Duplikaterkennungsfelder zu entfernen.
  HINWEIS: Die Erkennungsergebnisse werden in den angegebenen Ordner ausgegeben, der die Bilder mit den Erkennungsfeldern und den Koordinaten des Begrenzungsrahmens in einer gepackten Datei enthält.

Access restricted. Please log in or start a trial to view this content.

Ergebnisse

Die US-Bilder der Schilddrüse wurden von September 2008 bis Februar 2018 in zwei Krankenhäusern in China aufgenommen. Die Zulassungskriterien für die Aufnahme der US-Bilder in diese Studie waren die konventionelle US-Untersuchung vor der Biopsie und der chirurgischen Behandlung, die Diagnose mit Biopsie oder postoperativer Pathologie sowie das Alter ≥ 18 Jahren. Ausschlusskriterium waren Bilder ohne Schilddrüsengewebe.

Die 3.000 Ultraschallbilder umfassten 1.384 bösartige und 1.616 guta...

Access restricted. Please log in or start a trial to view this content.

Diskussion

In diesem Whitepaper wird ausführlich beschrieben, wie die Umgebung, die Datenvorbereitung, die Modellkonfiguration und das Netzwerktraining durchgeführt werden. In der Einrichtungsphase der Umgebung muss darauf geachtet werden, dass die abhängigen Bibliotheken kompatibel und übereinstimmend sind. Die Datenverarbeitung ist ein sehr wichtiger Schritt. Es muss Zeit und Mühe aufgewendet werden, um die Richtigkeit der Anmerkungen zu gewährleisten. Beim Trainieren des Modells kann ein "ModuleNotFoundError" auftreten. In...

Access restricted. Please log in or start a trial to view this content.

Offenlegungen

Die Autoren erklären keine Interessenkonflikte.

Danksagungen

Diese Studie wurde von der National Natural Science Foundation of China (Grant No.32101188) und dem General Project of Science and Technology Department der Provinz Sichuan (Grant No. 2021YFS0102), China, unterstützt.

Access restricted. Please log in or start a trial to view this content.

Materialien

Name	Company	Catalog Number	Comments
GPU RTX3090	Nvidia	1	24G GPU
mmdetection2.11.0	SenseTime	4	https://github.com/open-mmlab/mmdetection.git
python3.8	—	2	https://www.python.org
pytorch1.7.1	Facebook	3	https://pytorch.org

Referenzen

Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5(2013).
Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
Park, J. -Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
Moon, W. -J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
Chang, T. -C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
Fully convolutional networks for ultrasound image segmentation of thyroid nodules. Li, X. IEEE 20th International Conference on High Performance Computing and Communications; IEEE 16th International Conference on Smart City; IEEE 4th International Conference on Data Science and Systems (HPCC/SmartCity/DSS), , 886-890 (2018).
Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484(2022).
Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. Wang, J., et al. 2018 25Th IEEE International Conference on Image Processing (ICIP), , IEEE. 3114-3118 (2018).
Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718(2022).
Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
Szegedy, C., et al. Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015).
Dosovitskiy, A., et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600(2018).
Lin, T. -Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199(2022).
Castleman, K. R. Digital Image Processing. , Prentice Hall Press. Hoboken, NJ. (1996).
Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
Redmon, J., Farhadi, A. Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018).
Lin, T. -Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , Glasgow, UK. 23-28 (2020).

Access restricted. Please log in or start a trial to view this content.

Nachdrucke und Genehmigungen

Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden

Genehmigung beantragen

Ein Swin Transformer-basiertes Modell zur Detektion von Schilddrüsenknoten in Ultraschallbildern

In diesem Artikel

Zusammenfassung

Zusammenfassung

Einleitung

Protokoll

Ergebnisse

Diskussion

Offenlegungen

Danksagungen

Materialien

Referenzen

Nachdrucke und Genehmigungen

Weitere Artikel entdecken