Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.
Method Article
In dieser Arbeit wird ein neues Modell zur Detektion von Schilddrüsenknoten in Ultraschallbildern vorgeschlagen, das den Swin Transformer als Rückgrat für die langreichweitige Kontextmodellierung verwendet. Experimente belegen, dass es in Bezug auf Empfindlichkeit und Genauigkeit gut funktioniert.
In den letzten Jahren hat die Inzidenz von Schilddrüsenkrebs zugenommen. Die Erkennung von Schilddrüsenknoten ist sowohl für die Erkennung als auch für die Behandlung von Schilddrüsenkrebs von entscheidender Bedeutung. Convolutional Neural Networks (CNNs) haben gute Ergebnisse bei der Analyse von Schilddrüsenultraschallbildern erzielt. Aufgrund des begrenzten gültigen rezeptiven Feldes der Faltungsschichten können CNNs jedoch keine weiträumigen kontextuellen Abhängigkeiten erfassen, die für die Identifizierung von Schilddrüsenknoten in Ultraschallbildern wichtig sind. Transformatornetzwerke sind effektiv bei der Erfassung von Kontextinformationen über große Reichweiten. Davon inspiriert, schlagen wir eine neuartige Methode zur Erkennung von Schilddrüsenknoten vor, die das Swin-Transformer-Backbone und Faster R-CNN kombiniert. Konkret wird zunächst ein Ultraschallbild in eine 1D-Sequenz von Einbettungen projiziert, die dann in einen hierarchischen Swin Transformer eingespeist werden.
Das Swin Transformer-Backbone extrahiert Merkmale in fünf verschiedenen Skalen, indem es verschobene Fenster für die Berechnung der Selbstaufmerksamkeit verwendet. Anschließend wird ein Feature-Pyramiden-Netzwerk (FPN) verwendet, um die Features aus verschiedenen Maßstäben zu fusionieren. Schließlich wird ein Erkennungskopf verwendet, um Begrenzungsrahmen und die entsprechenden Konfidenzwerte vorherzusagen. Für die Durchführung der Experimente wurden Daten von 2.680 Patienten verwendet, und die Ergebnisse zeigten, dass diese Methode den besten mAP-Score von 44,8 % erzielte und damit die CNN-basierten Baselines übertraf. Darüber hinaus haben wir eine bessere Empfindlichkeit (90,5 %) als die Wettbewerber erreicht. Dies deutet darauf hin, dass die Kontextmodellierung in diesem Modell für die Erkennung von Schilddrüsenknoten effektiv ist.
Die Inzidenz von Schilddrüsenkrebs hat seit 1970 rapide zugenommen, insbesondere bei Frauen mittleren Alters1. Schilddrüsenknoten können die Entstehung von Schilddrüsenkrebs vorhersagen, und die meisten Schilddrüsenknoten sind asymptomatisch2. Die Früherkennung von Schilddrüsenknoten ist sehr hilfreich bei der Heilung von Schilddrüsenkrebs. Daher sollten sich nach den aktuellen Praxisleitlinien alle Patienten mit Verdacht auf knotigen Kropf bei der körperlichen Untersuchung oder mit auffälligen Bildgebungsbefunden einer weiteren Untersuchung unterziehen 3,4.
Der Schilddrüsenultraschall (US) ist eine gängige Methode zur Erkennung und Charakterisierung von Schilddrüsenläsionen 5,6. US ist eine bequeme, kostengünstige und strahlungsfreie Technologie. Die Anwendung von US wird jedoch leicht durch den Operatorbeeinflusst 7,8. Merkmale wie Form, Größe, Echogenität und Textur von Schilddrüsenknoten sind auf US-Bildern leicht zu unterscheiden. Obwohl bestimmte US-Merkmale - Verkalkungen, Echogenität und unregelmäßige Grenzen - oft als Kriterien für die Identifizierung von Schilddrüsenknoten angesehen werden, ist das Vorhandensein von Interobserver-Variabilität unvermeidlich 8,9. Die Diagnoseergebnisse von Radiologen mit unterschiedlichem Erfahrungsstand sind unterschiedlich. Unerfahrene Radiologen stellen häufiger Fehldiagnosen als erfahrene Radiologen. Einige Merkmale von US wie Reflexionen, Schatten und Echos können die Bildqualität beeinträchtigen. Diese Verschlechterung der Bildqualität, die durch die Art der US-Bildgebung verursacht wird, macht es selbst erfahrenen Ärzten schwer, Knötchen genau zu lokalisieren.
Die computergestützte Diagnose (CAD) von Schilddrüsenknoten hat sich in den letzten Jahren rasant weiterentwickelt und kann Fehler, die von verschiedenen Ärzten verursacht werden, effektiv reduzieren und Radiologen helfen, Knoten schnell und genau zu diagnostizieren10,11. Für die Analyse von US-Knoten in der Schilddrüse wurden verschiedene CNN-basierte CAD-Systeme vorgeschlagen, darunter Segmentierung 12,13, Detektion 14,15 und Klassifizierung 16,17. CNN ist ein mehrschichtiges, überwachtes Lernmodell18, und die Kernmodule von CNN sind die Faltungs- und Pooling-Schichten. Die Faltungs-Layer werden für die Feature-Extraktion verwendet, und die Pooling-Layer werden für das Downsampling verwendet. Die Faltungsebenen für Schatten können primäre Merkmale wie Textur, Kanten und Konturen extrahieren, während tiefe Faltungsebenen semantische Merkmale auf hoher Ebene erlernen.
CNNs haben große Erfolge im Bereich Computer Vision 19,20,21 erzielt. CNNs sind jedoch nicht in der Lage, weitreichende kontextuelle Abhängigkeiten zu erfassen, da das Feld der Faltungsschichten begrenzt ist. In der Vergangenheit verwendeten Backbone-Architekturen für die Bildklassifizierung meist CNNs. Mit dem Aufkommen von Vision Transformer (ViT)22,23 hat sich dieser Trend geändert, und jetzt verwenden viele moderne Modelle Transformatoren als Backbone. Basierend auf nicht überlappenden Bildfeldern verwendet ViT einen Standard-Transformator-Encoder25, um räumliche Beziehungen global zu modellieren. Der Swin Transformer24 führt außerdem Shift-Fenster ein, um Funktionen zu erlernen. Die Verschiebungsfenster bringen nicht nur eine höhere Effizienz, sondern reduzieren auch die Länge der Sequenz erheblich, da die Selbstaufmerksamkeit im Fenster berechnet wird. Gleichzeitig kann die Interaktion zwischen zwei benachbarten Fenstern durch den Vorgang des Verschiebens (Bewegens) erfolgen. Die erfolgreiche Anwendung des Swin-Transformators in der Computer Vision hat zur Untersuchung von transformatorbasierten Architekturen für die Ultraschallbildanalyse geführt26.
Kürzlich schlugen Li et al. einen Deep-Learning-Ansatz28 für die Erkennung von papillärem Schilddrüsenkrebs vor, der von Faster R-CNN27 inspiriert ist. Faster R-CNN ist eine klassische CNN-basierte Objekterkennungsarchitektur. Das ursprüngliche Faster R-CNN besteht aus vier Modulen: dem CNN-Backbone, dem Region Proposal Network (RPN), der ROI-Pooling-Schicht und dem Detektionskopf. Der CNN-Backbone verwendet eine Reihe grundlegender conv+bn+relu+pooling-Layer, um Feature-Maps aus dem Eingabebild zu extrahieren. Anschließend werden die Feature-Karten in den RPN- und den ROI-Pooling-Layer eingespeist. Die Aufgabe des RPN-Netzwerks besteht darin, regionale Vorschläge zu erstellen. Dieses Modul verwendet softmax, um zu bestimmen, ob Anker positiv sind, und generiert genaue Anker durch Regression des Begrenzungsrahmens. Der ROI-Pooling-Layer extrahiert die Vorschlags-Feature-Maps, indem er die Eingabe-Feature-Maps und -Vorschläge sammelt und die Proposal-Feature-Maps in den nachfolgenden Erkennungskopf einspeist. Der Erkennungskopf verwendet die Vorschlags-Feature-Karten, um Objekte zu klassifizieren und genaue Positionen der Erkennungsfelder durch Begrenzungsrahmenregression zu erhalten.
In diesem Artikel wird ein neues Netzwerk zur Erkennung von Schilddrüsenknoten namens Swin Faster R-CNN vorgestellt, das durch den Ersatz des CNN-Backbones in Faster R-CNN durch den Swin-Transformator gebildet wird, was zu einer besseren Extraktion von Merkmalen für die Erkennung von Knoten aus Ultraschallbildern führt. Darüber hinaus wird das Merkmalspyramidennetzwerk (FPN)29 verwendet, um die Detektionsleistung des Modells für Knoten unterschiedlicher Größe durch die Aggregation von Merkmalen unterschiedlicher Maßstäbe zu verbessern.
Access restricted. Please log in or start a trial to view this content.
Diese retrospektive Studie wurde vom institutionellen Prüfungsausschuss des West China Hospital, Sichuan University, Sichuan, China, genehmigt und auf das Erfordernis der Einholung einer informierten Einwilligung verzichtet.
1. Einrichten der Umgebung
2. Datenaufbereitung
3. Schnellere RCNN-Konfiguration
4. Schnelleres Training des Swin R-CNN
5. Erkennung von Schilddrüsenknoten auf neuen Bildern
Access restricted. Please log in or start a trial to view this content.
Die US-Bilder der Schilddrüse wurden von September 2008 bis Februar 2018 in zwei Krankenhäusern in China aufgenommen. Die Zulassungskriterien für die Aufnahme der US-Bilder in diese Studie waren die konventionelle US-Untersuchung vor der Biopsie und der chirurgischen Behandlung, die Diagnose mit Biopsie oder postoperativer Pathologie sowie das Alter ≥ 18 Jahren. Ausschlusskriterium waren Bilder ohne Schilddrüsengewebe.
Die 3.000 Ultraschallbilder umfassten 1.384 bösartige und 1.616 guta...
Access restricted. Please log in or start a trial to view this content.
In diesem Whitepaper wird ausführlich beschrieben, wie die Umgebung, die Datenvorbereitung, die Modellkonfiguration und das Netzwerktraining durchgeführt werden. In der Einrichtungsphase der Umgebung muss darauf geachtet werden, dass die abhängigen Bibliotheken kompatibel und übereinstimmend sind. Die Datenverarbeitung ist ein sehr wichtiger Schritt. Es muss Zeit und Mühe aufgewendet werden, um die Richtigkeit der Anmerkungen zu gewährleisten. Beim Trainieren des Modells kann ein "ModuleNotFoundError" auftreten. In...
Access restricted. Please log in or start a trial to view this content.
Die Autoren erklären keine Interessenkonflikte.
Diese Studie wurde von der National Natural Science Foundation of China (Grant No.32101188) und dem General Project of Science and Technology Department der Provinz Sichuan (Grant No. 2021YFS0102), China, unterstützt.
Access restricted. Please log in or start a trial to view this content.
Name | Company | Catalog Number | Comments |
GPU RTX3090 | Nvidia | 1 | 24G GPU |
mmdetection2.11.0 | SenseTime | 4 | https://github.com/open-mmlab/mmdetection.git |
python3.8 | — | 2 | https://www.python.org |
pytorch1.7.1 | 3 | https://pytorch.org |
Access restricted. Please log in or start a trial to view this content.
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten