Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.
Ici, un nouveau modèle pour la détection des nodules thyroïdiens dans les images échographiques est proposé, qui utilise Swin Transformer comme épine dorsale pour effectuer une modélisation contextuelle à longue distance. Les expériences prouvent qu’il fonctionne bien en termes de sensibilité et de précision.
Ces dernières années, l’incidence du cancer de la thyroïde a augmenté. La détection des nodules thyroïdiens est essentielle à la fois pour la détection et le traitement du cancer de la thyroïde. Les réseaux de neurones convolutifs (CNN) ont obtenu de bons résultats dans les tâches d’analyse d’images échographiques thyroïdiennes. Cependant, en raison du champ réceptif valide limité des couches convolutionnelles, les CNN ne parviennent pas à capturer les dépendances contextuelles à longue portée, qui sont importantes pour identifier les nodules thyroïdiens dans les images échographiques. Les réseaux de transformateurs sont efficaces pour capturer des informations contextuelles à longue portée. Inspirés par cela, nous proposons une nouvelle méthode de détection des nodules thyroïdiens qui combine le squelette Swin Transformer et Faster R-CNN. Plus précisément, une image échographique est d’abord projetée dans une séquence 1D d’intégrations, qui sont ensuite introduites dans un transformateur Swin hiérarchique.
Le backbone Swin Transformer extrait les caractéristiques à cinq échelles différentes en utilisant des fenêtres décalées pour le calcul de l’auto-attention. Par la suite, un réseau pyramidal d’entités (FPN) est utilisé pour fusionner les caractéristiques de différentes échelles. Enfin, une tête de détection est utilisée pour prédire les cadres englobants et les scores de confiance correspondants. Les données recueillies auprès de 2 680 patients ont été utilisées pour mener les expériences, et les résultats ont montré que cette méthode a obtenu le meilleur score mAP de 44,8%, surpassant les lignes de base basées sur CNN. De plus, nous avons gagné en sensibilité (90,5%) que les concurrents. Cela indique que la modélisation contextuelle dans ce modèle est efficace pour la détection des nodules thyroïdiens.
L’incidence du cancer de la thyroïde a augmenté rapidement depuis 1970, en particulier chez les femmes d’âge moyen1. Les nodules thyroïdiens peuvent prédire l’émergence d’un cancer de la thyroïde, et la plupart des nodules thyroïdiens sont asymptomatiques2. La détection précoce des nodules thyroïdiens est très utile pour guérir le cancer de la thyroïde. Par conséquent, selon les directives de pratique actuelles, tous les patients présentant un goitre nodulaire suspecté à l’examen physique ou présentant des résultats d’imagerie anormaux devraient subir un examen plus approfondi 3,4.
L’échographie thyroïdienne (US) est une méthode couramment utilisée pour détecter et caractériser les lésions thyroïdiennes 5,6. Les États-Unis sont une technologie pratique, peu coûteuse et sans rayonnement. Cependant, l’application des États-Unis est facilement affectée par l’opérateur 7,8. Des caractéristiques telles que la forme, la taille, l’échogénicité et la texture des nodules thyroïdiens sont facilement reconnaissables sur les images américaines. Bien que certaines caractéristiques américaines - calcifications, échogénicité et bordures irrégulières - soient souvent considérées comme des critères d’identification des nodules thyroïdiens, la présence d’une variabilité inter-observateurs est inévitable 8,9. Les résultats de diagnostic des radiologues ayant différents niveaux d’expérience sont différents. Les radiologistes inexpérimentés sont plus susceptibles de mal diagnostiquer que les radiologistes expérimentés. Certaines caractéristiques de l’US telles que les reflets, les ombres et les échos peuvent dégrader la qualité de l’image. Cette dégradation de la qualité d’image causée par la nature de l’imagerie américaine rend difficile même pour les médecins expérimentés de localiser les nodules avec précision.
Le diagnostic assisté par ordinateur (CAD) des nodules thyroïdiens s’est développé rapidement ces dernières années et peut réduire efficacement les erreurs causées par différents médecins et aider les radiologues à diagnostiquer les nodules rapidement et avec précision10,11. Divers systèmes de CAO basés sur CNN ont été proposés pour l’analyse des nodules thyroïdiens américains, y compris la segmentation 12,13, la détection 14,15 et la classification 16,17. CNN est un modèle d’apprentissage supervisémulticouche 18, et les modules de base de CNN sont les couches de convolution et de pooling. Les couches de convolution sont utilisées pour l’extraction d’entités et les couches de regroupement sont utilisées pour le sous-échantillonnage. Les calques convolutifs d’ombre peuvent extraire des entités primaires telles que la texture, les bords et les contours, tandis que les calques convolutifs profonds apprennent des entités sémantiques de haut niveau.
Les CNN ont eu beaucoup de succès dans la vision par ordinateur 19,20,21. Cependant, les CNN ne parviennent pas à capturer les dépendances contextuelles à longue portée en raison du champ récepteur valide limité des couches convolutionnelles. Dans le passé, les architectures de base pour la classification d’images utilisaient principalement des CNN. Avec l’avènement de Vision Transformer (ViT)22,23, cette tendance a changé, et maintenant de nombreux modèles de pointe utilisent des transformateurs comme épine dorsale. Basé sur des patchs d’image qui ne se chevauchent pas, ViT utilise un codeur de transformateur standard25 pour modéliser globalement les relations spatiales. Le Swin Transformer24 introduit en outre des fenêtres de changement de vitesse pour apprendre les fonctionnalités. Les fenêtres de changement de vitesse apportent non seulement une plus grande efficacité, mais réduisent également considérablement la longueur de la séquence car l’attention personnelle est calculée dans la fenêtre. Dans le même temps, l’interaction entre deux fenêtres adjacentes peut se faire par l’opération de déplacement (mouvement). L’application réussie du transformateur Swin en vision par ordinateur a conduit à l’étude d’architectures basées sur des transformateurs pour l’analyse d’images par ultrasons26.
Récemment, Li et al. ont proposé une approche d’apprentissage profond28 pour la détection du cancer papillaire thyroïdien inspirée de Faster R-CNN27. Faster R-CNN est une architecture classique de détection d’objets basée sur CNN. Le Faster R-CNN original comporte quatre modules: le backbone CNN, le réseau de proposition de région (RPN), la couche de mise en commun du retour sur investissement et la tête de détection. Le backbone CNN utilise un ensemble de couches conv+bn+relu+pooling de base pour extraire les cartes d’entités de l’image d’entrée. Ensuite, les cartes d’entités sont introduites dans le RPN et la couche de regroupement de retour sur investissement. Le rôle du réseau RPN est de générer des propositions régionales. Ce module utilise softmax pour déterminer si les ancres sont positives et génère des ancres précises par régression du cadre englobant. La couche de regroupement de ROI extrait les cartes d’entités de proposition en collectant les cartes d’entités et les propositions d’entrée et alimente les cartes d’entités de proposition dans la tête de détection suivante. La tête de détection utilise les cartes d’entités de proposition pour classer les objets et obtenir des positions précises des boîtes de détection par régression du cadre englobant.
Cet article présente un nouveau réseau de détection de nodules thyroïdiens appelé Swin Faster R-CNN formé en remplaçant le réseau fédérateur CNN dans Faster R-CNN par le transformateur Swin, ce qui permet une meilleure extraction des caractéristiques de détection des nodules à partir d’images échographiques. En outre, le réseau pyramidal de caractéristiques (FPN)29 est utilisé pour améliorer les performances de détection du modèle pour les nodules de différentes tailles en agrégeant des caractéristiques de différentes échelles.
Cette étude rétrospective a été approuvée par le comité d’examen institutionnel de l’hôpital de Chine occidentale, Université du Sichuan, Sichuan, Chine, et l’exigence d’obtenir un consentement éclairé a été levée.
1. Configuration de l’environnement
2. Préparation des données
3. Configuration RCNN Swin Faster
4. Entraînement du Swin Faster R-CNN
5. Détection de nodules thyroïdiens sur de nouvelles images
Les images de la thyroïde américaine ont été recueillies dans deux hôpitaux en Chine de septembre 2008 à février 2018. Les critères d’éligibilité pour inclure les images américaines dans cette étude étaient l’examen américain conventionnel avant la biopsie et le traitement chirurgical, le diagnostic par biopsie ou pathologie postopératoire et l’âge ≥ 18 ans. Les critères d’exclusion étaient les images sans tissus thyroïdiens.
Les 3 000 images échographiques compre...
Ce document décrit en détail comment effectuer la configuration de l’environnement, la préparation des données, la configuration du modèle et la formation réseau. Dans la phase de configuration de l’environnement, il faut faire attention à ce que les bibliothèques dépendantes soient compatibles et assorties. Le traitement des données est une étape très importante; Il faut consacrer du temps et des efforts pour assurer l’exactitude des annotations. Lors de l’apprentissage du modèle, un « ModuleNotFo...
Les auteurs ne déclarent aucun conflit d’intérêts.
Cette étude a été soutenue par la Fondation nationale des sciences naturelles de Chine (subvention n ° 32101188) et le projet général du Département de la science et de la technologie de la province du Sichuan (subvention n ° 2021YFS0102), Chine.
Name | Company | Catalog Number | Comments |
GPU RTX3090 | Nvidia | 1 | 24G GPU |
mmdetection2.11.0 | SenseTime | 4 | https://github.com/open-mmlab/mmdetection.git |
python3.8 | — | 2 | https://www.python.org |
pytorch1.7.1 | 3 | https://pytorch.org |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationExplorer plus d’articles
This article has been published
Video Coming Soon