É necessária uma assinatura da JoVE para visualizar este conteúdo. Faça login ou comece sua avaliação gratuita.
Method Article
Aqui, um novo modelo para detecção de nódulos tireoidianos em imagens de ultrassom é proposto, que usa o transformador Swin como espinha dorsal para realizar modelagem de contexto de longo alcance. Experimentos provam que ele tem um bom desempenho em termos de sensibilidade e precisão.
Nos últimos anos, a incidência do câncer de tireoide vem aumentando. A detecção de nódulos tireoidianos é fundamental tanto para a detecção quanto para o tratamento do câncer de tireoide. Redes neurais convolucionais (CNNs) têm alcançado bons resultados em tarefas de análise de imagens de ultrassom da tireoide. No entanto, devido ao limitado campo receptivo válido das camadas convolucionais, as CNNs não conseguem capturar dependências contextuais de longo alcance, que são importantes para identificar nódulos tireoidianos em imagens de ultrassonografia. As redes de transformadores são eficazes na captura de informações contextuais de longo alcance. Inspirados por isso, propomos um novo método de detecção de nódulos tireoidianos que combina o backbone Swin Transformer e o R-CNN mais rápido. Especificamente, uma imagem de ultrassom é primeiramente projetada em uma sequência 1D de incorporações, que são então alimentadas em um transformador Swin hierárquico.
O backbone Swin Transformer extrai recursos em cinco escalas diferentes, utilizando janelas deslocadas para o cálculo da autoatenção. Posteriormente, uma rede de pirâmide de recursos (FPN) é usada para fundir os recursos de diferentes escalas. Finalmente, uma cabeça de detecção é usada para prever caixas delimitadoras e os escores de confiança correspondentes. Dados coletados de 2.680 pacientes foram usados para conduzir os experimentos, e os resultados mostraram que esse método alcançou o melhor escore de mAP de 44,8%, superando as linhas de base baseadas na CNN. Além disso, ganhamos melhor sensibilidade (90,5%) que os concorrentes. Isso indica que a modelagem de contexto nesse modelo é eficaz para a detecção de nódulos tireoidianos.
A incidência do câncer de tireoide tem aumentado rapidamente desde 1970, especialmente entre mulheres de meia-idade1. Nódulos tireoidianos podem predizer o surgimento de câncer de tireoide, e a maioria dos nódulos tireoidianos é assintomática2. A detecção precoce de nódulos tireoidianos é muito útil na cura do câncer de tireoide. Portanto, de acordo com as diretrizes atuais de prática, todos os pacientes com suspeita de bócio nodular ao exame físico ou com achados de imagem anormais devem ser submetidos a exames complementares 3,4.
A ultrassonografia (US) tireoidiana é um método comumente utilizado para detectar e caracterizar lesões tireoidianas5,6. Os EUA são uma tecnologia conveniente, barata e livre de radiação. Entretanto, a aplicação da US é facilmente afetada pelo operador 7,8. Características como forma, tamanho, ecogenicidade e textura dos nódulos tireoidianos são facilmente distinguíveis nas imagens ultrassonográficas. Embora certas características ultrassonográficas - calcificações, ecogenicidade e bordas irregulares - sejam frequentemente consideradas critérios para identificação de nódulos tireoidianos, a presença de variabilidade interobservador éinevitável8,9. Os resultados diagnósticos de radiologistas com diferentes níveis de experiência são diferentes. Radiologistas inexperientes são mais propensos a diagnosticar erroneamente do que radiologistas experientes. Algumas características do US como reflexos, sombras e ecos podem degradar a qualidade da imagem. Essa degradação na qualidade da imagem causada pela natureza da US dificulta a localização precisa dos nódulos, mesmo por médicos experientes.
O diagnóstico auxiliado por computador (DAC) para nódulos tireoidianos desenvolveu-se rapidamente nos últimos anos e pode efetivamente reduzir os erros causados por diferentes médicos e ajudar os radiologistas a diagnosticar nódulos de forma rápida e precisa10,11. Vários sistemas CAD baseados em CNN têm sido propostos para análise de nódulos na US tireoidiana, incluindo segmentação12,13, detecção14,15 eclassificação16,17. A CNN é um modelo de aprendizagem supervisionadomulticamadas 18, e os módulos principais da CNN são as camadas de convolução e pooling. As camadas de convolução são usadas para extração de feição, e as camadas de agrupamento são usadas para downsampling. As camadas convolucionais de sombra podem extrair características primárias, como textura, bordas e contornos, enquanto as camadas convolucionais profundas aprendem características semânticas de alto nível.
As CNNs têm tido grande sucesso em visão computacional 19,20,21. No entanto, as CNNs não conseguem capturar dependências contextuais de longo alcance devido ao limitado campo receptivo válido das camadas convolucionais. No passado, as arquiteturas de backbone para classificação de imagens usavam principalmente CNNs. Com o advento do Vision Transformer (ViT)22,23, essa tendência mudou, e agora muitos modelos de última geração utilizam transformadores como backbone. Com base em patches de imagem não sobrepostos, o ViT usa um codificador de transformadorpadrão 25 para modelar globalmente as relações espaciais. O Swin Transformer24 introduz ainda janelas de mudança para aprender recursos. As janelas de mudança não só trazem maior eficiência, mas também reduzem muito o comprimento da sequência, porque a autoatenção é calculada na janela. Ao mesmo tempo, a interação entre duas janelas adjacentes pode ser feita através da operação de deslocamento (movimento). A aplicação bem sucedida do transformador Swin em visão computacional levou à investigação de arquiteturas baseadas em transformadores para análise de imagens deultrassom26.
Recentemente, Li e col. propuseram uma abordagem de aprendizado profundo28 para detecção de câncer papilar de tireoide inspirada no Faster R-CNN27. O R-CNN mais rápido é uma arquitetura clássica de detecção de objetos baseada na CNN. O Faster R-CNN original tem quatro módulos: o backbone CNN, a rede de proposta de região (RPN), a camada de pool de ROI e o cabeçote de detecção. O backbone da CNN usa um conjunto de camadas básicas conv+bn+relu+pooling para extrair mapas de feição da imagem de entrada. Em seguida, os mapas de feição são alimentados na camada de pool de RPN e ROI. O papel da rede RPN é gerar propostas regionais. Este módulo usa softmax para determinar se as âncoras são positivas e gera âncoras precisas por regressão de caixa delimitadora. A camada de pool de ROI extrai os mapas de feição da proposta coletando os mapas de feição de entrada e as propostas e alimenta os mapas de feição da proposta no cabeçalho de detecção subsequente. A cabeça de detecção usa os mapas de recursos propostos para classificar objetos e obter posições precisas das caixas de detecção por regressão de caixa delimitadora.
Este trabalho apresenta uma nova rede de detecção de nódulos tireoidianos denominada Swin Faster R-CNN formada pela substituição do backbone CNN em Faster R-CNN pelo Swin Transformer, que resulta na melhor extração de recursos para detecção de nódulos a partir de imagens de ultrassom. Além disso, a rede de pirâmide característica (FPN)29 é utilizada para melhorar o desempenho de detecção do modelo para nódulos de diferentes tamanhos, agregando características de diferentes escalas.
Este estudo retrospectivo foi aprovado pelo comitê de revisão institucional do West China Hospital, Sichuan University, Sichuan, China, e a exigência de obtenção de consentimento informado foi dispensada.
1. Configuração do ambiente
2. Preparação dos dados
3. Configuração RCNN mais rápida do Swin
4. Treinando o Swin Faster R-CNN
5. Realização da detecção de nódulos tireoidianos em novas imagens
As imagens da tireoide foram coletadas de dois hospitais na China de setembro de 2008 a fevereiro de 2018. Os critérios de elegibilidade para inclusão das imagens ultrassonográficas neste estudo foram exame ultrassonográfico convencional antes da biópsia e tratamento cirúrgico, diagnóstico com biópsia ou patologia pós-cirúrgica e idade ≥ 18 anos. Os critérios de exclusão foram imagens sem tecido tireoidiano.
As 3.000 imagens ultrassonográficas incluíram 1.384 nódulos malignos ...
Este documento descreve em detalhes como executar a configuração do ambiente, a preparação de dados, a configuração do modelo e o treinamento de rede. Na fase de configuração do ambiente, é preciso prestar atenção para garantir que as bibliotecas dependentes sejam compatíveis e correspondidas. O processamento de dados é um passo muito importante; Tempo e esforço devem ser gastos para garantir a precisão das anotações. Ao treinar o modelo, um "ModuleNotFoundError" pode ser encontrado. Nesse caso, é neces...
Os autores declaram não haver conflitos de interesse.
Este estudo foi apoiado pela Fundação Nacional de Ciências Naturais da China (Grant No.32101188) e pelo Projeto Geral do Departamento de Ciência e Tecnologia da Província de Sichuan (Grant No. 2021YFS0102), China.
Name | Company | Catalog Number | Comments |
GPU RTX3090 | Nvidia | 1 | 24G GPU |
mmdetection2.11.0 | SenseTime | 4 | https://github.com/open-mmlab/mmdetection.git |
python3.8 | — | 2 | https://www.python.org |
pytorch1.7.1 | 3 | https://pytorch.org |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados