Zum Anzeigen dieser Inhalte ist ein JoVE-Abonnement erforderlich. Melden Sie sich an oder starten Sie Ihre kostenlose Testversion.
Method Article
Das vorliegende Protokoll beschreibt ein effizientes Multiorgan-Segmentierungsverfahren namens Swin-PSAxialNet, das im Vergleich zu früheren Segmentierungsmethoden eine hervorragende Genauigkeit erreicht hat. Zu den wichtigsten Schritten dieses Verfahrens gehören die Sammlung von Datensätzen, die Umgebungskonfiguration, die Datenvorverarbeitung, das Trainieren und Vergleichen von Modellen sowie Ablationsexperimente.
Die Segmentierung mehrerer Organe im Abdomen ist eines der wichtigsten Themen im Bereich der medizinischen Bildanalyse und spielt eine wichtige Rolle bei der Unterstützung klinischer Arbeitsabläufe wie der Diagnose von Krankheiten und der Behandlungsplanung. In dieser Studie wird eine effiziente Multiorgan-Segmentierungsmethode namens Swin-PSAxialNet vorgeschlagen, die auf der nnU-Net-Architektur basiert. Es wurde speziell für die präzise Segmentierung von 11 Bauchorganen in CT-Bildern entwickelt. Das vorgeschlagene Netzwerk hat im Vergleich zu nnU-Net die folgenden Verbesserungen vorgenommen. Zunächst wurden Space-to-Depth (SPD)-Module und PSAA-Merkmalsextraktionsblöcke (Parameter-Shared Axial Attention) eingeführt, die die Möglichkeiten der 3D-Bildmerkmalsextraktion verbessern. Zweitens wurde ein mehrskaliger Bildfusionsansatz verwendet, um detaillierte Informationen und räumliche Merkmale zu erfassen und die Fähigkeit zur Extraktion subtiler Merkmale und Kantenmerkmale zu verbessern. Schließlich wurde eine Methode zur gemeinsamen Nutzung von Parametern eingeführt, um die Rechenkosten und die Trainingsgeschwindigkeit des Modells zu reduzieren. Das vorgeschlagene Netzwerk erreicht einen durchschnittlichen Würfelkoeffizienten von 0,93342 für die Segmentierungsaufgabe mit 11 Organen. Experimentelle Ergebnisse zeigen die bemerkenswerte Überlegenheit von Swin-PSAxialNet gegenüber früheren gängigen Segmentierungsmethoden. Die Methode zeigt eine hervorragende Genauigkeit und einen geringen Rechenaufwand bei der Segmentierung der wichtigsten Bauchorgane.
Moderne klinische Interventionen, einschließlich der Diagnose von Krankheiten, der Formulierung von Behandlungsplänen und der Verfolgung von Behandlungsergebnissen, beruhen auf der genauen Segmentierung medizinischer Bilder1. Die komplexen strukturellen Beziehungen zwischen den Bauchorganen2machen es jedoch zu einer herausfordernden Aufgabe, eine genaue Segmentierung mehrerer Bauchorganezu erreichen 3. In den letzten Jahrzehnten haben die rasanten Entwicklungen in der medizinischen Bildgebung und im Bereich des maschinellen Sehens sowohl neue Möglichkeiten als auch Herausforderungen auf dem Gebiet der abdominalen Multiorgansegmentierung mit sich gebracht. Fortschrittliche Magnetresonanztomographie (MRT)4 und Computertomographie (CT)-Technologie5 ermöglichen es uns, hochauflösende Bilder des Abdomens zu erfassen. Die präzise Segmentierung mehrerer Organe aus CT-Bildern ist von erheblichem klinischem Wert für die Beurteilung und Behandlung lebenswichtiger Organe wie Leber, Nieren, Milz, Bauchspeicheldrüse usw.6,7,8,9,10 Die manuelle Annotation dieser anatomischen Strukturen, insbesondere solcher, die ein Eingreifen von Radiologen oder Radioonkologen erfordern, ist jedoch sowohl zeitaufwändig als auch anfällig für subjektive Einflüsse11. Daher besteht ein dringender Bedarf, automatisierte und genaue Methoden für die Segmentierung mehrerer abdominaler Organe zu entwickeln.
Frühere Forschungen zur Bildsegmentierung stützten sich hauptsächlich auf Convolutional Neural Networks (CNNs), die die Segmentierungseffizienz durch das Stapeln von Schichten und die Einführung von ResNet12 verbessern. Im Jahr 2020 führte das Google-Forschungsteam das Vision Transformer (VIT)-Modell13 ein und markierte damit ein bahnbrechendes Beispiel für die Integration der Transformer-Architektur in den traditionellen visuellen Bereich für eine Reihe von visuellen Aufgaben14. Während Faltungsoperationen nur lokale Merkmalsinformationen berücksichtigen können, ermöglicht der Aufmerksamkeitsmechanismus in Transformers die umfassende Berücksichtigung globaler Merkmalsinformationen.
In Anbetracht der Überlegenheit von Transformer-basierten Architekturen gegenüber herkömmlichen Faltungsnetzwerken15 haben zahlreiche Forschungsteams umfangreiche Untersuchungen zur Optimierung der Synergie zwischen den Stärken von Transformern und Faltungsnetzwerkendurchgeführt 16,17,18,19. Chen et al. stellten das TransUNet für medizinische Bildsegmentierungsaufgaben16 vor, das Transformer nutzt, um globale Merkmale aus Bildern zu extrahieren. Aufgrund der hohen Kosten für das Netzwerktraining und der fehlenden Nutzung des Konzepts der Merkmalsextraktionshierarchie wurden die Vorteile von Transformer nicht vollständig ausgeschöpft.
Um diese Probleme anzugehen, haben viele Forscher begonnen, mit der Integration von Transformern als Rückgrat für das Training von Segmentierungsnetzwerken zu experimentieren. Liu et al.17 stellten den Swin Transformer vor, der eine hierarchische Konstruktionsmethode für die Extraktion von geschichteten Merkmalen verwendete. Es wurde das Konzept der Windows-Multi-Head-Self-Attention (W-MSA) vorgeschlagen, das den Rechenaufwand erheblich reduziert, insbesondere bei größeren Feature-Maps auf flacher Ebene. Dieser Ansatz reduzierte zwar den Rechenaufwand, isolierte aber auch die Informationsübertragung zwischen verschiedenen Fenstern. Um dieses Problem zu lösen, führten die Autoren das Konzept der Shifted Windows Multi-Head Self-Attention (SW-MSA) ein, das die Informationsweitergabe zwischen benachbarten Fenstern ermöglicht. Aufbauend auf dieser Methodik formulierten Cao et al. das Swin-UNet18, ersetzten die 2D-Faltungen in U-Net durch Swin-Module und integrierten W-MSA und SW-MSA in die Codierungs- und Dekodierungsprozesse, was zu lobenswerten Segmentierungsergebnissen führte.
Umgekehrt betonten Zhou et al., dass der Vorteil des Conv-Betriebs bei der Verarbeitung hochauflösender Bilder nicht ignoriert werden konnte19. Ihr vorgeschlagener nnFormer verwendet eine Selbstaufmerksamkeitsberechnungsmethode, die auf lokalen dreidimensionalen Bildblöcken basiert und ein Transformer-Modell darstellt, das durch eine kreuzförmige Struktur gekennzeichnet ist. Die Nutzung von Aufmerksamkeit auf der Grundlage lokaler dreidimensionaler Blöcke reduzierte die Trainingsbelastung des Netzwerks erheblich.
Angesichts der Probleme mit der obigen Studie wird eine effiziente hybride hierarchische Struktur für die medizinische Bildsegmentierung in 3D, genannt Swin-PSAxialNet, vorgeschlagen. Dieses Verfahren umfasst einen Downsampling-Block, den Space-to-Depth (SPD)20-Block , der in der Lage ist, globale Informationen21 zu extrahieren. Darüber hinaus fügt es ein PSAA-Modul (Parameter Shared Axial Attention) hinzu, das die Anzahl der Lernparameter von quadratisch auf linear reduziert und sich positiv auf die Genauigkeit des Netzwerktrainings und die Komplexität von Trainingsmodellenauswirkt 22.
Swin-PSAxialNet-Netzwerk
Die Gesamtarchitektur des Netzwerks nimmt die U-förmige Struktur von nnU-Net23 an, die aus Encoder- und Decoderstrukturen besteht. Diese Strukturen beschäftigen sich mit der lokalen Merkmalsextraktion und der Verkettung von Merkmalen aus großen und kleinmaßstäblichen Bildern, wie in Abbildung 1 dargestellt.
Abbildung 1: Schematische Darstellung der Netzwerkarchitektur von Swin-PSAxialNet. Klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
In der Encoder-Struktur wird der traditionelle Conv-Block mit dem SPD-Block20 kombiniert, um ein Downsampling-Volumen zu bilden. Die erste Schicht des Encoders enthält Patch Embedding, ein Modul, das die 3D-Daten in 3D-Patches partitioniert, (P1, P2, P3) stellt in diesem Zusammenhang nicht überlappende Patches dar und
bedeutet die Sequenzlänge von 3D-Patches. Nach der Einbettungsschicht handelt es sich im nächsten Schritt um eine nicht überlappende Faltungs-Downsampling-Einheit, die sowohl aus einem Faltungsblock als auch aus einem SPD-Block besteht. In diesem Setup ist der Schrittwinkel des Faltungsblocks auf 1 gesetzt, und der SPD-Block wird für die Bildskalierung verwendet, was zu einer vierfachen Verringerung der Auflösung und einer zweifachen Erhöhung der Kanäle führt.
In der Decoderstruktur besteht jeder Upsampling-Block nach dem Layer Bottleneck Feature aus einer Kombination aus einem Upsampling-Block und einem PSAA-Block. Die Auflösung der Feature-Map wird um das Doppelte erhöht, und die Kanalanzahl wird zwischen den einzelnen Decoder-Paarstufen halbiert. Um räumliche Informationen wiederherzustellen und die Feature-Darstellung zu verbessern, wird die Feature-Fusion zwischen Bildern mit großem und kleinem Maßstab zwischen den Blöcken mit dem Upsampling durchgeführt. Letztendlich werden die Upsampling-Ergebnisse in die Kopfebene eingespeist, um die ursprüngliche Bildgröße mit einer Ausgabegröße von (H × B × T × C, C = 3) wiederherzustellen.
Architektur des SPD-Blocks
Bei herkömmlichen Methoden wird bei der Downsampling-Sektion ein einzelner Schritt mit einer Schrittweite von 2 verwendet. Dies beinhaltet Convolutional Pooling an lokalen Positionen im Bild, die Begrenzung des rezeptiven Feldes und die Beschränkung des Modells auf die Extraktion von Merkmalen aus kleinen Bildflecken. Bei dieser Methode wird der SPD-Block verwendet, der das Originalbild fein in drei Dimensionen unterteilt. Das ursprüngliche 3D-Bild wird gleichmäßig entlang der x-, y- und z-Achse segmentiert, was zu vier Subvolumenkörpern führt. (Abbildung 2) Anschließend werden die vier Volumina durch die "Kat"-Operation verkettet, und das resultierende Bild erfährt eine 1 × 1 × 1 Faltung, um das heruntergesampelte Bild20 zu erhalten.
Abbildung 2: SPD-Blockdiagramm. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
PSAA-Blockarchitektur
Im Gegensatz zu traditionellen CNN-Netzwerken ist der vorgeschlagene PSAA-Block effektiver bei der globalen Informationsfokussierung und effizienter beim Lernen und Trainieren von Netzwerken. Dies ermöglicht die Erfassung von reichhaltigeren Bildern und räumlichen Merkmalen. Der PSAA-Block umfasst axiales Aufmerksamkeitslernen basierend auf Parametern, die in drei Dimensionen geteilt werden: Höhe, Breite und Tiefe. Im Vergleich zum herkömmlichen Aufmerksamkeitsmechanismus, der Aufmerksamkeitslernen für jedes Pixel im Bild durchführt, führt diese Methode unabhängig voneinander Aufmerksamkeitslernen für jede der drei Dimensionen durch, wodurch die Komplexität der Selbstaufmerksamkeit von quadratisch zu linear reduziert wird. Darüber hinaus wird ein erlernbarer Mechanismus zur gemeinsamen Nutzung von Schlüsselabfragen verwendet, der es dem Netzwerk ermöglicht, Aufmerksamkeitsmechanismusoperationen parallel über die drei Dimensionen durchzuführen, was zu einer schnelleren, überlegeneren und effektiveren Merkmalsdarstellung führt.
Das vorliegende Protokoll wurde von der Ethikkommission der Universität Nantong genehmigt. Es geht um die intelligente Bewertung und Erforschung von erfassten nicht-invasiven oder minimal-invasiven multimodalen Daten, einschließlich medizinischer Bilder des Menschen, Bewegungen von Gliedmaßen und vaskulärer Bildgebung, unter Verwendung von Technologie der künstlichen Intelligenz. Abbildung 3 zeigt das Gesamtflussdiagramm der Multiorgansegmentierung. Alle notwendigen Weblinks finden Sie in der Materialtabelle.
Abbildung 3: Gesamtflussdiagramm der Multiorgansegmentierung. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
1. Sammlung von Datensätzen
2. Konfiguration der Umgebung
3. Datenvorverarbeitung
4. Modelltraining und -vergleich
HINWEIS: Als weit verbreitete Baseline im Bereich der Bildsegmentierung dient nnU-Net23 als Baseline-Modell in der Studie. Der spezifische Modellvergleichsprozess ist wie folgt.
5. Ablationsversuch
Dieses Protokoll verwendet zwei Metriken, um das Modell zu bewerten: Dice Similarity Score (DSC) und 95% Hausdorff Distance (HD95). DSC misst die Überlappung zwischen Voxelsegmentierungsvorhersagen und Ground Truth, während 95 % HD die Überlappung zwischen den Grenzen der Voxelsegmentierungsvorhersage und der Ground Truth bewertet und 5 % der Ausreißer herausfiltert. Die Definition von DSC26 lautet wie folgt:
Die Segmentierung von Bauchorganen ist eine komplizierte Arbeit. Im Vergleich zu anderen inneren Strukturen des menschlichen Körpers, wie dem Gehirn oder dem Herzen, scheint die Segmentierung von Bauchorganen aufgrund des geringen Kontrasts und der großen Formveränderungen in CT-Bildern schwieriger zu sein27,28. Swin-PSAxialNet wird hier vorgeschlagen, um dieses schwierige Problem zu lösen.
Im Schr...
Die Autoren erklären, dass keine Interessenkonflikte bestehen.
Diese Studie wurde unterstützt durch das '333' Engineering Project der Provinz Jiangsu ([2022]21-003), das Wuxi Health Commission General Program (M202205) und den Wuxi Science and Technology Development Fund (Y20212002-1), deren Beiträge für den Erfolg dieser Arbeit von unschätzbarem Wert waren." Die Autorinnen und Autoren danken allen wissenschaftlichen Mitarbeiterinnen und Mitarbeitern sowie den Studienteilnehmerinnen und -teilnehmern für ihre Unterstützung.
Name | Company | Catalog Number | Comments |
AMOS2022 dataset | None | None | Datasets for network training and testing. The weblink is: https://pan.baidu.com/s/1x2ZW5FiZtVap0er55Wk4VQ?pwd=xhpb |
ASUS mainframe | ASUS | https://www.asusparts.eu/en/asus-13020-01910200 | |
CUDA version 11.7 | NVIDIA | https://developer.nvidia.com/cuda-11-7-0-download-archive | |
NVIDIA GeForce RTX 3090 | NVIDIA | https://www.nvidia.com/en-in/geforce/graphics-cards/30-series/rtx-3090-3090ti/ | |
Paddlepaddle environment | Baidu | None | Environmental preparation for network training. The weblink is: https://www.paddlepaddle.org.cn/ |
PaddleSeg | Baidu | None | The baseline we use: https://github.com/PaddlePaddle/PaddleSeg |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten