Method Article
Hierbei handelt es sich um ein Verfahren zum Trainieren eines Mehrschicht-U-Netzes für die Mehrklassensegmentierung von Kryo-Elektronen-Tomogrammen, wobei ein Teil eines Tomogramms als Trainingseingabe verwendet wird. Wir beschreiben, wie man dieses Netzwerk auf andere Tomogramme ableiten kann und wie man Segmentierungen für weitere Analysen extrahiert, wie z.B. Subtomogramm-Mittelung und Filament-Tracing.
Die Kryo-Elektronentomographie (Kryo-ET) ermöglicht es Forschern, Zellen in ihrem nativen, hydratisierten Zustand mit der höchstmöglichen Auflösung abzubilden. Die Technik hat jedoch mehrere Einschränkungen, die die Analyse der generierten Daten zeitintensiv und schwierig machen. Die manuelle Segmentierung eines einzelnen Tomogramms kann Stunden bis Tage dauern, aber ein Mikroskop kann leicht 50 oder mehr Tomogramme pro Tag erzeugen. Aktuelle Deep-Learning-Segmentierungsprogramme für Kryo-ET existieren zwar, beschränken sich jedoch auf die Segmentierung einer Struktur nach der anderen. Hier werden Multi-Slice-U-Net-Faltungsneuronale Netze trainiert und angewendet, um automatisch mehrere Strukturen gleichzeitig innerhalb von Kryo-Tomogrammen zu segmentieren. Mit der richtigen Vorverarbeitung können diese Netzwerke robust auf viele Tomogramme abgeleitet werden, ohne dass einzelne Netzwerke für jedes Tomogramm trainiert werden müssen. Dieser Arbeitsablauf verbessert die Geschwindigkeit, mit der Kryo-Elektronen-Tomogramme analysiert werden können, erheblich, indem die Segmentierungszeit in den meisten Fällen auf unter 30 Minuten verkürzt wird. Darüber hinaus können Segmentierungen verwendet werden, um die Genauigkeit der Filamentverfolgung innerhalb eines zellulären Kontexts zu verbessern und Koordinaten für die Subtomogrammmittelung schnell zu extrahieren.
Hardware- und Softwareentwicklungen des letzten Jahrzehnts haben zu einer "Auflösungsrevolution" für die Kryo-Elektronenmikroskopie (Kryo-EM) geführt1,2. Mit besseren und schnelleren Detektoren3, Software zur Automatisierung der Datenerfassung 4,5 und Fortschritten bei der Signalverstärkung wie den Phasenplatten6 ist das Sammeln großer Mengen hochauflösender Kryo-EM-Daten relativ einfach.
Cryo-ET liefert einen beispiellosen Einblick in die zelluläre Ultrastruktur in einem nativen, hydratisierten Zustand 7,8,9,10. Die primäre Einschränkung ist die Probendicke, aber mit der Einführung von Methoden wie dem Mahlen mit fokussiertem Ionenstrahl (FIB), bei dem dicke Zell- und Gewebeproben für die Tomographie11 verdünnt werden, erweitert sich der Horizont für das, was mit Kryo-ET abgebildet werden kann, ständig. Die neuesten Mikroskope sind in der Lage, weit über 50 Tomogramme pro Tag zu produzieren, und diese Rate wird aufgrund der Entwicklung schneller Datenerfassungssysteme voraussichtlich nur noch zunehmen12,13. Die Analyse der riesigen Datenmengen, die von Kryo-ET erzeugt werden, bleibt ein Engpass für diese Bildgebungsmodalität.
Die quantitative Analyse von tomographischen Informationen erfordert, dass sie zuerst annotiert werden. Traditionell erfordert dies eine manuelle Segmentierung durch einen Experten, was zeitaufwändig ist. Abhängig von der molekularen Komplexität, die im Kryo-Tomogramm enthalten ist, kann es Stunden bis Tage dauern. Künstliche neuronale Netze sind eine attraktive Lösung für dieses Problem, da sie trainiert werden können, um den Großteil der Segmentierungsarbeit in einem Bruchteil der Zeit zu erledigen. Convolutional Neural Networks (CNNs) eignen sich besonders für Computer-Vision-Aufgaben14 und wurden kürzlich für die Analyse von Kryo-Elektronen-Tomogrammenangepasst 15,16,17.
Herkömmliche CNNs benötigen viele tausend annotierte Trainingsproben, was für biologische Bildanalyseaufgaben oft nicht möglich ist. Daher hat sich die U-Net-Architektur in diesem Bereich18 hervorgetan, da sie auf Datenerweiterung angewiesen ist, um das Netzwerk erfolgreich zu trainieren und die Abhängigkeit von großen Trainingssätzen zu minimieren. Beispielsweise kann eine U-Net-Architektur mit nur wenigen Schichten eines einzelnen Tomogramms (vier oder fünf Schichten) trainiert und ohne erneutes Training robust auf andere Tomogramme abgeleitet werden. Dieses Protokoll bietet eine Schritt-für-Schritt-Anleitung für das Training neuronaler Netzwerkarchitekturen von U-Net zur Segmentierung von Elektronenkryo-Tomogrammen in Dragonfly 2022.119.
Dragonfly ist eine kommerziell entwickelte Software, die für die 3D-Bildsegmentierung und -analyse durch Deep-Learning-Modelle verwendet wird und für den akademischen Gebrauch frei verfügbar ist (es gelten einige geografische Einschränkungen). Es verfügt über eine fortschrittliche grafische Oberfläche, die es einem Nicht-Experten ermöglicht, die Möglichkeiten des Deep Learning sowohl für die semantische Segmentierung als auch für die Rauschunterdrückung von Bildern voll auszuschöpfen. Dieses Protokoll demonstriert, wie Kryo-Elektronen-Tomogramme in Dragonfly vorverarbeitet und annotiert werden, um künstliche neuronale Netze zu trainieren, die dann abgeleitet werden können, um große Datensätze schnell zu segmentieren. Darüber hinaus wird erläutert und kurz demonstriert, wie segmentierte Daten für weitere Analysen verwendet werden können, z. B. für die Filamentverfolgung und die Koordinatenextraktion für die Mittelung von Subtomogrammen.
HINWEIS: Dragonfly 2022.1 erfordert eine leistungsstarke Workstation. Systemempfehlungen sind zusammen mit der Hardware der für dieses Protokoll verwendeten Workstation in der Materialtabelle enthalten. Alle Tomogramme, die in diesem Protokoll verwendet werden, werden 4x von einer Pixelgröße von 3,3 bis 13,2 ang/pix gebündelt. Die in den repräsentativen Ergebnissen verwendeten Proben stammen von einem Unternehmen (siehe Materialtabelle), das Tierpflegerichtlinien befolgt, die sich an den ethischen Standards dieser Institution orientieren. Das in diesem Protokoll verwendete Tomogramm und der Multi-ROI, der als Trainingseingabe generiert wurde, wurden als gebündelter Datensatz in die Ergänzungsdatei 1 (die unter https://datadryad.org/stash/dataset/doi:10.5061/dryad.rxwdbrvct zu finden ist) aufgenommen, so dass der Benutzer auf Wunsch mit denselben Daten nachvollziehen kann. Dragonfly hostet auch eine Open-Access-Datenbank namens Infinite Toolbox, in der Benutzer trainierte Netzwerke gemeinsam nutzen können.
1. Einrichtung
2. Bild-Import
3. Vorverarbeitung (Abbildung 1.1)
4. Trainingsdaten erstellen (Abbildung 1.2)
5. Verwenden des Segmentierungsassistenten für iteratives Training (Abbildung 1.3)
6. Anwenden des Netzwerks (Abbildung 1.4)
7. Manipulation und Bereinigung der Segmentierung
8. Generieren von Koordinaten für die Sub-Tomogramm-Mittelung aus dem ROI
9. Transformation der Wasserscheide
Abbildung 1: Arbeitsablauf. 1) Vorverarbeitung des Trainingstomogramms, indem Sie die Intensitätsskala kalibrieren und den Datensatz filtern. 2) Erstellen Sie die Trainingsdaten, indem Sie einen kleinen Teil eines Tomogramms mit allen geeigneten Beschriftungen, die der Benutzer identifizieren möchte, von Hand segmentieren. 3) Unter Verwendung des gefilterten Tomogramms als Eingabe und der Handsegmentierung als Trainingsausgabe wird ein fünfschichtiges Mehrschicht-U-Net mit mehreren Schichten im Segmentierungsassistenten trainiert. 4) Das trainierte Netzwerk kann auf das vollständige Tomogramm angewendet werden, um es zu kommentieren, und aus jeder segmentierten Klasse kann ein 3D-Rendering generiert werden. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Im Anschluss an das Protokoll wurde ein Fünf-Schicht-U-Net mit einem einzigen Tomogramm (Abbildung 2A) trainiert, um fünf Klassen zu identifizieren: Membran, Mikrotubuli, Aktin, Passermarker und Hintergrund. Das Netzwerk wurde insgesamt dreimal iterativ trainiert und dann auf das Tomogramm angewendet, um es vollständig zu segmentieren und zu annotieren (Abbildung 2B, C). Die minimale Bereinigung wurde mit den Schritten 7.1 und 7.2 durchgeführt. Die nächsten drei interessierenden Tomogramme (Abbildung 2D, G, J) wurden zur Vorverarbeitung in die Software geladen. Vor dem Bildimport musste eines der Tomogramme (Abbildung 2J) die Pixelgröße von 17,22 Å/px auf 13,3 Å/px anpassen, da es mit einem anderen Mikroskop bei einer etwas anderen Vergrößerung aufgenommen wurde. Das IMOD-Programm squeezevol wurde zum Ändern der Größe mit folgendem Befehl verwendet:
'squeezevol -f 0.772 inputfile.mrc outputfile.mrc'
In diesem Befehl bezieht sich -f auf den Faktor, um den die Pixelgröße geändert werden soll (in diesem Fall: 13,3/17,22). Nach dem Import wurden alle drei Inferenzziele gemäß den Schritten 3.2 und 3.3 vorverarbeitet, und dann wurde das Fünf-Schicht-U-Net angewendet. Es wurden erneut minimale Aufräumarbeiten durchgeführt. Die endgültigen Segmentierungen sind in Abbildung 2 dargestellt.
Mikrotubuli-Segmentierungen aus jedem Tomogramm wurden als binäre (Schritt 7.4) TIF-Dateien exportiert, in MRC (IMOD tif2mrc-Programm ) konvertiert und dann für die Zylinderkorrelation und Filamentverfolgung verwendet. Binäre Segmentierungen von Filamenten führen zu einer viel robusteren Filamentverfolgung als die Verfolgung über Tomogramme. Koordinatenkarten aus der Filamentverfolgung (Abbildung 3) werden für weitere Analysen verwendet, wie z. B. Messungen des nächsten Nachbarn (Filamentpackung) und helikale Subtomogramm-Mittelung entlang einzelner Filamente, um die Orientierung der Mikrotubuli zu bestimmen.
Erfolglose oder unzureichend trainierte Netzwerke sind leicht zu ermitteln. Ein ausgefallenes Netzwerk ist überhaupt nicht in der Lage, Strukturen zu segmentieren, während ein unzureichend trainiertes Netzwerk in der Regel einige Strukturen korrekt segmentiert und eine beträchtliche Anzahl von Fehlalarmen und Fehlalarmen aufweist. Diese Netzwerke können korrigiert und iterativ trainiert werden, um ihre Leistung zu verbessern. Der Segmentierungsassistent berechnet automatisch den Würfelähnlichkeitskoeffizienten eines Modells (im SegWiz als Punktzahl bezeichnet), nachdem es trainiert wurde. Diese Statistik gibt eine Schätzung der Ähnlichkeit zwischen den Trainingsdaten und der U-Net-Segmentierung an. Dragonfly 2022.1 verfügt außerdem über ein integriertes Tool zur Bewertung der Leistung eines Modells, auf das auf der Registerkarte "Künstliche Intelligenz " oben auf der Benutzeroberfläche zugegriffen werden kann (siehe Dokumentation zur Verwendung).
Abbildung 2: Inferenz. (A-C) Originales Trainingstomogramm eines DIV 5 Hippocampus-Rattenneurons, aufgenommen 2019 an einem Titan Krios. Dies ist eine rückprojizierte Rekonstruktion mit CTF-Korrektur in IMOD. (A) Das gelbe Kästchen stellt den Bereich dar, in dem die manuelle Segmentierung für die Trainingseingabe durchgeführt wurde. (B) 2D-Segmentierung aus dem U-Net nach Abschluss des Trainings. (C) 3D-Darstellung der segmentierten Regionen mit Membran (blau), Mikrotubuli (grün) und Aktin (rot). (D-F) DIV 5 Hippocampus-Rattenneuron aus der gleichen Sitzung wie das Trainingstomogramm. (E) 2D-Segmentierung aus dem U-Net ohne zusätzliche Schulung und schnelle Bereinigung. Membran (blau), Mikrotubuli (grün), Aktin (rot), Passermarken (rosa). (F) 3D-Rendering der segmentierten Bereiche. (G-I) DIV 5 Hippocampus-Rattenneuron aus der Sitzung 2019. (H) 2D-Segmentierung aus dem U-Net mit schneller Bereinigung und (I) 3D-Rendering. (J-L) DIV 5 Hippocampus-Rattenneuron, gesammelt im Jahr 2021 auf einem anderen Titan Krios mit einer anderen Vergrößerung. Die Pixelgröße wurde mit dem IMOD-Programm squeezevol an das Trainingstomogramm angepasst. (K) 2D-Segmentierung aus dem U-Net mit schneller Bereinigung, die eine robuste Inferenz über Datensätze hinweg mit ordnungsgemäßer Vorverarbeitung demonstriert, und (L) 3D-Rendering der Segmentierung. Maßstabsbalken = 100 nm. Abkürzungen: DIV = Tage in vitro; CTF = Kontrastübertragungsfunktion. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.
Abbildung 3: Verbesserung der Filamentverfolgung . (A) Tomogramm eines DIV 4 Ratten-Hippocampus-Neurons, gesammelt auf einem Titan Krios. (B) Korrelationskarte, die aus der Zylinderkorrelation über Aktinfilamenten generiert wurde. (C) Filamentverfolgung von Aktin unter Verwendung der Intensitäten der Aktinfilamente in der Korrelationskarte zur Definition von Parametern. Bei der Verfolgung werden die Membran und die Mikrotubuli sowie das Rauschen erfasst, während versucht wird, nur Aktin zu verfolgen. (D) U-Net-Segmentierung des Tomogramms. Membran blau hervorgehoben, Mikrotubuli rot, Ribosomen orange, triC lila und Aktin grün. (E) Aktin-Segmentierung, extrahiert als binäre Maske für die Filamentverfolgung. (F) Korrelationskarte, die aus der Zylinderkorrelation mit den gleichen Parametern aus (B) generiert wurde. (G) Signifikant verbesserte Filamentverfolgung von reinen Aktinfilamenten aus dem Tomogramm. Abkürzung: DIV = Tage in vitro. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.
Ergänzende Datei 1: Das in diesem Protokoll verwendete Tomogramm und der Multi-ROI, der als Trainingseingabe generiert wurde, sind als gebündelter Datensatz (Training.ORSObject) enthalten. Siehe https://datadryad.org/stash/dataset/doi:10.5061/dryad.rxwdbrvct.
Dieses Protokoll legt ein Verfahren für die Verwendung der Software Dragonfly 2022.1 fest, um ein U-Net mit mehreren Klassen aus einem einzelnen Tomogramm zu trainieren, und wie dieses Netzwerk auf andere Tomogramme abgeleitet werden kann, die nicht aus demselben Datensatz stammen müssen. Das Training ist relativ schnell (kann so schnell wie 3-5 Minuten pro Epoche oder so langsam wie ein paar Stunden sein, abhängig von dem Netzwerk, das trainiert wird, und der verwendeten Hardware), und das Umtrainieren eines Netzwerks zur Verbesserung seines Lernens ist intuitiv. Solange die Vorverarbeitungsschritte für jedes Tomogramm durchgeführt werden, ist die Inferenz in der Regel robust.
Eine konsistente Vorverarbeitung ist der wichtigste Schritt für die Deep-Learning-Inferenz. Es gibt viele Bildfilter in der Software und der Benutzer kann experimentieren, um festzustellen, welche Filter für bestimmte Datensätze am besten geeignet sind. Beachten Sie, dass die Filterung, die für das Trainingstomogramm verwendet wird, auf die gleiche Weise auf die Inferenztomogramme angewendet werden muss. Es muss auch darauf geachtet werden, dass das Netzwerk mit genauen und ausreichenden Schulungsinformationen versorgt wird. Es ist wichtig, dass alle Merkmale, die innerhalb der Trainingsscheiben segmentiert sind, so sorgfältig und präzise wie möglich segmentiert werden.
Die Bildsegmentierung wird durch eine ausgeklügelte Benutzeroberfläche in kommerzieller Qualität erleichtert. Es bietet alle notwendigen Werkzeuge für die Handsegmentierung und ermöglicht die einfache Neuzuweisung von Voxeln von einer Klasse in eine andere vor dem Training und der Umschulung. Der Benutzer kann Voxel innerhalb des gesamten Kontexts des Tomogramms von Hand segmentieren, und er erhält mehrere Ansichten und die Möglichkeit, das Volumen frei zu drehen. Darüber hinaus bietet die Software die Möglichkeit, Multi-Class-Netzwerke zu verwenden, die tendenziell eine bessere Leistungerbringen 16 und schneller sind als die Segmentierung mit mehreren Single-Class-Netzwerken.
Natürlich gibt es Einschränkungen für die Fähigkeiten eines neuronalen Netzes. Kryo-ET-Daten sind von Natur aus sehr verrauscht und in der Winkelabtastung begrenzt, was zu orientierungsspezifischen Verzerrungen bei identischen Objekten führt21. Das Training beruht auf einem Experten, der Strukturen genau von Hand segmentiert, und ein erfolgreiches Netzwerk ist nur so gut (oder so schlecht) wie die Trainingsdaten, die es erhält. Die Bildfilterung zur Signalverstärkung ist für den Trainer hilfreich, aber es gibt immer noch viele Fälle, in denen es schwierig ist, alle Pixel einer bestimmten Struktur genau zu identifizieren. Es ist daher wichtig, dass bei der Erstellung der Trainingssegmentierung große Sorgfalt walten gelassen wird, damit das Netzwerk die bestmöglichen Informationen hat, um während des Trainings zu lernen.
Dieser Workflow kann leicht an die Vorlieben jedes Benutzers angepasst werden. Es ist zwar wichtig, dass alle Tomogramme auf die gleiche Weise vorverarbeitet werden, es ist jedoch nicht erforderlich, die genauen Filter zu verwenden, die im Protokoll verwendet werden. Die Software verfügt über zahlreiche Bildfilteroptionen, und es wird empfohlen, diese für die jeweiligen Daten des Benutzers zu optimieren, bevor Sie sich auf ein großes Segmentierungsprojekt mit vielen Tomogrammen einlassen. Es gibt auch eine ganze Reihe von Netzwerkarchitekturen, die verwendet werden können: Es wurde festgestellt, dass ein Multi-Slice-U-Net für die Daten aus diesem Labor am besten geeignet ist, aber ein anderer Benutzer könnte feststellen, dass eine andere Architektur (z. B. ein 3D-U-Net oder ein Sensor 3D) besser funktioniert. Der Segmentierungsassistent bietet eine komfortable Schnittstelle zum Vergleich der Leistung mehrerer Netzwerke mit denselben Trainingsdaten.
Tools wie die hier vorgestellten werden die manuelle Segmentierung von Volltomogrammen zu einer Aufgabe der Vergangenheit machen. Mit gut trainierten neuronalen Netzen, die robust ableger sind, ist es durchaus möglich, einen Arbeitsablauf zu erstellen, bei dem tomographische Daten so schnell rekonstruiert, verarbeitet und vollständig segmentiert werden, wie das Mikroskop sie erfassen kann.
Die Open-Access-Lizenz für dieses Protokoll wurde von Object Research Systems bezahlt.
Diese Studie wurde vom Penn State College of Medicine und der Abteilung für Biochemie und Molekularbiologie sowie vom Tobacco Settlement Fund (TSF) Grant 4100079742-EXT unterstützt. Die in diesem Projekt verwendeten CryoEM- und CryoET-Core-Dienste und -Instrumente (RRID:SCR_021178) wurden teilweise vom Pennsylvania State University College of Medicine über das Büro des Vizedekans für Forschung und Doktoranden und das Pennsylvania Department of Health mit Tobacco Settlement Funds (CURE) finanziert. Der Inhalt liegt ausschließlich in der Verantwortung der Autoren und spiegelt nicht unbedingt die offiziellen Ansichten der Universität oder des College of Medicine wider. Das Gesundheitsministerium von Pennsylvania lehnt ausdrücklich die Verantwortung für Analysen, Interpretationen oder Schlussfolgerungen ab.
Name | Company | Catalog Number | Comments |
Dragonfly 2022.1 | Object Research Systems | https://www.theobjects.com/dragonfly/index.html | |
E18 Rat Dissociated Hippocampus | Transnetyx Tissue | KTSDEDHP | https://tissue.transnetyx.com/faqs |
IMOD | University of Colorado | https://bio3d.colorado.edu/imod/ | |
Intel® Xeon® Gold 6124 CPU 3.2GHz | Intel | https://www.intel.com/content/www/us/en/products/sku/120493/intel-xeon-gold-6134-processor-24-75m-cache-3-20-ghz/specifications.html | |
NVIDIA Quadro P4000 | NVIDIA | https://www.nvidia.com/content/dam/en-zz/Solutions/design-visualization/productspage/quadro/quadro-desktop/quadro-pascal-p4000-data-sheet-a4-nvidia-704358-r2-web.pdf | |
Windows 10 Enterprise 2016 | Microsoft | https://www.microsoft.com/en-us/evalcenter/evaluate-windows-10-enterprise | |
Workstation Minimum Requirements | https://theobjects.com/dragonfly/system-requirements.html |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten