Method Article
Il s’agit d’une méthode d’entraînement d’un U-Net multi-coupes pour la segmentation multi-classe de tomogrammes cryo-électroniques en utilisant une partie d’un tomogramme comme entrée d’apprentissage. Nous décrivons comment déduire ce réseau à d’autres tomogrammes et comment extraire des segmentations pour des analyses plus approfondies, telles que la moyenne des sous-tomogrammes et le traçage filamentaire.
La cryotomographie électronique (cryo-ET) permet aux chercheurs d’imager les cellules dans leur état natif et hydraté à la plus haute résolution actuellement possible. La technique présente toutefois plusieurs limites qui rendent l’analyse des données qu’elle génère longue et difficile. La segmentation manuelle d’un seul tomogramme peut prendre de quelques heures à plusieurs jours, mais un microscope peut facilement générer 50 tomogrammes ou plus par jour. Les programmes actuels de segmentation de l’apprentissage profond pour les cryo-ET existent, mais se limitent à segmenter une structure à la fois. Ici, les réseaux neuronaux convolutifs U-Net multi-coupes sont entraînés et appliqués pour segmenter automatiquement plusieurs structures simultanément dans des cryo-tomogrammes. Avec un prétraitement approprié, ces réseaux peuvent être déduits de manière robuste à de nombreux tomogrammes sans avoir besoin de former des réseaux individuels pour chaque tomogramme. Ce flux de travail améliore considérablement la vitesse à laquelle les cryo-tomogrammes électroniques peuvent être analysés en réduisant le temps de segmentation à moins de 30 minutes dans la plupart des cas. En outre, les segmentations peuvent être utilisées pour améliorer la précision du traçage filamentaire dans un contexte cellulaire et pour extraire rapidement les coordonnées pour la moyenne des sous-tomogrammes.
Les développements matériels et logiciels de la dernière décennie ont entraîné une « révolution de résolution » pour la cryo-microscopie électronique (cryo-EM)1,2. Avec des détecteurs 3 meilleurs et plus rapides, des logiciels pour automatiser la collecte de données4,5 et des avancées en matière d’amplification de signal telles que les plaques de phase6, la collecte de grandes quantités de données cryo-EM à haute résolution est relativement simple.
Cryo-ET offre un aperçu sans précédent de l’ultrastructure cellulaire dans un état natif et hydraté 7,8,9,10. La principale limitation est l’épaisseur de l’échantillon, mais avec l’adoption de méthodes telles que le broyage par faisceau d’ions focalisés (FIB), où des échantillons cellulaires et tissulaires épais sont amincis pour la tomographie11, l’horizon de ce qui peut être imagé avec cryo-ET est en constante expansion. Les microscopes les plus récents sont capables de produire bien plus de 50 tomogrammes par jour, et ce taux ne devrait augmenter qu’en raison du développement de systèmes de collecte rapide de données12,13. L’analyse des grandes quantités de données produites par cryo-ET reste un goulot d’étranglement pour cette modalité d’imagerie.
L’analyse quantitative de l’information tomographique nécessite qu’elle soit d’abord annotée. Traditionnellement, cela nécessite une segmentation manuelle par un expert, ce qui prend du temps; Selon la complexité moléculaire contenue dans le cryo-tomogramme, cela peut prendre des heures ou des jours d’attention particulière. Les réseaux de neurones artificiels sont une solution attrayante à ce problème car ils peuvent être formés pour effectuer la majeure partie du travail de segmentation en une fraction du temps. Les réseaux de neurones convolutifs (CNN) sont particulièrement adaptés aux tâches de vision par ordinateur14 et ont récemment été adaptés pour l’analyse des cryotomogrammesélectroniques 15,16,17.
Les CNN traditionnels nécessitent plusieurs milliers d’échantillons d’entraînement annotés, ce qui n’est pas souvent possible pour les tâches d’analyse d’images biologiques. Par conséquent, l’architecture U-Net a excellé dans cet espace18 parce qu’elle s’appuie sur l’augmentation des données pour former avec succès le réseau, minimisant ainsi la dépendance à l’égard de grands ensembles d’entraînement. Par exemple, une architecture U-Net peut être entraînée avec seulement quelques tranches d’un seul tomogramme (quatre ou cinq tranches) et déduite de manière robuste à d’autres tomogrammes sans rééducation. Ce protocole fournit un guide étape par étape pour la formation des architectures de réseaux neuronaux U-Net à segmenter les cryotomographies électroniques dans Dragonfly 2022.119.
Dragonfly est un logiciel développé commercialement utilisé pour la segmentation et l’analyse d’images 3D par des modèles d’apprentissage profond, et il est disponible gratuitement pour un usage académique (certaines restrictions géographiques s’appliquent). Il dispose d’une interface graphique avancée qui permet à un non-expert de tirer pleinement parti des pouvoirs de l’apprentissage profond pour la segmentation sémantique et le débruitage d’images. Ce protocole montre comment prétraiter et annoter des tomogrammes cryo-électroniques dans Dragonfly pour former des réseaux de neurones artificiels, qui peuvent ensuite être déduits pour segmenter rapidement de grands ensembles de données. Il traite et montre brièvement comment utiliser des données segmentées pour une analyse plus approfondie telle que le traçage filamentaire et l’extraction de coordonnées pour la moyenne des sous-tomogrammes.
REMARQUE : Dragonfly 2022.1 nécessite une station de travail hautes performances. Les recommandations système sont incluses dans le tableau des matériaux avec le matériel du poste de travail utilisé pour ce protocole. Tous les tomogrammes utilisés dans ce protocole sont classés 4x d’une taille de pixel de 3,3 à 13,2 ang/pix. Les échantillons utilisés dans les résultats représentatifs ont été obtenus d’une entreprise (voir le tableau des matériaux) qui suit les lignes directrices sur les soins aux animaux qui s’harmonisent avec les normes éthiques de cette institution. Le tomogramme utilisé dans ce protocole et le multi-retour sur investissement généré en tant qu’entrée d’apprentissage ont été inclus en tant qu’ensemble de données groupées dans le fichier supplémentaire 1 (qui peut être trouvé à https://datadryad.org/stash/dataset/doi:10.5061/dryad.rxwdbrvct) afin que l’utilisateur puisse suivre les mêmes données s’il le souhaite. Dragonfly héberge également une base de données en libre accès appelée Infinite Toolbox où les utilisateurs peuvent partager des réseaux entraînés.
1. Configuration
2. Importation d’images
3. Prétraitement (figure 1.1)
4. Créer des données d’entraînement (Figure 1.2)
5. Utilisation de l’assistant de segmentation pour l’apprentissage itératif (Figure 1.3)
6. Appliquer le réseau (Figure 1.4)
7. Manipulation et nettoyage de la segmentation
8. Génération de coordonnées pour la moyenne des sous-tomogrammes à partir du retour sur investissement
9. Transformation des bassins versants
Figure 1 : Flux de travail. 1) Prétraiter le tomogramme d’entraînement en calibrant l’échelle d’intensité et en filtrant l’ensemble de données. 2) Créez les données d’entraînement en segmentant à la main une petite partie d’un tomogramme avec toutes les étiquettes appropriées que l’utilisateur souhaite identifier. 3) En utilisant le tomogramme filtré comme entrée et la segmentation de la main comme sortie d’apprentissage, un U-Net multi-couches à cinq couches est formé dans l’assistant de segmentation. 4) Le réseau entraîné peut être appliqué au tomogramme complet pour l’annoter et un rendu 3D peut être généré à partir de chaque classe segmentée. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Conformément au protocole, un U-Net à cinq tranches a été formé sur un seul tomogramme (figure 2A) pour identifier cinq classes : membrane, microtubules, actine, marqueurs fiduciaires et arrière-plan. Le réseau a été entraîné de façon itérative trois fois au total, puis appliqué au tomogramme pour le segmenter et l’annoter complètement (Figure 2B,C). Un nettoyage minimal a été effectué à l’aide des étapes 7.1 et 7.2. Les trois tomogrammes suivants d’intérêt (Figure 2D,G,J) ont été chargés dans le logiciel pour le prétraitement. Avant l’importation de l’image, l’un des tomogrammes (Figure 2J) nécessitait un ajustement de la taille des pixels de 17,22 Å/px à 13,3 Å/px car il était collecté sur un microscope différent à un grossissement légèrement différent. Le programme IMOD squeezevol a été utilisé pour le redimensionnement avec la commande suivante :
'squeezevol -f 0.772 inputfile.mrc outputfile.mrc'
Dans cette commande, -f fait référence au facteur par lequel modifier la taille des pixels (dans ce cas : 13,3/17,22). Après l’importation, les trois cibles d’inférence ont été prétraitées conformément aux étapes 3.2 et 3.3, puis le U-Net à cinq tranches a été appliqué. Un nettoyage minimal a de nouveau été effectué. Les segmentations finales sont présentées à la figure 2.
Les segmentations de microtubules de chaque tomogramme ont été exportées sous forme de fichiers TIF binaires (étape 7.4), converties en MRC (programme IMOD tif2mrc ), puis utilisées pour la corrélation des cylindres et le traçage des filaments. Les segmentations binaires des filaments permettent un traçage de filaments beaucoup plus robuste que le traçage sur tomogrammes. Les cartes de coordonnées du traçage des filaments (figure 3) seront utilisées pour une analyse plus approfondie, comme les mesures du plus proche voisin (garnissement des filaments) et la moyenne hélicoïdale des sous-tomogrammes le long des filaments simples pour déterminer l’orientation des microtubules.
Les réseaux infructueux ou insuffisamment formés sont faciles à déterminer. Un réseau défaillant sera incapable de segmenter des structures, alors qu’un réseau mal entraîné segmentera généralement correctement certaines structures et aura un nombre important de faux positifs et de faux négatifs. Ces réseaux peuvent être corrigés et formés de manière itérative pour améliorer leurs performances. L’assistant de segmentation calcule automatiquement le coefficient de similarité Dice d’un modèle (appelé score dans le SegWiz) après son entraînement. Cette statistique donne une estimation de la similitude entre les données d’entraînement et la segmentation U-Net. Dragonfly 2022.1 dispose également d’un outil intégré pour évaluer les performances d’un modèle accessible dans l’onglet Intelligence artificielle en haut de l’interface (voir la documentation d’utilisation).
Figure 2 : Inférence. (A-C) Tomogramme d’entraînement original d’un neurone de rat hippocampique DIV 5, collecté en 2019 sur un Titan Krios. Il s’agit d’une reconstruction rétroprojetée avec correction CTF dans IMOD. (A) La case jaune représente la région où la segmentation des mains a été effectuée pour l’entrée de formation. (B) Segmentation 2D à partir du U-Net une fois la formation terminée. (C) Rendu 3D des régions segmentées montrant la membrane (bleu), les microtubules (vert) et l’actine (rouge). (D-F) Neurone de rat hippocampique DIV 5 de la même séance que le tomogramme d’entraînement. (E) Segmentation 2D à partir du U-Net sans formation supplémentaire et nettoyage rapide. Membrane (bleu), microtubules (vert), actine (rouge), fiduciaire (rose). (F) Rendu 3D des régions segmentées. (G-I) Neurone hippocampique de rat DIV 5 de la session 2019. (H) segmentation 2D à partir du U-Net avec nettoyage rapide et (I) rendu 3D. (J-L) Neurone de rat hippocampique DIV 5, collecté en 2021 sur un Titan Krios différent à un grossissement différent. La taille des pixels a été modifiée avec le programme IMOD squeezevol pour correspondre au tomogramme d’entraînement. (K) segmentation 2D à partir du U-Net avec nettoyage rapide, démontrant une inférence robuste à travers les ensembles de données avec un prétraitement approprié et (L) un rendu 3D de la segmentation. Barres d’échelle = 100 nm. Abréviations : DIV = jours in vitro; CTF = fonction de transfert de contraste. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 3 : Amélioration du traçage filamentaire. (A) Tomogramme d’un neurone hippocampique de rat DIV 4, recueilli sur un Titan Krios. (B) Carte de corrélation générée à partir de la corrélation du cylindre sur les filaments d’actine. (C) Traçage filamentaire de l’actine en utilisant les intensités des filaments d’actine dans la carte de corrélation pour définir les paramètres. Le traçage capture la membrane et les microtubules, ainsi que le bruit, tout en essayant de tracer uniquement l’actine. (D) Segmentation U-Net du tomogramme. Membrane surlignée en bleu, microtubules en rouge, ribosomes en orange, triC en violet et actine en vert. (E) Segmentation de l’actine extraite comme masque binaire pour le traçage filamentaire. (F) Carte de corrélation générée à partir de la corrélation cylindrique avec les mêmes paramètres de (B). (G) Amélioration significative du traçage filamentaire des filaments d’actine à partir du tomogramme. Abréviation : DIV = jours in vitro. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Fichier supplémentaire 1 : Le tomogramme utilisé dans ce protocole et le multi-ROI généré en tant qu’entrée d’apprentissage sont inclus dans un ensemble de données groupé (Training.ORSObject). Voir https://datadryad.org/stash/dataset/doi:10.5061/dryad.rxwdbrvct.
Ce protocole définit une procédure d’utilisation du logiciel Dragonfly 2022.1 pour former un U-Net multiclasse à partir d’un seul tomogramme, et comment déduire ce réseau à d’autres tomogrammes qui n’ont pas besoin d’être du même ensemble de données. La formation est relativement rapide (peut être aussi rapide que 3-5 minutes par époque ou aussi lente que quelques heures, selon le réseau qui est formé et le matériel utilisé), et le recyclage d’un réseau pour améliorer son apprentissage est intuitif. Tant que les étapes de prétraitement sont effectuées pour chaque tomogramme, l’inférence est généralement robuste.
Un prétraitement cohérent est l’étape la plus critique pour l’inférence d’apprentissage profond. Il existe de nombreux filtres d’imagerie dans le logiciel et l’utilisateur peut expérimenter pour déterminer quels filtres fonctionnent le mieux pour des ensembles de données particuliers; Notez que quel que soit le filtrage utilisé sur le tomogramme d’entraînement, il doit être appliqué de la même manière aux tomogrammes d’inférence. Il faut également veiller à fournir au réseau des informations de formation exactes et suffisantes. Il est essentiel que toutes les fonctionnalités segmentées dans les tranches d’entraînement soient segmentées aussi soigneusement et précisément que possible.
La segmentation des images est facilitée par une interface utilisateur sophistiquée de qualité commerciale. Il fournit tous les outils nécessaires à la segmentation des mains et permet la réaffectation simple des voxels d’une classe à une autre avant la formation et le recyclage. L’utilisateur est autorisé à segmenter manuellement les voxels dans tout le contexte du tomogramme, et ils ont plusieurs vues et la possibilité de faire pivoter le volume librement. De plus, le logiciel offre la possibilité d’utiliser des réseaux multiclasses, qui ont tendance à mieux fonctionner16 et sont plus rapides que la segmentation avec plusieurs réseaux à classe unique.
Il y a, bien sûr, des limites aux capacités d’un réseau neuronal. Les données cryo-ET sont, par nature, très bruyantes et limitées dans l’échantillonnage angulaire, ce qui conduit à des distorsions spécifiques à l’orientation dans des objets identiques21. La formation repose sur un expert pour segmenter les structures avec précision, et un réseau performant est aussi bon (ou aussi mauvais) que les données de formation qui lui sont données. Le filtrage d’image pour amplifier le signal est utile pour le formateur, mais il existe encore de nombreux cas où il est difficile d’identifier avec précision tous les pixels d’une structure donnée. Il est donc important de faire très attention lors de la création de la segmentation de la formation afin que le réseau dispose des meilleures informations possibles pour apprendre pendant la formation.
Ce flux de travail peut être facilement modifié selon les préférences de chaque utilisateur. Bien qu’il soit essentiel que tous les tomogrammes soient prétraités exactement de la même manière, il n’est pas nécessaire d’utiliser les filtres exacts utilisés dans le protocole. Le logiciel dispose de nombreuses options de filtrage d’images, et il est recommandé de les optimiser pour les données particulières de l’utilisateur avant de se lancer dans un grand projet de segmentation couvrant de nombreux tomogrammes. Il existe également un certain nombre d’architectures réseau disponibles à utiliser: un U-Net multi-tranches s’est avéré fonctionner le mieux pour les données de ce laboratoire, mais un autre utilisateur pourrait trouver qu’une autre architecture (telle qu’un U-Net 3D ou un capteur 3D) fonctionne mieux. L’assistant de segmentation fournit une interface pratique pour comparer les performances de plusieurs réseaux à l’aide des mêmes données d’apprentissage.
Des outils comme ceux présentés ici feront de la segmentation manuelle des tomogrammes complets une tâche du passé. Avec des réseaux neuronaux bien entraînés et robustement inférables, il est tout à fait possible de créer un flux de travail où les données tomographiques sont reconstruites, traitées et entièrement segmentées aussi rapidement que le microscope peut les collecter.
La licence en libre accès pour ce protocole a été payée par Object Research Systems.
Cette étude a été financée par le Penn State College of Medicine et le Département de biochimie et de biologie moléculaire, ainsi que par la subvention 4100079742-EXT du Tobacco Settlement Fund (TSF). Les services et instruments CryoEM et CryoET Core (RRID:SCR_021178) utilisés dans ce projet ont été financés, en partie, par le Pennsylvania State University College of Medicine par l’intermédiaire du Bureau du vice-doyen à la recherche et des étudiants diplômés et du ministère de la Santé de Pennsylvanie à l’aide de Tobacco Settlement Funds (CURE). Le contenu relève de la seule responsabilité des auteurs et ne représente pas nécessairement les opinions officielles de l’Université ou du Collège de médecine. Le ministère de la Santé de Pennsylvanie décline spécifiquement toute responsabilité pour toute analyse, interprétation ou conclusion.
Name | Company | Catalog Number | Comments |
Dragonfly 2022.1 | Object Research Systems | https://www.theobjects.com/dragonfly/index.html | |
E18 Rat Dissociated Hippocampus | Transnetyx Tissue | KTSDEDHP | https://tissue.transnetyx.com/faqs |
IMOD | University of Colorado | https://bio3d.colorado.edu/imod/ | |
Intel® Xeon® Gold 6124 CPU 3.2GHz | Intel | https://www.intel.com/content/www/us/en/products/sku/120493/intel-xeon-gold-6134-processor-24-75m-cache-3-20-ghz/specifications.html | |
NVIDIA Quadro P4000 | NVIDIA | https://www.nvidia.com/content/dam/en-zz/Solutions/design-visualization/productspage/quadro/quadro-desktop/quadro-pascal-p4000-data-sheet-a4-nvidia-704358-r2-web.pdf | |
Windows 10 Enterprise 2016 | Microsoft | https://www.microsoft.com/en-us/evalcenter/evaluate-windows-10-enterprise | |
Workstation Minimum Requirements | https://theobjects.com/dragonfly/system-requirements.html |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon