Method Article
Este es un método para entrenar una U-Net multicorte para la segmentación multiclase de tomogramas crioelectrónicos utilizando una porción de un tomograma como entrada de entrenamiento. Describimos cómo inferir esta red a otros tomogramas y cómo extraer segmentaciones para análisis adicionales, como el promedio de subtomogramas y el rastreo de filamentos.
La criotomografía electrónica (crio-ET) permite a los investigadores obtener imágenes de las células en su estado nativo e hidratado a la resolución más alta posible actualmente. Sin embargo, la técnica tiene varias limitaciones que hacen que el análisis de los datos que genera requiera mucho tiempo y sea difícil. La segmentación manual de una sola tomograma puede tomar de horas a días, pero un microscopio puede generar fácilmente 50 o más tomografías al día. Existen programas actuales de segmentación de aprendizaje profundo para crio-ET, pero se limitan a segmentar una estructura a la vez. Aquí, las redes neuronales convolucionales U-Net de múltiples cortes se entrenan y aplican para segmentar automáticamente múltiples estructuras simultáneamente dentro de los criotomogramas. Con un preprocesamiento adecuado, estas redes se pueden inferir robustamente a muchos tomogramas sin la necesidad de entrenar redes individuales para cada tomograma. Este flujo de trabajo mejora drásticamente la velocidad con la que se pueden analizar los tomogramas crioelectrónicos al reducir el tiempo de segmentación a menos de 30 minutos en la mayoría de los casos. Además, las segmentaciones se pueden utilizar para mejorar la precisión del trazado de filamentos dentro de un contexto celular y para extraer rápidamente las coordenadas para el promedio de subtomograma.
Los desarrollos de hardware y software en la última década han resultado en una "revolución de resolución" para la criomicroscopía electrónica (crio-EM)1,2. Con detectores mejores y más rápidos3, software para automatizar la recopilación de datos4,5 y avances de aumento de señal como las placas de fase6, la recopilación de grandes cantidades de datos crio-EM de alta resolución es relativamente sencilla.
Cryo-ET ofrece una visión sin precedentes de la ultraestructura celular en un estado nativo e hidratado 7,8,9,10. La limitación principal es el grosor de la muestra, pero con la adopción de métodos como el fresado de haz de iones enfocado (FIB), donde las muestras gruesas de células y tejidos se adelgazan para la tomografía11, el horizonte de lo que se puede obtener una imagen con crio-ET se expande constantemente. Los microscopios más nuevos son capaces de producir más de 50 tomogramas al día, y se prevé que esta tasa aumente debido al desarrollo de esquemas rápidos de recolección de datos12,13. El análisis de las grandes cantidades de datos producidos por cryo-ET sigue siendo un cuello de botella para esta modalidad de imagen.
El análisis cuantitativo de la información tomográfica requiere que primero se anote. Tradicionalmente, esto requiere la segmentación de la mano por parte de un experto, lo que lleva mucho tiempo; Dependiendo de la complejidad molecular contenida en el crio-tomograma, puede tomar horas o días de atención dedicada. Las redes neuronales artificiales son una solución atractiva para este problema, ya que pueden ser entrenadas para hacer la mayor parte del trabajo de segmentación en una fracción del tiempo. Las redes neuronales convolucionales (CNN) son especialmente adecuadas para tareas de visión artificial14 y recientemente han sido adaptadas para el análisis de tomogramas crioelectrónicos15,16,17.
Las CNN tradicionales requieren muchos miles de muestras de entrenamiento anotadas, lo que a menudo no es posible para las tareas de análisis de imágenes biológicas. Por lo tanto, la arquitectura U-Net se ha destacado en este espacio18 porque se basa en el aumento de datos para entrenar con éxito la red, minimizando la dependencia de grandes conjuntos de entrenamiento. Por ejemplo, una arquitectura U-Net puede ser entrenada con sólo unas pocas rebanadas de una sola tomograma (cuatro o cinco rebanadas) y robustamente inferida a otros tomogramas sin volver a entrenar. Este protocolo proporciona una guía paso a paso para entrenar arquitecturas de redes neuronales U-Net para segmentar criotomogramas de electrones dentro de Dragonfly 2022.119.
Dragonfly es un software desarrollado comercialmente utilizado para la segmentación y análisis de imágenes 3D mediante modelos de aprendizaje profundo, y está disponible gratuitamente para uso académico (se aplican algunas restricciones geográficas). Tiene una interfaz gráfica avanzada que permite a un no experto aprovechar al máximo los poderes del aprendizaje profundo tanto para la segmentación semántica como para la eliminación de ruido de imágenes. Este protocolo demuestra cómo preprocesar y anotar tomogramas crioelectrónicos dentro de Dragonfly para entrenar redes neuronales artificiales, que luego se pueden inferir para segmentar rápidamente grandes conjuntos de datos. Además, discute y demuestra brevemente cómo usar datos segmentados para análisis adicionales, como el rastreo de filamentos y la extracción de coordenadas para el promedio de subtogramas.
NOTA: Dragonfly 2022.1 requiere una estación de trabajo de alto rendimiento. Las recomendaciones del sistema se incluyen en la tabla de materiales junto con el hardware de la estación de trabajo utilizada para este protocolo. Todos los tomogramas utilizados en este protocolo se agrupan 4x de un tamaño de píxel de 3.3 a 13.2 ang / pix. Las muestras utilizadas en los resultados representativos se obtuvieron de una empresa (ver la Tabla de materiales) que sigue las pautas de cuidado de los animales que se alinean con los estándares éticos de esta institución. El tomograma utilizado en este protocolo y el ROI múltiple que se generó como entrada de entrenamiento se han incluido como un conjunto de datos incluido en el Archivo Suplementario 1 (que se puede encontrar en https://datadryad.org/stash/dataset/doi:10.5061/dryad.rxwdbrvct) para que el usuario pueda seguir los mismos datos si lo desea. Dragonfly también alberga una base de datos de acceso abierto llamada Infinite Toolbox donde los usuarios pueden compartir redes entrenadas.
1. Configuración
2. Importación de imágenes
3. Preprocesamiento (Figura 1.1)
4. Crear datos de entrenamiento (Figura 1.2)
5. Uso del asistente de segmentación para el entrenamiento iterativo (Figura 1.3)
6. Aplicar la red (Figura 1.4)
7. Manipulación y limpieza de segmentación
8. Generación de coordenadas para el promedio de sub-tomogramas a partir del ROI
9. Transformación de cuencas hidrográficas
Figura 1: Flujo de trabajo. 1) Preprocesar el tomograma de entrenamiento calibrando la escala de intensidad y filtrando el conjunto de datos. 2) Cree los datos de entrenamiento segmentando a mano una pequeña porción de un tomograma con todas las etiquetas apropiadas que el usuario desea identificar. 3) Usando el tomograma filtrado como entrada y la segmentación manual como salida de entrenamiento, se entrena una U-Net multicorte de cinco capas en el asistente de segmentación. 4) La red entrenada se puede aplicar al tomograma completo para anotarlo y se puede generar una representación 3D de cada clase segmentada. Haga clic aquí para ver una versión más grande de esta figura.
Siguiendo el protocolo, se entrenó una U-Net de cinco cortes en un solo tomograma (Figura 2A) para identificar cinco clases: membrana, microtúbulos, actina, marcadores fiduciales y antecedentes. La red se entrenó iterativamente un total de tres veces, y luego se aplicó al tomograma para segmentarlo y anotarlo completamente (Figura 2B, C). La limpieza mínima se realizó mediante los pasos 7.1 y 7.2. Los siguientes tres tomogramas de interés (Figura 2D, G, J) se cargaron en el software para su preprocesamiento. Antes de la importación de la imagen, uno de los tomogramas (Figura 2J) requería un ajuste del tamaño de píxel de 17,22 Å/px a 13,3 Å/px, ya que se recogía en un microscopio diferente con un aumento ligeramente diferente. El programa IMOD squeezevol se utilizó para cambiar el tamaño con el siguiente comando:
'squeezevol -f 0.772 inputfile.mrc outputfile.mrc'
En este comando, -f se refiere al factor por el cual alterar el tamaño del píxel (en este caso: 13.3/17.22). Después de la importación, los tres objetivos de inferencia se procesaron previamente de acuerdo con los pasos 3.2 y 3.3, y luego se aplicó la U-Net de cinco sectores. Se volvió a realizar una limpieza mínima. Las segmentaciones finales se muestran en la Figura 2.
Las segmentaciones de microtúbulos de cada tomograma se exportaron como archivos TIF binarios (paso 7.4), se convirtieron a MRC (programa IMOD tif2mrc ) y luego se utilizaron para la correlación de cilindros y el rastreo de filamentos. Las segmentaciones binarias de filamentos dan como resultado un trazado de filamentos mucho más robusto que el rastreo sobre tomogramas. Los mapas de coordenadas del trazado de filamentos (Figura 3) se utilizarán para análisis adicionales, como mediciones de vecinos más cercanos (empaquetamiento de filamentos) y subtomogramas helicoidales promediando filamentos individuales para determinar la orientación de los microtúbulos.
Las redes fallidas o inadecuadamente entrenadas son fáciles de determinar. Una red fallida no podrá segmentar ninguna estructura, mientras que una red inadecuadamente entrenada generalmente segmentará algunas estructuras correctamente y tendrá un número significativo de falsos positivos y falsos negativos. Estas redes pueden corregirse y entrenarse iterativamente para mejorar su rendimiento. El asistente de segmentación calcula automáticamente el coeficiente de similitud de dados de un modelo (llamado puntuación en SegWiz) después de entrenarlo. Esta estadística da una estimación de la similitud entre los datos de entrenamiento y la segmentación de U-Net. Dragonfly 2022.1 también tiene una herramienta incorporada para evaluar el rendimiento de un modelo a la que se puede acceder en la pestaña Inteligencia artificial en la parte superior de la interfaz (consulte la documentación para su uso).
Figura 2: Inferencia. (A-C) Tomografía de entrenamiento original de una neurona de rata del hipocampo DIV 5, recolectada en 2019 en un Titan Krios. Esta es una reconstrucción retroproyectada con corrección CTF en IMOD. (A) El cuadro amarillo representa la región donde se realizó la segmentación de la mano para la entrada de entrenamiento. (B) Segmentación 2D de U-Net después de completar la capacitación. (C) Representación 3D de las regiones segmentadas que muestran membrana (azul), microtúbulos (verde) y actina (rojo). (D-F) DIV 5 neurona de rata del hipocampo de la misma sesión que el tomograma de entrenamiento. (E) Segmentación 2D desde U-Net sin capacitación adicional y limpieza rápida. Membrana (azul), microtúbulos (verde), actina (rojo), fiduciales (rosa). (F) Representación 3D de las regiones segmentadas. (G-I) DIV 5 neurona de rata del hipocampo de la sesión de 2019. (H) Segmentación 2D desde U-Net con limpieza rápida y (I) renderizado 3D. (J-L) Neurona de rata del hipocampo DIV 5, recolectada en 2021 en un Titán Krios diferente con un aumento diferente. El tamaño de píxel se ha cambiado con el programa IMOD squeezevol para que coincida con el tomograma de entrenamiento. (K) segmentación 2D desde U-Net con limpieza rápida, demostrando inferencia robusta en conjuntos de datos con preprocesamiento adecuado y (L) representación 3D de segmentación. Barras de escala = 100 nm. Abreviaturas: DIV = días in vitro; CTF = función de transferencia de contraste. Haga clic aquí para ver una versión más grande de esta figura.
Figura 3: Mejora del trazado de filamentos . (A) Tomograma de una neurona del hipocampo de rata DIV 4, recolectada en un Titán Krios. (B) Mapa de correlación generado a partir de la correlación de cilindros sobre filamentos de actina. (C) Rastreo de filamentos de actina utilizando las intensidades de los filamentos de actina en el mapa de correlación para definir parámetros. El rastreo captura la membrana y los microtúbulos, así como el ruido, mientras intenta rastrear solo la actina. (D) Segmentación U-Net del tomograma. Membrana resaltada en azul, microtúbulos en rojo, ribosomas en naranja, triC en púrpura y actina en verde. (E) Segmentación de actina extraída como una máscara binaria para el rastreo de filamentos. (F) Mapa de correlación generado a partir de la correlación de cilindros con los mismos parámetros de (B). (G) Mejora significativa del trazado de filamentos de solo filamentos de actina del tomograma. Abreviatura: DIV = días in vitro. Haga clic aquí para ver una versión más grande de esta figura.
Archivo complementario 1: El tomograma utilizado en este protocolo y el ROI múltiple que se generó como entrada de entrenamiento se incluyen como un conjunto de datos agrupado (Training.ORSObject). Véase https://datadryad.org/stash/dataset/doi:10.5061/dryad.rxwdbrvct.
Este protocolo establece un procedimiento para usar el software Dragonfly 2022.1 para entrenar una U-Net multiclase a partir de un solo tomograma, y cómo inferir esa red a otros tomogramas que no necesitan ser del mismo conjunto de datos. El entrenamiento es relativamente rápido (puede ser tan rápido como 3-5 minutos por época o tan lento como unas pocas horas, dependiendo completamente de la red que se está entrenando y el hardware utilizado), y volver a entrenar una red para mejorar su aprendizaje es intuitivo. Siempre que los pasos de preprocesamiento se lleven a cabo para cada tomografía, la inferencia suele ser robusta.
El preprocesamiento coherente es el paso más crítico para la inferencia de aprendizaje profundo. Hay muchos filtros de imágenes en el software y el usuario puede experimentar para determinar qué filtros funcionan mejor para conjuntos de datos particulares; Tenga en cuenta que cualquier filtrado que se use en el tomograma de entrenamiento debe aplicarse de la misma manera a los tomogramas de inferencia. También se debe tener cuidado de proporcionar a la red información de capacitación precisa y suficiente. Es vital que todas las características segmentadas dentro de las secciones de entrenamiento se segmenten con el mayor cuidado y precisión posible.
La segmentación de imágenes se ve facilitada por una sofisticada interfaz de usuario de nivel comercial. Proporciona todas las herramientas necesarias para la segmentación de manos y permite la simple reasignación de vóxeles de cualquier clase a otra antes del entrenamiento y el reciclaje. Al usuario se le permite segmentar a mano los vóxeles dentro de todo el contexto del tomograma, y se le dan múltiples vistas y la capacidad de girar el volumen libremente. Además, el software proporciona la capacidad de utilizar redes multiclase, que tienden a funcionar mejor16 y son más rápidas que la segmentación con múltiples redes de clase única.
Hay, por supuesto, limitaciones a las capacidades de una red neuronal. Los datos crio-ET son, por naturaleza, muy ruidosos y limitados en el muestreo angular, lo que conduce a distorsiones específicas de orientación en objetos idénticos21. La capacitación depende de un experto para segmentar las estructuras con precisión, y una red exitosa es tan buena (o tan mala) como los datos de capacitación que se le dan. El filtrado de imágenes para aumentar la señal es útil para el entrenador, pero todavía hay muchos casos en los que es difícil identificar con precisión todos los píxeles de una estructura determinada. Por lo tanto, es importante que se tenga mucho cuidado al crear la segmentación de capacitación para que la red tenga la mejor información posible para aprender durante la capacitación.
Este flujo de trabajo se puede modificar fácilmente según las preferencias de cada usuario. Si bien es esencial que todos los tomogramas se procesen exactamente de la misma manera, no es necesario utilizar los filtros exactos utilizados en el protocolo. El software tiene numerosas opciones de filtrado de imágenes, y se recomienda optimizarlas para los datos particulares del usuario antes de emprender un gran proyecto de segmentación que abarque muchos tomogramas. También hay bastantes arquitecturas de red disponibles para usar: se ha encontrado que una U-Net multisegmento funciona mejor para los datos de este laboratorio, pero otro usuario podría encontrar que otra arquitectura (como una U-Net 3D o un Sensor 3D) funciona mejor. El asistente de segmentación proporciona una interfaz cómoda para comparar el rendimiento de varias redes utilizando los mismos datos de entrenamiento.
Herramientas como las que se presentan aquí harán que la segmentación manual de tomogramas completos sea una tarea del pasado. Con redes neuronales bien entrenadas que son robustamente inferibles, es completamente factible crear un flujo de trabajo donde los datos tomográficos se reconstruyan, procesen y segmenten completamente tan rápido como el microscopio pueda recopilarlos.
La licencia de acceso abierto para este protocolo fue pagada por Object Research Systems.
Este estudio fue apoyado por la Facultad de Medicina de Penn State y el Departamento de Bioquímica y Biología Molecular, así como por la subvención 4100079742-EXT del Fondo de Liquidación del Tabaco (TSF). Los servicios e instrumentos CryoEM y CryoET Core (RRID: SCR_021178) utilizados en este proyecto fueron financiados, en parte, por la Facultad de Medicina de la Universidad Estatal de Pensilvania a través de la Oficina del Vicedecano de Investigación y Estudiantes de Posgrado y el Departamento de Salud de Pensilvania utilizando Fondos de Liquidación de Tabaco (CURE). El contenido es responsabilidad exclusiva de los autores y no representa necesariamente las opiniones oficiales de la Universidad o Facultad de Medicina. El Departamento de Salud de Pensilvania se exime específicamente de responsabilidad por cualquier análisis, interpretación o conclusión.
Name | Company | Catalog Number | Comments |
Dragonfly 2022.1 | Object Research Systems | https://www.theobjects.com/dragonfly/index.html | |
E18 Rat Dissociated Hippocampus | Transnetyx Tissue | KTSDEDHP | https://tissue.transnetyx.com/faqs |
IMOD | University of Colorado | https://bio3d.colorado.edu/imod/ | |
Intel® Xeon® Gold 6124 CPU 3.2GHz | Intel | https://www.intel.com/content/www/us/en/products/sku/120493/intel-xeon-gold-6134-processor-24-75m-cache-3-20-ghz/specifications.html | |
NVIDIA Quadro P4000 | NVIDIA | https://www.nvidia.com/content/dam/en-zz/Solutions/design-visualization/productspage/quadro/quadro-desktop/quadro-pascal-p4000-data-sheet-a4-nvidia-704358-r2-web.pdf | |
Windows 10 Enterprise 2016 | Microsoft | https://www.microsoft.com/en-us/evalcenter/evaluate-windows-10-enterprise | |
Workstation Minimum Requirements | https://theobjects.com/dragonfly/system-requirements.html |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados