Method Article
Este é um método para treinar um U-Net multi-fatia para segmentação multiclasse de tomogramas crio-elétrons usando uma porção de um tomograma como entrada de treinamento. Descrevemos como inferir essa rede para outros tomogramas e como extrair segmentações para análises posteriores, como a média do subtomograma e o rastreamento de filamentos.
A tomografia crio-eletrônica (crio-ET) permite que os pesquisadores visualizem células em seu estado nativo e hidratado na mais alta resolução atualmente possível. A técnica tem várias limitações, no entanto, que tornam a análise dos dados que gera demorada e difícil. A segmentação manual de um único tomograma pode levar de horas a dias, mas um microscópio pode facilmente gerar 50 ou mais tomogramas por dia. Os atuais programas de segmentação de aprendizado profundo para crio-ET existem, mas estão limitados a segmentar uma estrutura de cada vez. Aqui, as redes neurais convolucionais U-Net multi-fatia são treinadas e aplicadas para segmentar automaticamente várias estruturas simultaneamente dentro de crio-tomogramas. Com o pré-processamento adequado, essas redes podem ser inferidas de forma robusta para muitos tomogramas sem a necessidade de treinar redes individuais para cada tomograma. Esse fluxo de trabalho melhora drasticamente a velocidade com que os tomogramas crio-elétrons podem ser analisados, reduzindo o tempo de segmentação para menos de 30 minutos na maioria dos casos. Além disso, as segmentações podem ser usadas para melhorar a precisão do rastreamento de filamentos dentro de um contexto celular e para extrair rapidamente coordenadas para a média do subtomograma.
Os desenvolvimentos de hardware e software na última década resultaram em uma "revolução de resolução" para a microscopia crio-eletrônica (crio-EM)1,2. Comdetectores 3 melhores e mais rápidos, software para automatizar a coletade dados 4,5 e avanços de aumento de sinal, como placas de fase6, a coleta de grandes quantidades de dados crio-EM de alta resolução é relativamente simples.
O Cryo-ET fornece uma visão sem precedentes da ultraestrutura celular em um estado nativo e hidratado 7,8,9,10. A principal limitação é a espessura da amostra, mas com a adoção de métodos como a fresagem por feixe de íons focalizados (FIB), onde amostras celulares e teciduais espessas são diluídas para tomografia11, o horizonte para o que pode ser fotografado com crio-ET está em constante expansão. Os microscópios mais novos são capazes de produzir bem mais de 50 tomogramas por dia, e essa taxa só deve aumentar devido ao desenvolvimento de esquemas rápidos de coleta de dados12,13. Analisar as vastas quantidades de dados produzidos pela crio-ET continua a ser um gargalo para esta modalidade de imagem.
A análise quantitativa da informação tomográfica requer que ela seja anotada primeiro. Tradicionalmente, isso requer segmentação manual por um especialista, o que é demorado; dependendo da complexidade molecular contida no crio-tomograma, pode levar horas a dias de atenção dedicada. As redes neurais artificiais são uma solução atraente para esse problema, uma vez que podem ser treinadas para fazer a maior parte do trabalho de segmentação em uma fração do tempo. As redes neurais convolucionais (CNNs) são especialmente adequadas para tarefas de visão computacional14 e foram recentemente adaptadas para a análise de tomogramas crio-eletrônicos15,16,17.
As CNNs tradicionais exigem muitos milhares de amostras de treinamento anotadas, o que muitas vezes não é possível para tarefas de análise de imagens biológicas. Assim, a arquitetura U-Net tem se destacado nesse espaço18 porque depende do aumento de dados para treinar com sucesso a rede, minimizando a dependência de grandes conjuntos de treinamento. Por exemplo, uma arquitetura U-Net pode ser treinada com apenas algumas fatias de um único tomograma (quatro ou cinco fatias) e inferida robustamente para outros tomogramas sem reciclagem. Este protocolo fornece um guia passo a passo para treinar arquiteturas de redes neurais U-Net para segmentar crio-tomogramas de elétrons dentro do Dragonfly 2022.119.
O Dragonfly é um software desenvolvido comercialmente usado para segmentação e análise de imagens 3D por modelos de aprendizado profundo, e está disponível gratuitamente para uso acadêmico (algumas restrições geográficas se aplicam). Ele tem uma interface gráfica avançada que permite que um não-especialista aproveite ao máximo os poderes do aprendizado profundo tanto para segmentação semântica quanto para denoising. Este protocolo demonstra como pré-processar e anotar tomogramas crio-elétrons dentro do Dragonfly para treinar redes neurais artificiais, que podem então ser inferidas para segmentar rapidamente grandes conjuntos de dados. Ele ainda discute e demonstra brevemente como usar dados segmentados para análises posteriores, como rastreamento de filamentos e extração de coordenadas para a média de subtomogramas.
NOTA: O Dragonfly 2022.1 requer uma estação de trabalho de alto desempenho. As recomendações do sistema estão incluídas na Tabela de Materiais , juntamente com o hardware da estação de trabalho usada para este protocolo. Todos os tomogramas usados neste protocolo são agrupados 4x de um tamanho de pixel de 3,3 a 13,2 ang/pix. As amostras utilizadas nos resultados representativos foram obtidas de uma empresa (ver Tabela de Materiais) que segue diretrizes de cuidados com animais que se alinham aos padrões éticos desta instituição. O tomograma usado neste protocolo e o multi-ROI que foi gerado como entrada de treinamento foram incluídos como um conjunto de dados empacotado no Arquivo Suplementar 1 (que pode ser encontrado em https://datadryad.org/stash/dataset/doi:10.5061/dryad.rxwdbrvct) para que o usuário possa acompanhar os mesmos dados, caso deseje. O Dragonfly também hospeda um banco de dados de acesso aberto chamado Infinite Toolbox, onde os usuários podem compartilhar redes treinadas.
1. Configuração
2. Importação de imagens
3. Pré-processamento (Figura 1.1)
4. Criar dados de treinamento (Figura 1.2)
5. Usando o assistente de segmentação para treinamento iterativo (Figura 1.3)
6. Aplicar a rede (Figura 1.4)
7. Manipulação e limpeza de segmentação
8. Gerando coordenadas para sub-tomograma em média a partir do ROI
9. Transformação de bacias hidrográficas
Figura 1: Fluxo de trabalho. 1) Pré-processe o tomograma de treinamento calibrando a escala de intensidade e filtrando o conjunto de dados. 2) Crie os dados de treinamento segmentando manualmente uma pequena porção de um tomograma com todos os rótulos apropriados que o usuário deseja identificar. 3) Usando o tomograma filtrado como entrada e a segmentação de mão como saída de treinamento, um U-Net de cinco camadas e várias fatias é treinado no assistente de segmentação. 4) A rede treinada pode ser aplicada ao tomograma completo para anotá-lo e uma renderização 3D pode ser gerada a partir de cada classe segmentada. Clique aqui para ver uma versão maior desta figura.
Seguindo o protocolo, uma U-Net de cinco fatias foi treinada em um único tomograma (Figura 2A) para identificar cinco classes: Membrana, Microtúbulos, Actina, Marcadores fiduciais e Fundo. A rede foi treinada iterativamente um total de três vezes e, em seguida, aplicada ao tomograma para segmentá-lo completamente e anotá-lo (Figura 2B,C). A limpeza mínima foi realizada usando as etapas 7.1 e 7.2. Os próximos três tomogramas de interesse (Figura 2D,G,J) foram carregados no software para pré-processamento. Antes da importação da imagem, um dos tomogramas (Figura 2J) exigia ajuste do tamanho do pixel de 17,22 Å/px para 13,3 Å/px, pois era coletado em um microscópio diferente em uma ampliação ligeiramente diferente. O programa IMOD squeezevol foi usado para redimensionamento com o seguinte comando:
'squeezevol -f 0.772 inputfile.mrc outputfile.mrc'
Neste comando, -f refere-se ao fator pelo qual alterar o tamanho do pixel (neste caso: 13.3/17.22). Após a importação, todos os três alvos de inferência foram pré-processados de acordo com as etapas 3.2 e 3.3 e, em seguida, aplicou-se o U-Net de cinco fatias. A limpeza mínima foi novamente realizada. As segmentações finais são exibidas na Figura 2.
As segmentações de microtúbulos de cada tomograma foram exportadas como arquivos TIF binários (etapa 7.4), convertidos para MRC (programa IMOD tif2mrc ) e, em seguida, utilizados para correlação de cilindros e rastreamento de filamentos. Segmentações binárias de filamentos resultam em um rastreamento de filamentos muito mais robusto do que o rastreamento sobre tomogramas. Mapas de coordenadas do traçado de filamentos (Figura 3) serão usados para análises posteriores, como medições do vizinho mais próximo (empacotamento de filamentos) e subtomograma helicoidal com média ao longo de filamentos únicos para determinar a orientação dos microtúbulos.
Redes malsucedidas ou mal treinadas são fáceis de determinar. Uma rede com falha será incapaz de segmentar quaisquer estruturas, enquanto uma rede inadequadamente treinada normalmente segmentará algumas estruturas corretamente e terá um número significativo de falsos positivos e falsos negativos. Essas redes podem ser corrigidas e treinadas iterativamente para melhorar seu desempenho. O assistente de segmentação calcula automaticamente o coeficiente de similaridade Dice de um modelo (chamado de pontuação no SegWiz) depois que ele é treinado. Esta estatística fornece uma estimativa da semelhança entre os dados de treinamento e a segmentação U-Net. O Dragonfly 2022.1 também possui uma ferramenta integrada para avaliar o desempenho de um modelo que pode ser acessada na guia Inteligência Artificial na parte superior da interface (consulte a documentação para uso).
Figura 2: Inferência. (A-C) Tomograma de treinamento original de um neurônio de rato hipocampal DIV 5, coletado em 2019 em um Titan Krios. Trata-se de uma reconstrução retroprojetada com correção de CTF no IMOD. (A) A caixa amarela representa a região onde a segmentação manual foi realizada para a entrada do treinamento. (B) Segmentação 2D da U-Net após a conclusão do treinamento. (C) renderização 3D das regiões segmentadas mostrando membrana (azul), microtúbulos (verde) e actina (vermelho). (D-F) DIV 5 neurônio de rato hipocampal da mesma sessão que o tomograma de treinamento. (E) segmentação 2D da U-Net sem treinamento adicional e limpeza rápida. Membrana (azul), microtúbulos (verde), actina (vermelho), fiduciais (rosa). (F) Renderização 3D das regiões segmentadas. (G-I) DIV 5 neurônio de rato hipocampal da sessão de 2019. (H) Segmentação 2D a partir da U-Net com limpeza rápida e (I) renderização 3D. (J-L) Neurônio de rato hipocampal DIV 5, coletado em 2021 em um Titan Krios diferente em uma ampliação diferente. O tamanho do pixel foi alterado com o programa IMOD squeezevol para corresponder ao tomograma de treinamento. (K) segmentação 2D da U-Net com limpeza rápida, demonstrando inferência robusta em conjuntos de dados com pré-processamento adequado e (L) renderização 3D de segmentação. Barras de escala = 100 nm. Abreviaturas: DIV = dias in vitro; CTF = função de transferência de contraste. Por favor, clique aqui para ver uma versão maior desta figura.
Figura 3: Melhora do traçado de filamentos . (A) Tomograma de um neurônio hipocampal de rato DIV 4, coletado em um Titan Krios. (B) Mapa de correlação gerado a partir da correlação do cilindro sobre filamentos de actina. (C) Traçado de filamentos de actina utilizando as intensidades dos filamentos de actina no mapa de correlação para definir parâmetros. O rastreamento captura a membrana e os microtúbulos, bem como o ruído, ao tentar rastrear apenas a actina. (D) Segmentação U-Net do tomograma. Membrana destacada em azul, microtúbulos em vermelho, ribossomos em laranja, triC em roxo e actina em verde. (E) Segmentação de actina extraída como uma máscara binária para rastreamento de filamentos. (F) Mapa de correlação gerado a partir da correlação do cilindro com os mesmos parâmetros de (B). (G) Rastreio de filamentos significativamente melhorado de filamentos de actina apenas do tomograma. Abreviação: DIV = days in vitro. Por favor, clique aqui para ver uma versão maior desta figura.
Arquivo suplementar 1: O tomograma usado neste protocolo e o multi-ROI que foi gerado como entrada de treinamento são incluídos como um conjunto de dados empacotado (Training.ORSObject). Veja https://datadryad.org/stash/dataset/doi:10.5061/dryad.rxwdbrvct.
Este protocolo estabelece um procedimento para usar o software Dragonfly 2022.1 para treinar um U-Net de várias classes a partir de um único tomograma e como inferir essa rede para outros tomogramas que não precisam ser do mesmo conjunto de dados. O treinamento é relativamente rápido (pode ser tão rápido quanto 3-5 min por época ou tão lento quanto algumas horas, dependendo inteiramente da rede que está sendo treinada e do hardware usado), e treinar uma rede para melhorar seu aprendizado é intuitivo. Contanto que as etapas de pré-processamento sejam realizadas para cada tomograma, a inferência é tipicamente robusta.
O pré-processamento consistente é a etapa mais crítica para a inferência de aprendizado profundo. Existem muitos filtros de imagem no software e o usuário pode experimentar para determinar quais filtros funcionam melhor para conjuntos de dados específicos; note que qualquer filtragem usada no tomograma de treinamento deve ser aplicada da mesma maneira aos tomogramas de inferência. Deve-se também ter o cuidado de fornecer à rede informações de treinamento precisas e suficientes. É vital que todos os recursos segmentados dentro das fatias de treinamento sejam segmentados com o maior cuidado e precisão possível.
A segmentação de imagens é facilitada por uma sofisticada interface de usuário de nível comercial. Ele fornece todas as ferramentas necessárias para a segmentação das mãos e permite a simples redesignação de voxels de qualquer classe para outra antes do treinamento e reciclagem. O usuário tem permissão para segmentar voxels manualmente dentro de todo o contexto do tomograma, e eles recebem várias visualizações e a capacidade de girar o volume livremente. Além disso, o software fornece a capacidade de usar redes multiclasse, que tendem a ter um desempenho melhor16 e são mais rápidas do que segmentar com várias redes de classe única.
Há, é claro, limitações para as capacidades de uma rede neural. Os dados crio-ET são, por natureza, muito ruidosos e limitados na amostragem angular, o que leva a distorções específicas de orientação em objetos idênticos21. O treinamento depende de um especialista para segmentar manualmente as estruturas com precisão, e uma rede bem-sucedida é tão boa (ou tão ruim) quanto os dados de treinamento que lhe são fornecidos. A filtragem de imagem para aumentar o sinal é útil para o treinador, mas ainda há muitos casos em que a identificação precisa de todos os pixels de uma determinada estrutura é difícil. Por isso, é importante que se tome muito cuidado na hora de criar a segmentação de treinamentos para que a rede tenha as melhores informações possíveis de aprender durante o treinamento.
Esse fluxo de trabalho pode ser facilmente modificado de acordo com a preferência de cada usuário. Embora seja essencial que todos os tomogramas sejam pré-processados exatamente da mesma maneira, não é necessário usar os filtros exatos usados no protocolo. O software tem inúmeras opções de filtragem de imagem, e recomenda-se otimizá-las para os dados específicos do usuário antes de iniciar um grande projeto de segmentação que abrange muitos tomogramas. Há também algumas arquiteturas de rede disponíveis para uso: descobriu-se que uma U-Net multi-fatia funciona melhor para os dados deste laboratório, mas outro usuário pode achar que outra arquitetura (como uma U-Net 3D ou um Sensor 3D) funciona melhor. O assistente de segmentação fornece uma interface conveniente para comparar o desempenho de várias redes usando os mesmos dados de treinamento.
Ferramentas como as apresentadas aqui tornarão a segmentação manual de tomogramas completos uma tarefa do passado. Com redes neurais bem treinadas que são robustamente inferíveis, é totalmente viável criar um fluxo de trabalho onde os dados tomográficos são reconstruídos, processados e totalmente segmentados tão rapidamente quanto o microscópio pode coletá-los.
A licença de acesso aberto para este protocolo foi paga pela Object Research Systems.
Este estudo foi apoiado pelo Penn State College of Medicine e pelo Departamento de Bioquímica e Biologia Molecular, bem como pelo subsídio 4100079742-EXT do Tobacco Settlement Fund (TSF). Os serviços e instrumentos CryoEM e CryoET Core (RRID:SCR_021178) utilizados neste projeto foram financiados, em parte, pela Faculdade de Medicina da Universidade Estadual da Pensilvânia através do Gabinete do Vice-Decano de Pesquisa e Estudantes de Pós-Graduação e do Departamento de Saúde da Pensilvânia usando Fundos de Liquidação do Tabaco (CURE). O conteúdo é de responsabilidade exclusiva dos autores e não representa necessariamente as opiniões oficiais da Universidade ou Faculdade de Medicina. O Departamento de Saúde da Pensilvânia especificamente se isenta de responsabilidade por quaisquer análises, interpretações ou conclusões.
Name | Company | Catalog Number | Comments |
Dragonfly 2022.1 | Object Research Systems | https://www.theobjects.com/dragonfly/index.html | |
E18 Rat Dissociated Hippocampus | Transnetyx Tissue | KTSDEDHP | https://tissue.transnetyx.com/faqs |
IMOD | University of Colorado | https://bio3d.colorado.edu/imod/ | |
Intel® Xeon® Gold 6124 CPU 3.2GHz | Intel | https://www.intel.com/content/www/us/en/products/sku/120493/intel-xeon-gold-6134-processor-24-75m-cache-3-20-ghz/specifications.html | |
NVIDIA Quadro P4000 | NVIDIA | https://www.nvidia.com/content/dam/en-zz/Solutions/design-visualization/productspage/quadro/quadro-desktop/quadro-pascal-p4000-data-sheet-a4-nvidia-704358-r2-web.pdf | |
Windows 10 Enterprise 2016 | Microsoft | https://www.microsoft.com/en-us/evalcenter/evaluate-windows-10-enterprise | |
Workstation Minimum Requirements | https://theobjects.com/dragonfly/system-requirements.html |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados