Method Article
Questo è un metodo per addestrare un U-Net multi-fetta per la segmentazione multi-classe di tomogrammi crioelettronici utilizzando una porzione di un tomogramma come input di allenamento. Descriviamo come dedurre questa rete ad altri tomogrammi e come estrarre segmentazioni per ulteriori analisi, come la media dei sottotomogrammi e il tracciamento dei filamenti.
La tomografia crioelettronica (cryo-ET) consente ai ricercatori di visualizzare le cellule nel loro stato nativo e idratato alla massima risoluzione attualmente possibile. La tecnica ha diverse limitazioni, tuttavia, che rendono l'analisi dei dati che genera dispendiosa in termini di tempo e difficile. La segmentazione manuale di un singolo tomogramma può richiedere da ore a giorni, ma un microscopio può facilmente generare 50 o più tomogrammi al giorno. Gli attuali programmi di segmentazione del deep learning per la crio-ET esistono, ma sono limitati alla segmentazione di una struttura alla volta. Qui, le reti neurali convoluzionali multi-slice U-Net vengono addestrate e applicate per segmentare automaticamente più strutture contemporaneamente all'interno dei criotogrammi. Con una corretta pre-elaborazione, queste reti possono essere dedotte in modo robusto per molti tomogrammi senza la necessità di addestrare singole reti per ciascun tomogramma. Questo flusso di lavoro migliora notevolmente la velocità con cui i tomogrammi crioelettronici possono essere analizzati riducendo il tempo di segmentazione a meno di 30 minuti nella maggior parte dei casi. Inoltre, le segmentazioni possono essere utilizzate per migliorare l'accuratezza del tracciamento dei filamenti all'interno di un contesto cellulare e per estrarre rapidamente le coordinate per la media dei sottotomogrammi.
Gli sviluppi hardware e software nell'ultimo decennio hanno portato a una "rivoluzione della risoluzione" per la microscopia crioelettronica (cryo-EM)1,2. Con rivelatori migliori e più veloci3, software per automatizzare la raccolta dei dati4,5 e progressi di potenziamento del segnale come le piastre di fase6, la raccolta di grandi quantità di dati crio-EM ad alta risoluzione è relativamente semplice.
Cryo-ET offre una visione senza precedenti dell'ultrastruttura cellulare in uno stato nativo e idratato 7,8,9,10. Il limite principale è lo spessore del campione, ma con l'adozione di metodi come la fresatura a fascio ionico focalizzato (FIB), in cui i campioni cellulari e tissutali spessi vengono assottigliati per la tomografia11, l'orizzonte per ciò che può essere ripreso con crio-ET è in continua espansione. I microscopi più recenti sono in grado di produrre ben oltre 50 tomogrammi al giorno, e questo tasso è destinato ad aumentare solo a causa dello sviluppo di schemi di raccolta rapida dei dati12,13. L'analisi delle grandi quantità di dati prodotti da cryo-ET rimane un collo di bottiglia per questa modalità di imaging.
L'analisi quantitativa delle informazioni tomografiche richiede che prima siano annotate. Tradizionalmente, ciò richiede la segmentazione manuale da parte di un esperto, che richiede tempo; A seconda della complessità molecolare contenuta all'interno del criotogramma, possono essere necessarie ore o giorni di attenzione dedicata. Le reti neurali artificiali sono una soluzione interessante a questo problema poiché possono essere addestrate a svolgere la maggior parte del lavoro di segmentazione in una frazione del tempo. Le reti neurali convoluzionali (CNN) sono particolarmente adatte ai compiti di visione artificiale14 e sono state recentemente adattate per l'analisi dei tomogrammi crioelettronici15,16,17.
Le CNN tradizionali richiedono molte migliaia di campioni di addestramento annotati, il che spesso non è possibile per le attività di analisi delle immagini biologiche. Quindi, l'architettura U-Net ha eccelso in questo spazio18 perché si basa sull'aumento dei dati per addestrare con successo la rete, riducendo al minimo la dipendenza da grandi set di addestramento. Ad esempio, un'architettura U-Net può essere addestrata solo con poche sezioni di un singolo tomogramma (quattro o cinque fette) e dedotta in modo robusto ad altri tomogrammi senza riaddestramento. Questo protocollo fornisce una guida passo-passo per addestrare le architetture di rete neurale U-Net per segmentare i criotogrammi elettronici all'interno di Dragonfly 2022.119.
Dragonfly è un software sviluppato commercialmente utilizzato per la segmentazione e l'analisi di immagini 3D mediante modelli di deep learning ed è disponibile gratuitamente per uso accademico (si applicano alcune restrizioni geografiche). Ha un'interfaccia grafica avanzata che consente a un non esperto di sfruttare appieno le potenze del deep learning sia per la segmentazione semantica che per il denoising delle immagini. Questo protocollo dimostra come preelaborare e annotare tomogrammi crioelettronici all'interno di Dragonfly per addestrare reti neurali artificiali, che possono quindi essere dedotte per segmentare rapidamente grandi set di dati. Discute ulteriormente e dimostra brevemente come utilizzare i dati segmentati per ulteriori analisi, come il tracciamento dei filamenti e l'estrazione delle coordinate per la media dei sub-tomogrammi.
NOTA: Dragonfly 2022.1 richiede una workstation ad alte prestazioni. Le raccomandazioni di sistema sono incluse nella tabella dei materiali insieme all'hardware della workstation utilizzata per questo protocollo. Tutti i tomogrammi utilizzati in questo protocollo sono binned 4x da una dimensione dei pixel da 3,3 a 13,2 ang / pix. I campioni utilizzati nei risultati rappresentativi sono stati ottenuti da un'azienda (vedere la tabella dei materiali) che segue le linee guida per la cura degli animali che si allineano agli standard etici di questa istituzione. Il tomogramma utilizzato in questo protocollo e il multi-ROI generato come input di formazione sono stati inclusi come set di dati in bundle nel file supplementare 1 (che può essere trovato in https://datadryad.org/stash/dataset/doi:10.5061/dryad.rxwdbrvct) in modo che l'utente possa seguire gli stessi dati se lo desidera. Dragonfly ospita anche un database ad accesso aperto chiamato Infinite Toolbox in cui gli utenti possono condividere reti addestrate.
1. Configurazione
2. Importazione di immagini
3. Pre-elaborazione (Figura 1.1)
4. Creare dati di addestramento (Figura 1.2)
5. Utilizzo della procedura guidata di segmentazione per la formazione iterativa (Figura 1.3)
6. Applicare la rete (Figura 1.4)
7. Manipolazione e pulizia della segmentazione
8. Generazione di coordinate per la media dei sottotomogrammi dal ROI
9. Trasformazione spartiacque
Figura 1: Flusso di lavoro. 1) Pre-elaborare il tomogramma di addestramento calibrando la scala di intensità e filtrando il set di dati. 2) Creare i dati di allenamento segmentando manualmente una piccola porzione di un tomogramma con tutte le etichette appropriate che l'utente desidera identificare. 3) Utilizzando il tomogramma filtrato come input e la segmentazione della mano come output di allenamento, un U-Net multi-fetta a cinque strati viene addestrato nella procedura guidata di segmentazione. 4) La rete addestrata può essere applicata al tomogramma completo per annotarlo e un rendering 3D può essere generato da ogni classe segmentata. Fare clic qui per visualizzare una versione ingrandita di questa figura.
Seguendo il protocollo, un U-Net a cinque fette è stato addestrato su un singolo tomogramma (Figura 2A) per identificare cinque classi: membrana, microtubuli, actina, marcatori fiduciali e background. La rete è stata addestrata iterativamente per un totale di tre volte, quindi applicata al tomogramma per segmentarla e annotarla completamente (Figura 2B,C). La pulizia minima è stata eseguita utilizzando i passaggi 7.1 e 7.2. I successivi tre tomogrammi di interesse (Figura 2D,G,J) sono stati caricati nel software per la pre-elaborazione. Prima dell'importazione dell'immagine, uno dei tomogrammi (Figura 2J) richiedeva la regolazione della dimensione dei pixel da 17,22 Å / px a 13,3 Å / px poiché veniva raccolto su un microscopio diverso con un ingrandimento leggermente diverso. Il programma IMOD squeezevol è stato utilizzato per il ridimensionamento con il seguente comando:
'squeezevol -f 0.772 inputfile.mrc outputfile.mrc'
In questo comando, -f si riferisce al fattore con cui modificare la dimensione dei pixel (in questo caso: 13.3/17.22). Dopo l'importazione, tutti e tre gli obiettivi di inferenza sono stati pre-elaborati secondo i passaggi 3.2 e 3.3, quindi è stato applicato U-Net a cinque sezioni. È stata nuovamente eseguita una pulizia minima. Le segmentazioni finali sono visualizzate nella Figura 2.
Le segmentazioni dei microtubuli da ciascun tomogramma sono state esportate come file TIF binari (passo 7.4), convertiti in MRC (programma IMOD tif2mrc ) e quindi utilizzati per la correlazione dei cilindri e il tracciamento dei filamenti. Le segmentazioni binarie dei filamenti si traducono in un tracciamento dei filamenti molto più robusto rispetto al tracciamento sui tomogrammi. Le mappe di coordinate dal tracciamento dei filamenti (Figura 3) saranno utilizzate per ulteriori analisi, come le misurazioni del vicino più vicino (impacchettamento del filamento) e la media del subtomogramma elicoidale lungo i singoli filamenti per determinare l'orientamento dei microtubuli.
Le reti non riuscite o non adeguatamente addestrate sono facili da determinare. Una rete guasta non sarà in grado di segmentare alcuna struttura, mentre una rete non adeguatamente addestrata in genere segmenterà correttamente alcune strutture e avrà un numero significativo di falsi positivi e falsi negativi. Queste reti possono essere corrette e addestrate iterativamente per migliorare le loro prestazioni. La procedura guidata di segmentazione calcola automaticamente il coefficiente di somiglianza dei dadi di un modello (chiamato punteggio nella SegWiz) dopo che è stato addestrato. Questa statistica fornisce una stima della somiglianza tra i dati di allenamento e la segmentazione U-Net. Dragonfly 2022.1 ha anche uno strumento integrato per valutare le prestazioni di un modello a cui è possibile accedere nella scheda Intelligenza artificiale nella parte superiore dell'interfaccia (vedere la documentazione per l'utilizzo).
Figura 2: Inferenza. (A-C) Tomogramma di addestramento originale di un neurone di ratto ippocampale DIV 5, raccolto nel 2019 su un Titan Krios. Questa è una ricostruzione retroproiettata con correzione CTF in IMOD. (A) La casella gialla rappresenta la regione in cui è stata eseguita la segmentazione della mano per l'input di formazione. (B) Segmentazione 2D da U-Net al termine dell'addestramento. (C) Rendering 3D delle regioni segmentate che mostrano membrana (blu), microtubuli (verde) e actina (rosso). (D-F) DIV 5 neurone di ratto ippocampale dalla stessa sessione del tomogramma di allenamento. (E) Segmentazione 2D da U-Net senza formazione aggiuntiva e pulizia rapida. Membrana (blu), microtubuli (verde), actina (rosso), fiduciali (rosa). (F) Rendering 3D delle regioni segmentate. (G-I) DIV 5 neurone di ratto ippocampale dalla sessione 2019. (H) segmentazione 2D da U-Net con pulizia rapida e (I) rendering 3D. (J-L) DIV 5 neurone di ratto ippocampale, raccolto nel 2021 su un diverso Titan Krios a un diverso ingrandimento. La dimensione dei pixel è stata modificata con il programma IMOD squeezevol per abbinare il tomogramma di allenamento. (K) Segmentazione 2D dalla rete U-Net con pulizia rapida, dimostrando una solida inferenza tra i set di dati con un'adeguata pre-elaborazione e (L) rendering 3D della segmentazione. Barre di scala = 100 nm. Abbreviazioni: DIV = giorni in vitro; CTF = funzione di trasferimento del contrasto. Fare clic qui per visualizzare una versione ingrandita di questa figura.
Figura 3: Miglioramento del tracciamento dei filamenti . (A) Tomogramma di un neurone ippocampale di ratto DIV 4, raccolto su un Titan Krios. (B) Mappa di correlazione generata dalla correlazione dei cilindri sui filamenti di actina. (C) Tracciatura dei filamenti di actina utilizzando le intensità dei filamenti di actina nella mappa di correlazione per definire i parametri. Il tracciamento cattura la membrana e i microtubuli, così come il rumore, mentre cerca di tracciare solo l'actina. (D) Segmentazione U-Net del tomogramma. Membrana evidenziata in blu, microtubuli in rosso, ribosomi in arancione, triC in viola e actina in verde. (E) Segmentazione dell'actina estratta come maschera binaria per il tracciamento dei filamenti. (F) Mappa di correlazione generata dalla correlazione del cilindro con gli stessi parametri di (B). (G) Tracciatura dei filamenti significativamente migliorata dei soli filamenti di actina dal tomogramma. Abbreviazione: DIV = giorni in vitro. Fare clic qui per visualizzare una versione ingrandita di questa figura.
File supplementare 1: il tomogramma utilizzato in questo protocollo e il multi-ROI generato come input di training sono inclusi come set di dati in bundle (Training.ORSObject). Vedi https://datadryad.org/stash/dataset/doi:10.5061/dryad.rxwdbrvct.
Questo protocollo stabilisce una procedura per l'utilizzo del software Dragonfly 2022.1 per addestrare un U-Net multiclasse da un singolo tomogramma e come dedurre quella rete ad altri tomogrammi che non devono provenire dallo stesso set di dati. La formazione è relativamente veloce (può essere veloce come 3-5 minuti per epoca o lenta come poche ore, a seconda interamente della rete che viene addestrata e dell'hardware utilizzato), e riqualificare una rete per migliorare il suo apprendimento è intuitivo. Finché le fasi di pre-elaborazione vengono eseguite per ogni tomogramma, l'inferenza è in genere robusta.
La pre-elaborazione coerente è il passaggio più critico per l'inferenza del deep learning. Ci sono molti filtri di imaging nel software e l'utente può sperimentare per determinare quali filtri funzionano meglio per particolari set di dati; Si noti che qualsiasi filtro utilizzato sul tomogramma di addestramento deve essere applicato allo stesso modo ai tomogrammi di inferenza. Occorre inoltre prestare attenzione a fornire alla rete informazioni di formazione accurate e sufficienti. È fondamentale che tutte le caratteristiche segmentate all'interno delle sezioni di allenamento siano segmentate nel modo più accurato e preciso possibile.
La segmentazione delle immagini è facilitata da una sofisticata interfaccia utente di livello commerciale. Fornisce tutti gli strumenti necessari per la segmentazione della mano e consente la semplice riassegnazione dei voxel da una classe all'altra prima dell'addestramento e della riqualificazione. L'utente è autorizzato a segmentare a mano i voxel all'interno dell'intero contesto del tomogramma, e gli vengono date più viste e la possibilità di ruotare liberamente il volume. Inoltre, il software offre la possibilità di utilizzare reti multiclasse, che tendono a funzionare meglio16 e sono più veloci rispetto alla segmentazione con più reti a classe singola.
Ci sono, naturalmente, limitazioni alle capacità di una rete neurale. I dati Cryo-ET sono, per natura, molto rumorosi e limitati nel campionamento angolare, il che porta a distorsioni specifiche dell'orientamento in oggetti identici21. La formazione si basa su un esperto per segmentare accuratamente le strutture e una rete di successo è buona (o cattiva) solo quanto i dati di addestramento che viene fornita. Il filtraggio delle immagini per aumentare il segnale è utile per il trainer, ma ci sono ancora molti casi in cui identificare con precisione tutti i pixel di una determinata struttura è difficile. È quindi importante prestare molta attenzione quando si crea la segmentazione della formazione in modo che la rete abbia le migliori informazioni possibili per apprendere durante la formazione.
Questo flusso di lavoro può essere facilmente modificato in base alle preferenze di ciascun utente. Mentre è essenziale che tutti i tomogrammi siano pre-elaborati esattamente nello stesso modo, non è necessario utilizzare i filtri esatti utilizzati nel protocollo. Il software ha numerose opzioni di filtraggio delle immagini e si consiglia di ottimizzarle per i dati particolari dell'utente prima di intraprendere un grande progetto di segmentazione che copre molti tomogrammi. Ci sono anche alcune architetture di rete disponibili per l'uso: un U-Net multi-slice è stato trovato per funzionare meglio per i dati di questo laboratorio, ma un altro utente potrebbe scoprire che un'altra architettura (come un U-Net 3D o un Sensor 3D) funziona meglio. La procedura guidata di segmentazione fornisce una comoda interfaccia per confrontare le prestazioni di più reti utilizzando gli stessi dati di addestramento.
Strumenti come quelli presentati qui renderanno la segmentazione manuale di tomogrammi completi un compito del passato. Con reti neurali ben addestrate che sono solidamente desumibili, è del tutto fattibile creare un flusso di lavoro in cui i dati tomografici vengono ricostruiti, elaborati e completamente segmentati con la stessa rapidità con cui il microscopio può raccoglierli.
La licenza ad accesso aperto per questo protocollo è stata pagata da Object Research Systems.
Questo studio è stato sostenuto dal Penn State College of Medicine e dal Dipartimento di Biochimica e Biologia Molecolare, nonché dalla sovvenzione del Tobacco Settlement Fund (TSF) 4100079742-EXT. I servizi e gli strumenti CryoEM e CryoET Core (RRID: SCR_021178) utilizzati in questo progetto sono stati finanziati, in parte, dal Pennsylvania State University College of Medicine attraverso l'Ufficio del Vice Decano della Ricerca e degli Studenti Laureati e il Dipartimento della Salute della Pennsylvania utilizzando Tobacco Settlement Funds (CURE). Il contenuto è di esclusiva responsabilità degli autori e non rappresenta necessariamente le opinioni ufficiali dell'Università o del College of Medicine. Il Dipartimento della Salute della Pennsylvania declina espressamente la responsabilità per eventuali analisi, interpretazioni o conclusioni.
Name | Company | Catalog Number | Comments |
Dragonfly 2022.1 | Object Research Systems | https://www.theobjects.com/dragonfly/index.html | |
E18 Rat Dissociated Hippocampus | Transnetyx Tissue | KTSDEDHP | https://tissue.transnetyx.com/faqs |
IMOD | University of Colorado | https://bio3d.colorado.edu/imod/ | |
Intel® Xeon® Gold 6124 CPU 3.2GHz | Intel | https://www.intel.com/content/www/us/en/products/sku/120493/intel-xeon-gold-6134-processor-24-75m-cache-3-20-ghz/specifications.html | |
NVIDIA Quadro P4000 | NVIDIA | https://www.nvidia.com/content/dam/en-zz/Solutions/design-visualization/productspage/quadro/quadro-desktop/quadro-pascal-p4000-data-sheet-a4-nvidia-704358-r2-web.pdf | |
Windows 10 Enterprise 2016 | Microsoft | https://www.microsoft.com/en-us/evalcenter/evaluate-windows-10-enterprise | |
Workstation Minimum Requirements | https://theobjects.com/dragonfly/system-requirements.html |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon