Method Article
Gli algoritmi di apprendimento automatico sono stati addestrati per utilizzare modelli di attività cerebrale per "decodificare" gli stimoli presentati agli esseri umani. Qui, dimostriamo che la stessa tecnica può decodificare contenuti video naturalistici dal cervello di due cani domestici. Scopriamo che i decoder basati sulle azioni nei video hanno avuto successo nei cani.
I recenti progressi che utilizzano l'apprendimento automatico e la risonanza magnetica funzionale (fMRI) per decodificare gli stimoli visivi dalla corteccia umana e non umana hanno portato a nuove intuizioni sulla natura della percezione. Tuttavia, questo approccio deve ancora essere applicato in modo sostanziale ad animali diversi dai primati, sollevando interrogativi sulla natura di tali rappresentazioni in tutto il regno animale. Qui, abbiamo utilizzato la risonanza magnetica funzionale da sveglio in due cani domestici e due esseri umani, ottenuta mentre ciascuno guardava video naturalistici appositamente creati per il cane. Abbiamo quindi addestrato una rete neurale (Ivis) a classificare il contenuto video da un totale di 90 minuti di attività cerebrale registrata da ciascuno. Abbiamo testato sia un classificatore basato su oggetti, che tenta di discriminare categorie come cane, umano e auto, sia un classificatore basato su azioni, che tenta di discriminare categorie come mangiare, annusare e parlare. Rispetto ai due soggetti umani, per i quali entrambi i tipi di classificatori hanno ottenuto risultati ben superiori al caso, solo i classificatori basati sull'azione sono riusciti a decodificare i contenuti video dei cani. Questi risultati dimostrano la prima applicazione nota dell'apprendimento automatico per decodificare video naturalistici dal cervello di un carnivoro e suggeriscono che la visione del mondo dall'occhio del cane potrebbe essere molto diversa dalla nostra.
Il cervello degli esseri umani, come altri primati, dimostra la parcellazione del flusso visivo in percorsi dorsali e ventrali con funzioni distinte e ben note: il "cosa" e il "dove"degli oggetti. Questa dicotomia cosa/dove è stata un'euristica utile per decenni, ma le sue basi anatomiche sono ora note per essere molto più complesse, con molti ricercatori a favore di una parcellazione basata sul riconoscimento rispetto all'azione ("cosa" vs. "come")2,3,4,5. Inoltre, mentre la nostra comprensione dell'organizzazione del sistema visivo dei primati continua ad essere raffinata e dibattuta, molto rimane sconosciuto su come il cervello di altre specie di mammiferi rappresenti le informazioni visive. In parte, questa lacuna è il risultato dell'attenzione storica su una manciata di specie nelle neuroscienze visive. Nuovi approcci all'imaging cerebrale, tuttavia, stanno aprendo la possibilità di studiare in modo non invasivo i sistemi visivi di una gamma più ampia di animali, il che potrebbe fornire nuove intuizioni sull'organizzazione del sistema nervoso dei mammiferi.
I cani (Canis lupus familiaris) rappresentano una ricca opportunità per studiare la rappresentazione degli stimoli visivi in una specie evolutivamente distante dai primati, in quanto potrebbero essere l'unico animale che può essere addestrato a partecipare in modo cooperativo alla risonanza magnetica senza la necessità di sedazione o costrizione 6,7,8. A causa della loro co-evoluzione con gli esseri umani negli ultimi 15.000 anni, anche i cani abitano i nostri ambienti e sono esposti a molti degli stimoli che gli esseri umani incontrano quotidianamente, compresi gli schermi video, che sono il modo preferito per presentare gli stimoli in uno scanner MRI. Anche così, i cani possono elaborare questi stimoli ambientali comuni in modi molto diversi dagli esseri umani, il che pone la domanda su come è organizzata la loro corteccia visiva. Le differenze di base, come la mancanza di una fovea o l'essere un dicromatico, possono avere conseguenze significative a valle non solo per la percezione visiva di livello inferiore, ma anche per la rappresentazione visiva di livello superiore. Diversi studi di fMRI nei cani hanno dimostrato l'esistenza di regioni di elaborazione del viso e degli oggetti che sembrano seguire l'architettura generale del flusso dorsale/ventrale osservata nei primati, sebbene non sia chiaro se i cani abbiano regioni di elaborazione del volto di per sé o se queste regioni siano selettive per la morfologia della testa (ad esempio, cane vs. umano)9, 10,11,12,13. Indipendentemente da ciò, si prevede che il cervello di un cane, essendo più piccolo della maggior parte dei primati, sia menomodulare, quindi potrebbe esserci una maggiore mescolanza di tipi di informazioni nei flussi o addirittura un privilegio di certi tipi di informazioni, come le azioni. È stato suggerito, ad esempio, che il movimento potrebbe essere una caratteristica più saliente nella percezione visiva canina rispetto alla consistenza o al colore15. Inoltre, poiché i cani non hanno le mani, uno dei mezzi principali attraverso i quali interagiamo con il mondo, la loro elaborazione visiva, in particolare degli oggetti, può essere molto diversa da quella dei primati. In linea con ciò, abbiamo recentemente trovato prove che l'interazione con gli oggetti da parte della bocca rispetto alla zampa ha portato a una maggiore attivazione nelle regioni selettive dell'oggetto nel cervello del cane16.
Sebbene i cani possano essere abituati agli schermi video nel loro ambiente domestico, ciò non significa che siano abituati a guardare le immagini in un ambiente sperimentale allo stesso modo di un essere umano. L'uso di stimoli più naturalistici può aiutare a risolvere alcune di queste domande. Nell'ultimo decennio, gli algoritmi di apprendimento automatico hanno ottenuto un notevole successo nella decodifica di stimoli visivi naturalistici provenienti dall'attività cerebrale umana. I primi successi si sono concentrati sull'adattamento dei classici disegni bloccati per utilizzare l'attività cerebrale sia per classificare i tipi di stimoli che un individuo stava vedendo, sia per le reti cerebrali che codificavano queste rappresentazioni 17,18,19. Man mano che venivano sviluppati algoritmi più potenti, in particolare le reti neurali, è stato possibile decodificare stimoli più complessi, inclusi i video naturalistici20,21. Questi classificatori, che sono tipicamente addestrati sulle risposte neurali a questi video, generalizzano a nuovi stimoli, consentendo loro di identificare ciò che un particolare soggetto stava osservando al momento della risposta fMRI. Ad esempio, alcuni tipi di azioni nei film possono essere decodificati con precisione dal cervello umano, come saltare e girarsi, mentre altri (ad esempio, il trascinamento) non possono22. Allo stesso modo, sebbene molti tipi di oggetti possano essere decodificati dalle risposte fMRI, le categorie generali sembrano essere più difficili. La decodifica cerebrale non è limitata agli esseri umani, fornendo un potente strumento per capire come le informazioni sono organizzate nei cervelli di altre specie. Analoghi esperimenti di fMRI con primati non umani hanno trovato rappresentazioni distinte nel lobo temporale per le dimensioni dell'animazione e della faciness/corporeità, che sono parallele a quelle degli esseri umani23.
Come primo passo verso la comprensione delle rappresentazioni dei cani degli stimoli visivi naturalistici, la risonanza magnetica funzionale da sveglio è stata utilizzata in due cani domestici altamente esperti di risonanza magnetica per misurare le risposte corticali ai video appropriati per il cane. In questo studio, i video naturalistici sono stati utilizzati a causa della loro potenziale maggiore validità ecologica per un cane e per il loro successo dimostrato con le reti neurali che mappano il contenuto video al movimento del cane24. Nel corso di tre sessioni separate, sono stati ottenuti 90 minuti di dati fMRI dalle risposte di ciascun cane a 256 video clip unici. Per confronto, la stessa procedura è stata eseguita su due volontari umani. Quindi, utilizzando una rete neurale, abbiamo addestrato e testato i classificatori per discriminare "oggetti" (ad esempio, umano, cane, auto) o "azioni" (ad esempio, parlare, mangiare, annusare) utilizzando un numero variabile di classi. Gli obiettivi di questo studio erano duplici: 1) determinare se gli stimoli video naturalistici potessero essere decodificati dalla corteccia del cane; e 2) in tal caso, fornire un primo sguardo per capire se l'organizzazione era simile a quella degli esseri umani.
Lo studio sui cani è stato approvato dalla Emory University IACUC (PROTO201700572) e tutti i proprietari hanno dato il consenso scritto per la partecipazione del loro cane allo studio. Le procedure dello studio sull'uomo sono state approvate dall'IRB della Emory University e tutti i partecipanti hanno fornito il consenso scritto prima della scansione (IRB00069592).
1. Partecipanti
2. Stimoli
3. Progettazione sperimentale
4. Imaging
5. Etichette di stimolo
6. Pre-elaborazione fMRI
7. Analisi
Le metriche più comuni per valutare le prestazioni del modello nelle analisi di Machine Learning includono precisione, accuratezza, richiamo e punteggio F1. L'accuratezza è la percentuale complessiva di previsioni del modello corrette, dati i dati veri. La precisione è la percentuale di previsioni positive del modello che sono effettivamente positive (ad esempio, il tasso di veri positivi), mentre il richiamo è la percentuale di veri positivi nei dati originali che il modello è in grado di prevedere con successo. Il punteggio F1 è la media ponderata della precisione e del richiamo e funge da misura alternativa dell'accuratezza che è più robusta per lo squilibrio di classe. Tuttavia, l'Ivis differisce da altri algoritmi di apprendimento automatico comunemente usati in quanto il suo output non è binario. Dato un particolare input di voxel cerebrali, ogni elemento di output rappresenta le probabilità corrispondenti a ciascuna delle classi. Il calcolo dell'accuratezza, della precisione, del richiamo e di F1 per questi output richiedeva la loro binarizzazione in un modo "chi vince prende tutto", in cui la classe con la probabilità più alta era considerata quella prevista per quel volume. Questo approccio ha eliminato informazioni importanti sulla classificazione di queste probabilità che erano rilevanti per valutare la qualità del modello. Pertanto, mentre abbiamo ancora calcolato queste metriche tradizionali, abbiamo utilizzato il punteggio LRAP (Label Ranking Average Precision) come metrica principale per calcolare l'accuratezza del modello sul set di test. Questa metrica misura essenzialmente in che misura il classificatore ha assegnato probabilità più elevate alle etichette vere37.
A diversi livelli, il classificatore di reti neurali ha avuto successo sia per gli esseri umani che per i cani. Per gli esseri umani, l'algoritmo è stato in grado di classificare sia gli oggetti che le azioni, con modelli a tre classi per entrambi che hanno raggiunto un'accuratezza media del 70%. Il punteggio LRAP è stato utilizzato come metrica primaria per calcolare l'accuratezza del modello sul set di test; Questa metrica misura la misura in cui il classificatore ha assegnato probabilità più elevate alle etichette vere37. Per entrambi gli esseri umani, i punteggi LRAP mediani erano superiori al 99° percentile di un insieme di etichette permutate in modo casuale per tutti i modelli testati (Tabella 1; Figura 2). Per i cani, solo il modello d'azione aveva un rango percentile LRAP mediano significativamente maggiore del caso in entrambi i partecipanti (Tabella 1; p = 0,13 per gli oggetti e p < 0,001 per le azioni; punteggio LRAP medio del modello di azione a tre classi per i cani = 78° percentile). Questi risultati erano veri per tutti i soggetti individualmente, così come quando raggruppati per specie.
Dato il successo del classificatore, è stato eseguito il training e il test con classi aggiuntive per determinare i limiti del modello. Ciò includeva il calcolo delle matrici di dissimilarità per tutte le 52 potenziali classi di interesse utilizzando l'algoritmo di clustering gerarchico del pacchetto Python scipy, che raggruppava le classi in base alla somiglianza della risposta cerebrale di un individuo a ciascuna, come definito dalla correlazione a coppie. Dei modelli aggiuntivi testati, il modello con il più alto percentile mediano di LRAP in entrambi i cani aveva cinque classi: l'originale "parlare", "mangiare" e "annusare", più due nuove classi, "accarezzare" e "giocare" (Figura 2). Questo modello aveva un rango percentile LRAP mediano significativamente maggiore di quello previsto casualmente per tutti i partecipanti (Tabella 1; p < 0,001 sia per i cani che per gli esseri umani; punteggio LRAP medio del modello di azione di cinque classi per i cani = 81° percentile).
Quando sono stati rimappati nei rispettivi atlanti cerebrali, i punteggi di importanza delle caratteristiche dei voxel hanno rivelato una serie di gruppi di voxel informativi nelle cortecce occipitale, parietale e temporale sia dei cani che degli esseri umani (Figura 3). Negli esseri umani, i modelli basati sugli oggetti e sull'azione hanno rivelato un modello più focale rispetto ai cani e nelle regioni tipicamente associate al riconoscimento degli oggetti, sebbene con lievi differenze nella posizione spaziale dei voxel basati sugli oggetti e dei voxel basati sull'azione.
Abbiamo verificato che queste differenze di specie non erano il risultato del movimento correlato al compito dei cani che si muovevano più su alcuni tipi di video rispetto ad altri (ad esempio, video diversi dai cani, ad esempio, automobili). Abbiamo calcolato la norma euclidea dei sei parametri di movimento e adattato un modello lineare a effetti misti utilizzando il pacchetto R lme4, con la classe come effetto fisso e il numero di corsa come effetto casuale per ogni cane. Per ciascuno dei modelli finali, non abbiamo riscontrato alcun effetto significativo del tipo di classe sul movimento né per Daisy (F(2, 2252) = 0,83, p = 0,44 per basato su oggetti e F(4, 1235) = 1,87, p = 0,11 per basato su azione) o Bhubo (F(2, 2231) = 1,71, p = 0,18 per basato su oggetti e F(4, 1221) = 0,94, p = 0,45 per basato su azione).
Figura 1: Video naturalistici e presentazione in risonanza magnetica. (A) Esempi di fotogrammi da clip video mostrati ai partecipanti. (B) Bhubo, un Boxer-mix di 4 anni, guarda video mentre si sottopone a risonanza magnetica funzionale da sveglio. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 2: Prestazioni del modello nei cani e nell'uomo. La distribuzione dei punteggi LRAP, presentati come classifiche percentili delle loro distribuzioni nulle, oltre 100 iterazioni di addestramento e test dell'algoritmo di apprendimento automatico Ivis per un modello basato su oggetti a tre classi, un modello basato sull'azione a tre classi e un modello basato sull'azione a cinque classi, in cui i modelli hanno tentato di classificare le risposte BOLD agli stimoli video naturalistici ottenuti tramite fMRI risvegliata nei cani e nell'uomo. I punteggi sono aggregati per specie. Un punteggio LRAP con un ranking percentile molto alto indica che è molto improbabile che il modello raggiunga quel punteggio LRAP per caso. Un modello che non si comporta meglio del caso avrebbe un punteggio LRAP mediano di ~50. Le linee tratteggiate rappresentano la classificazione percentile del punteggio LRAP mediano per ciascuna specie in tutte le 100 esecuzioni. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 3: Regioni importanti per la discriminazione dei modelli di azione a tre classi e a cinque classi. (A) Partecipanti umani e (B) cani. I voxel sono stati classificati in base all'importanza delle loro caratteristiche utilizzando un classificatore di foreste casuale, calcolato in media in tutte le iterazioni dei modelli. Il 5% dei voxel più alti (cioè quelli utilizzati per addestrare i modelli) sono presentati qui, aggregati per specie e trasformati in spazio di gruppo per scopi di visualizzazione (atlanti: esseri umani34 e cani35). Le etichette mostrano le regioni del cervello del cane con punteggi di importanza delle caratteristiche elevati, sulla base di quelli identificati da Johnson et al.35. Abbreviazione: SSM = il giro soprasilviano. Clicca qui per visualizzare una versione più grande di questa figura.
Tipo di modello | Precisione dell'allenamento | Accuratezza del test | Punteggio F1 | Precisione | Ricordare | Percentile mediano del punteggio LRAP | |
Umano 1 | Oggetto (3 classi) | 0.98 | 0.69 | 0.48 | 0.52 | 0.49 | >99 |
Azione (3 classi) | 0.98 | 0.72 | 0.51 | 0.54 | 0.54 | >99 | |
Azione (5 classi) | 0.97 | 0.51 | 0.28 | 0.37 | 0.27 | >99 | |
Umano 2 | Oggetto (3 classi) | 0.98 | 0.68 | 0.45 | 0.5 | 0.47 | >99 |
Azione (3 classi) | 0.98 | 0.69 | 0.46 | 0.5 | 0.48 | >99 | |
Azione (5 classi) | 0.97 | 0.53 | 0.3 | 0.4 | 0.27 | >99 | |
Bhubo | Oggetto (3 classi) | 0.99 | 0.61 | 0.38 | 0.41 | 0.39 | 57 |
Azione (3 classi) | 0.98 | 0.63 | 0.38 | 0.4 | 0.4 | 87 | |
Azione (5 classi) | 0.99 | 0.45 | 0.16 | 0.29 | 0.13 | 88 | |
Margherita | Oggetto (3 classi) | 1 | 0.61 | 0.38 | 0.43 | 0.39 | 43 |
Azione (3 classi) | 0.97 | 0.62 | 0.35 | 0.38 | 0.35 | 60 | |
Azione (5 classi) | 0.99 | 0.44 | 0.16 | 0.27 | 0.13 | 76 |
Tabella 1: Metriche aggregate dell'algoritmo di apprendimento automatico Ivis su 100 iterazioni di addestramento e test sulle risposte BOLD a stimoli video naturalistici ottenuti tramite fMRI da svegli in cani e esseri umani. I modelli a oggetti avevano tre classi target ("cane", "umano", "auto"), e i modelli d'azione avevano tre o cinque classi (tre classi: "parlare", "mangiare", "annusare"; cinque classi: "parlare", "mangiare", "annusare", "accarezzare", "giocare"). I valori significativamente maggiori della probabilità sono mostrati in grassetto.
Tabella supplementare 1: Etichette di classe. Clicca qui per scaricare questo file.
Filmato supplementare 1: Esempio di video clip. Clicca qui per scaricare questo file.
I risultati di questo studio dimostrano che i video naturalistici inducono rappresentazioni nel cervello dei cani che sono abbastanza stabili da poter essere decodificate con la risonanza magnetica funzionale, in modo simile ai risultati ottenuti sia negli esseri umani che nelle scimmie 20,23. Mentre precedenti studi fMRI sul sistema visivo canino hanno presentato stimoli spogli, come un volto o un oggetto su uno sfondo neutro, i risultati dimostrano che i video naturalistici, con più persone e oggetti che interagiscono tra loro, inducono modelli di attivazione nella corteccia del cane che possono essere decodificati con un'affidabilità che si avvicina a quella osservata nella corteccia umana. Questo approccio apre nuove strade di indagine su come è organizzato il sistema visivo del cane.
Sebbene il campo della fMRI canina sia cresciuto rapidamente, fino ad oggi, questi esperimenti si sono basati su stimoli relativamente poveri, come immagini di persone o oggetti su sfondi neutri 10,12,13. Inoltre, mentre questi esperimenti hanno iniziato a identificare regioni cerebrali analoghe all'area fusiforme del viso dei primati (FFA), coinvolta nell'elaborazione del volto, e alla corteccia occipitale laterale (LOC), per l'elaborazione degli oggetti, rimane disaccordo sulla natura di queste rappresentazioni, ad esempio se i cani hanno aree del viso di per sé che rispondono a caratteristiche salienti simili a quelle dei primati o se hanno rappresentazioni separate per cani e umani o volti e teste. ad esempio 9,13. I cani, ovviamente, non sono primati, e non sappiamo come interpretino questi stimoli artificiali avulsi dai loro consueti contesti multisensoriali con suoni e odori. Alcune prove suggeriscono che i cani non trattano le immagini di oggetti come rappresentazioni di cose reali12. Sebbene non sia possibile creare una vera esperienza multisensoriale nello scanner, l'uso di video naturalistici può mitigare parte dell'artificialità fornendo stimoli dinamici che corrispondono più da vicino al mondo reale, almeno per un cane. Per le stesse ragioni, l'uso di stimoli naturalistici nella ricerca fMRI umana ha guadagnato popolarità, dimostrando, ad esempio, che le sequenze di eventi in un film sono rappresentate nella corteccia su più scale temporali e che i film sono efficaci nell'indurre un'attivazione emotiva affidabile38. Pertanto, mentre i video naturalistici rimangono stimoli relativamente poveri, il loro successo nelle neuroscienze umane pone la domanda se risultati simili possano essere ottenuti nei cani.
I nostri risultati mostrano che un classificatore di reti neurali è riuscito a decodificare alcuni tipi di contenuti naturalistici dal cervello dei cani. Questo successo è un'impresa impressionante data la complessità degli stimoli. È importante sottolineare che, poiché il classificatore è stato testato su clip video invisibili, il modello di decodifica ha raccolto ampie categorie identificabili tra le clip piuttosto che proprietà specifiche per le singole scene. Va notato che esistono più metriche per quantificare le prestazioni di un classificatore di machine learning (Tabella 1). Poiché i video naturalistici, per loro natura, non avranno occorrenze uguali di tutte le classi, abbiamo adottato un approccio prudente costruendo una distribuzione nulla dalla permutazione casuale delle etichette e valutando il significato a cui si fa riferimento. Quindi, abbiamo scoperto che il successo dei modelli di cani era statisticamente significativo, raggiungendo punteggi dal 75° al 90° percentile, ma solo quando i video erano codificati in base alle azioni presenti, come giocare o parlare.
I set di test, a differenza dei set di addestramento, non erano bilanciati tra le classi. Comprendendo solo il 20% dei dati, il sottocampionamento alla classe più piccola avrebbe comportato campioni di dimensioni molto piccole per ogni classe, in modo tale che qualsiasi statistica calcolata sarebbe stata inaffidabile. Per evitare la possibilità di un'accuratezza gonfiata da questo squilibrio, la distribuzione nulla dell'LRAP è stata calcolata permutando casualmente l'ordine delle classi 1.000 volte per ogni iterazione del modello. Questa distribuzione nulla fungeva da riferimento per le prestazioni probabili del modello per caso. Quindi, il vero LRAP è stato poi convertito in una classificazione percentile in questa distribuzione nulla. Un ranking percentile molto alto, ad esempio il 95%, indicherebbe che un punteggio così alto si è verificato solo il 5% delle volte in 1.000 permutazioni casuali. Si potrebbe quindi ritenere che un modello di questo tipo abbia prestazioni ben superiori al caso. Per determinare se queste classifiche percentili sono significativamente maggiori di quelle attese per caso, ovvero il 50° percentile, statisticamente, è stata calcolata la classificazione percentile LRAP mediana in tutte le 100 iterazioni per ciascun modello ed è stato eseguito un test di rango con segno Wilcoxon su un campione.
Sebbene l'obiettivo principale fosse quello di sviluppare un decodificatore di stimoli visivi naturalistici per i cani, i confronti con gli esseri umani sono inevitabili. Qui, notiamo due differenze principali: per ogni tipo di classificatore, i modelli umani hanno ottenuto risultati migliori rispetto ai modelli canini; e i modelli umani hanno ottenuto buoni risultati sia per i modelli basati su oggetti che per quelli basati sull'azione, mentre i modelli canini si sono comportati solo per quelli basati sull'azione. Le prestazioni superiori dei modelli umani potrebbero essere dovute a diversi fattori. I cervelli umani sono circa 10 volte più grandi di quelli dei cani, quindi ci sono più voxel da cui scegliere per costruire un classificatore. Per mettere i modelli sullo stesso piano, si dovrebbe usare lo stesso numero di voxel, ma questo potrebbe essere in senso assoluto o relativo. Sebbene il modello finale fosse basato sul 5% dei voxel informativi più alti in ciascun cervello (una misura relativa), risultati simili sono stati ottenuti utilizzando un numero fisso di voxel. Pertanto, sembra più probabile che le differenze di prestazioni siano correlate al modo in cui gli esseri umani e i cani percepiscono gli stimoli video. Come notato sopra, mentre i cani e gli esseri umani sono entrambi multisensoriali nella loro percezione, gli stimoli possono essere più poveri per un cane che per un essere umano. I segnali di dimensione, ad esempio, possono andare persi, con tutto ciò che sembra essere una versione giocattolo del mondo reale. Ci sono alcune prove che i cani classificano gli oggetti in base alle dimensioni e alla consistenza prima che alla forma, che è quasi l'opposto degli esseri umani39. Inoltre, l'odore, non considerato qui, è probabilmente un'importante fonte di informazioni per la discriminazione degli oggetti nei cani, in particolare nell'identificazione di conspecifici o esseri umani 40,41,42. Tuttavia, anche in assenza di dimensioni o segnali olfattivi, nell'ambiente insolito dello scanner MRI, il fatto che il classificatore funzionasse dice che c'erano ancora informazioni rilevanti per i cani che potevano essere recuperate dal loro cervello. Con solo due cani e due esseri umani, le differenze di specie potrebbero anche essere dovute a differenze individuali. I due cani, tuttavia, rappresentavano il meglio dei cani addestrati alla risonanza magnetica ed eccellevano nel rimanere fermi durante la visione dei video. Mentre una dimensione del campione più ampia consentirebbe certamente di tracciare distinzioni più affidabili tra le specie, il piccolo numero di cani che sono in grado di eseguire la risonanza magnetica funzionale da svegli e che guarderanno video per periodi abbastanza lunghi limiterà sempre la generalizzabilità a tutti i cani. Mentre è possibile che razze specializzate, come i levrieri, possano avere risposte cerebrali visive più finemente sintonizzate, crediamo che il temperamento e l'addestramento individuali siano più probabilmente i principali determinanti di ciò che è recuperabile dal cervello di un cane.
Queste differenze di specie sollevano la questione di quale aspetto dei video i cani stessero prestando attenzione. Un approccio per rispondere a questa domanda si basa su stimoli video più semplici. Quindi, utilizzando immagini isolate di, diciamo, esseri umani, cani e automobili, sia individualmente che insieme su sfondi neutri, potremmo essere in grado di decodificare le dimensioni salienti di un cane. Tuttavia, questo è metodologicamente inefficiente e impoverisce ulteriormente gli stimoli provenienti dal mondo reale. La questione dell'attenzione può essere risolta con il solo approccio della decodifica, in effetti, utilizzando le prestazioni del modello per determinare ciò di cui ci si sta occupando43. In questo senso, i risultati suggeriscono che, mentre gli esseri umani si occupavano sia degli attori che delle azioni, i cani erano più concentrati sulle azioni stesse. Ciò potrebbe essere dovuto a differenze nelle caratteristiche di movimento di basso livello, come la frequenza di movimento quando gli individui giocano rispetto a mangiare, o potrebbe essere dovuto a una rappresentazione categoriale di queste attività a un livello più alto. La distribuzione dei voxel informativi in tutta la corteccia del cane suggerisce che queste rappresentazioni non sono solo caratteristiche di basso livello che altrimenti sarebbero confinate alle regioni visive. Ulteriori studi che utilizzano una più ampia varietà di stimoli video possono illuminare il ruolo del movimento nella discriminazione di categoria da parte dei cani.
In sintesi, questo studio ha dimostrato la fattibilità del recupero di informazioni visive naturalistiche dalla corteccia del cane utilizzando la risonanza magnetica funzionale nello stesso modo in cui viene fatto per la corteccia umana. Questa dimostrazione mostra che, anche senza suoni o odori, le dimensioni salienti di scene complesse sono codificate dai cani che guardano video e che queste dimensioni possono essere recuperate dal loro cervello. In secondo luogo, in base al piccolo numero di cani che possono svolgere questo tipo di compito, le informazioni possono essere distribuite più ampiamente nella corteccia rispetto a quelle tipicamente osservate negli esseri umani e i tipi di azioni sembrano essere recuperati più facilmente rispetto all'identità degli attori o degli oggetti. Questi risultati aprono la strada a un nuovo modo di esaminare il modo in cui i cani percepiscono gli ambienti che condividono con gli esseri umani, compresi gli schermi video, e suggeriscono ricche strade per l'esplorazione futura di come loro e altri animali non primati "vedono" il mondo.
Nessuno.
Ringraziamo Kate Revill, Raveena Chhibber e Jon King per le loro utili intuizioni nello sviluppo di questa analisi, Mark Spivak per la sua assistenza nel reclutamento e nell'addestramento dei cani per la risonanza magnetica e Phyllis Guo per il suo aiuto nella creazione e nell'etichettatura dei video. Ringraziamo anche i nostri devoti proprietari di cani, Rebecca Beasley (Daisy) e Ashwin Sakhardande (Bhubo). Gli studi sull'uomo sono stati sostenuti da una sovvenzione del National Eye Institute (Grant R01 EY029724 a D.D.D.).
Name | Company | Catalog Number | Comments |
3 T MRI Scanner | Siemens | Trio | |
Audio recordings of scanner noise | homemade | none | |
Camera gimbal | Hohem | iSteady PRO 3 | |
Dog-appropriate videos | homemade | none | |
fMRI processing software | AFNI | 20.3.01 | |
Mock scanner components | homemade | none | Mock head coil and scanner tube |
Neural net software | Ivis | 1.7.1 | |
Optical flow software | OpenCV | 4.2.0.34 | |
Projection system for scanner | homemade | none | |
Trophy Cam HD | Bushnell | 119874 | |
Video camera | GoPro | HERO7 | |
Visualization software | ITK-SNAP | 3.6.0 | |
Windows Video Editor | Microsoft | Windows 11 version |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon