Molti studi di tracciamento oculare si basano su stimoli video complessi e impostazioni del mondo reale rendendo l'analisi dei dati altamente complessa. Questa tecnica di analisi consente un approccio molto più ricco e automatizzato all'analisi dei dati basati su video rispetto ai metodi attualmente disponibili, portando a un'estrazione più ricca di dati più complessi. Questo metodo potrebbe essere utilizzato in molte diverse applicazioni di tracciamento oculare, in particolare in situazioni del mondo reale o in quelle che usano il video come stimolo.
Gli studi sul paesaggio si sono basati sulla comprensione di come le persone reagiscono ai diversi stimoli visivi. Questa tecnica combinata con il tracciamento oculare potrebbe essere utilizzata per testare queste ipotesi. Per questo tipo di ricerca, un approccio di gruppo è essenziale perché ci sono molteplici aspetti che richiedono input e considerazione di alto livello.
A dimostrare la procedura con me sarà il mio studente post-laurea Andrew Treller. Le sequenze di film devono essere mostrate in un laboratorio di tracciamento oculare in cui è disponibile luce naturale ma che può essere controllata per evitare riflessi sullo schermo su uno schermo il più grande possibile per occupare la maggior parte del campo visivo, evitando così distrazioni dall'esterno del campo visivo. Dopo aver seduto il partecipante a 60-65 centimetri di distanza dallo schermo, chiedi loro di immaginare di aver bisogno di essere restaurazione usando una frase che consente al partecipante di immaginare nel contesto del video di tracciamento oculare.
Quindi riproduci i film per il partecipante in un ordine casuale predeterminato utilizzando un dispositivo di tracciamento oculare desktop per registrare i movimenti oculari del partecipante durante ogni video. Per progettare un'area di interesse, selezionare gli elementi che interessano lo studio come alberi, arbusti, cartelli, edifici, percorsi, gradini. Per prestazioni ottimali e requisiti di allenamento minimi, utilizzare elementi facilmente distinguibili visivamente l'uno dall'altro ad occhio nudo e/o che occupano costantemente diverse regioni di ogni fotogramma video.
In generale, includere sufficienti esempi di allenamento che illustrino le differenze visivamente distintive di ciascun AOI dovrebbe essere sufficiente per prestazioni robuste. Una volta modificati tutti gli elementi, selezionare un numero appropriato di frame di training per creare il set di training. Non esiste un numero fisso appropriato.
Quindi, apri ogni fotogramma di training dal video nel software di modifica delle immagini e per ogni fotogramma sovrappone un livello di immagine trasparente sull'immagine caricata per l'etichettatura e crea una tavolozza di colori che fornisce un colore per ogni classe di oggetti di interesse. Per selezionare il colore per l'area di interesse del campione, fare clic e trascinare i pixel all'interno di un'area da colorare in un'area di esempio con la scelta della tavolozza appropriata. Una volta completata l'etichettatura di un fotogramma, esportare il livello sovrapposto come file di immagine separato, facendo in modo che il nome del file di base corrisponda al nome del file di base del fotogramma originale ma con una C aggiunta alla fine.
Per convalidare quantitativamente l'accuratezza del classificatore sottoposto a training, selezionare i fotogrammi della sequenza video originale non già selezionata per essere inclusi nel set di training ed etichettare i pixel in ogni fotogramma come appena dimostrato affinché i fotogrammi di training siano il più precisi e completi possibile. Al termine dell'etichettatura di un frame, utilizzare la stessa convenzione di denominazione del training, salvando i file in una cartella frame di convalida separata. Per l'etichettatura automatica dei pixel della sequenza video, avviare l'interfaccia utente grafica di Darwin e fare clic su etichette di training del carico.
Per configurare l'interfaccia utente grafica per il training e l'etichettatura, selezionare Crea progetto e fornire al progetto un nome utilizzando la finestra di dialogo popup. Selezionare la cartella contenente tutti i fotogrammi originali della sequenza video nella finestra popup. Utilizzando la finestra di dialogo Esplora file popup, selezionare la cartella contenente le immagini di training etichettate per la sequenza video pertinente.
Nella finestra di dialogo Esplora file selezionare la cartella contenente tutte le immagini di convalida etichettate per la sequenza video pertinente. Seguire la richiesta di selezionare una cartella di destinazione per tutti i fotogrammi di output che saranno sotto forma di immagini etichettate utilizzando la stessa tavolozza di colori utilizzata nel training. Utilizzando la finestra di dialogo popup, in aree di interesse, immettere le aree di interesse da etichettare, inclusi i valori rosso/verde/blu utilizzati per contrassegnare ogni area negli esempi di formazione.
L'algoritmo esaminerà ogni frame di training etichettato e imparerà un modello di aspetto per classificare i pixel in una qualsiasi delle classi di oggetti di interesse specificate. Una volta completato il training, fare clic su convalida training. Nella finestra di dialogo Esplora file selezionare la cartella contenente tutte le immagini di convalida etichettate per la sequenza video pertinente.
Per convalidare visivamente le etichette generate, fare clic su convalida visiva. Ogni immagine etichettata generata verrà visualizzata accanto al frame di convalida originale. Se l'accuratezza osservata nella convalida quantitativa o qualitativa scende al di sotto dei livelli accettabili, includere e riqualificare gli esempi di formazione continua.
Una volta completate le fasi di training e convalida del classificatore, fare clic su Esegui inferenza per iniziare l'etichettatura completa di tutti i fotogrammi della sequenza video utilizzando il classificatore sottoposto a training. Una volta completata l'etichettatura, che potrebbe richiedere diverse ore, fare clic su Sfoglia output per visualizzare le etichette risultanti. La maggior parte dei software di tracciamento oculare ti mostrerà che in media, i partecipanti hanno scansionato a sinistra e a destra sulla coordinata x del video nel primo video rispetto al secondo video per il quale la mappa termica mostra una forma più rotonda.
Utilizzando la tecnica di etichettatura dei pixel di machine learning descritta in questo documento, possiamo vedere più dettagli. Questa rappresentazione grafica del tempo di fissazione percentuale mostra che il percorso è chiaramente visibile durante il corso del video. Tuttavia, come mostra questa figura dei dati di tracciamento oculare, il partecipante ha esaminato questa funzione solo occasionalmente nei punti chiave.
Qui viene mostrato un riepilogo del tempo di dimora di tutti i 39 partecipanti a questo studio rappresentativo quando si guardano gli oggetti per tutta la durata del video. In questo grafico, gli stessi dati del tempo di dimora sono stati divisi per la quantità di tempo e spazio che diversi oggetti hanno occupato nel video. Un valore pari a uno indica che il tempo di dimora può essere contabiliato dalla quantità di oggetto nel video.
Ad esempio, gli oggetti meno pertinenti come il cielo in entrambe le immagini sono stati visti relativamente meno di altri oggetti. Oggetti artificiali come lampioni e panchine erano abitati in misura maggiore rispetto ad altri oggetti naturali. Questo tipo di analisi può avere molti usi ad ampio raggio per esaminare questioni di attenzione e salienza e può avere molte applicazioni di ampio respiro in diversi settori di ricerca.
Man mano che l'uso dei cortometraggi come stimoli visivi diventa sempre più comune, ci aspettiamo che questa tecnica diventi più popolare.