Muchos estudios de seguimiento ocular se basan en estímulos de vídeo complejos y ajustes del mundo real que hacen que el análisis de los datos sea muy complejo. Esta técnica de análisis permite un enfoque mucho más rico y automatizado para analizar datos basados en vídeo que los métodos disponibles actualmente, lo que conduce a una extracción más rica de datos más complejos. Este método podría ser utilizado en muchas aplicaciones de seguimiento ocular diferentes, particularmente en situaciones del mundo real o aquellos que utilizan el vídeo como un estímulo.
Los estudios de paisaje se han basado en la comprensión de cómo reaccionan las personas ante diferentes estímulos visuales. Esta técnica combinada con el seguimiento ocular podría utilizarse para probar estas suposiciones. Para este tipo de investigación, un enfoque de equipo es esencial para que haya múltiples aspectos que requieren una entrada y consideración de alto nivel.
Demostrando el procedimiento conmigo será mi estudiante de posgrado Andrew Treller. Las secuencias de película deben mostrarse en un laboratorio de seguimiento ocular en el que haya luz natural disponible pero que pueda controlarse para evitar reflejos en la pantalla en una pantalla lo más grande posible para ocupar la mayor parte del campo visual, evitando así distracciones desde fuera del campo de visión. Después de sentar al participante a 60-65 centímetros de distancia de la pantalla, pídales que imaginen estar en necesidad de restauración utilizando una oración que permite al participante imaginar en el contexto del video de seguimiento ocular.
A continuación, reproduzca las películas para el participante en un orden aleatorio predeterminado utilizando un dispositivo de seguimiento ocular de escritorio para grabar los movimientos oculares del participante durante cada vídeo. Para diseñar un área de interés, seleccione elementos que sean de interés para el estudio, como árboles, arbustos, señales, edificios, senderos, escalones. Para un rendimiento óptimo y requisitos mínimos de entrenamiento, utilice elementos que sean fácilmente distinguibles entre sí a simple vista y/o que ocupen constantemente diferentes regiones de cada fotograma de vídeo.
En general, incluir suficientes ejemplos de entrenamiento que representen diferencias visualmente distintivas de cada AOI debería ser suficiente para un rendimiento sólido. Cuando se hayan modificado todos los elementos, seleccione un número adecuado de marcos de entrenamiento para conformar el conjunto de entrenamiento. No hay ningún número fijo que sea apropiado.
A continuación, abra cada fotograma de entrenamiento del vídeo en el software de edición de imágenes y para cada fotograma superponga una capa de imagen transparente en la imagen cargada para etiquetar y cree una paleta de colores que proporcione un color para cada clase de objeto de interés determinada. Para seleccionar el color del área de muestra de interés, haga clic y arrastre píxeles dentro de un área para colorear en una región de muestra con la opción de paleta adecuada. Una vez completado el etiquetado de un marco, exporte la capa superpuesta como un archivo de imagen independiente teniendo cuidado de que el nombre de archivo base coincida con el nombre de archivo base de marco original pero con una C anexada al final.
Para validar cuantitativamente la precisión del clasificador entrenado, seleccione fotogramas de la secuencia de vídeo original que aún no esté seleccionada para incluirse en el conjunto de entrenamiento y etiquete los píxeles de cada fotograma como se acaba de demostrar para que los fotogramas de entrenamiento sean lo más precisos y completos posible. Cuando se complete el etiquetado de un marco, utilice la misma convención de nomenclatura que para el entrenamiento, guardando los archivos en una carpeta de marcos de validación independiente. Para el etiquetado automático de píxeles de la secuencia de vídeo, inicie la interfaz gráfica de usuario de Darwin y haga clic en cargar etiquetas de entrenamiento.
Para configurar la GUI para el entrenamiento y el etiquetado, seleccione crear proyecto y proporcione al proyecto un nombre mediante el cuadro de diálogo emergente. Seleccione la carpeta que contiene todos los fotogramas originales de la secuencia de vídeo en la ventana emergente. Mediante el cuadro de diálogo del explorador de archivos emergente, seleccione la carpeta que contiene las imágenes de entrenamiento etiquetadas para la secuencia de vídeo correspondiente.
Y en el cuadro de diálogo Explorador de archivos, seleccione la carpeta que contiene todas las imágenes de validación etiquetadas para la secuencia de vídeo relevante. Siga las indicaciones para seleccionar una carpeta de destino para todos los marcos de salida que formarán en forma de imágenes etiquetadas utilizando la misma paleta de colores que se utiliza en el entrenamiento. Mediante el cuadro de diálogo emergente, en áreas de interés, introduzca las áreas de interés para etiquetar los valores rojo/verde/azul utilizados para marcar cada región en los ejemplos de entrenamiento.
El algoritmo examinará cada fotograma de entrenamiento etiquetado y aprenderá un modelo de apariencia para clasificar los píxeles en cualquiera de las clases de objeto de interés especificadas. Una vez completado el entrenamiento, haga clic en validar el entrenamiento. Y en el cuadro de diálogo Explorador de archivos, seleccione la carpeta que contiene todas las imágenes de validación etiquetadas para la secuencia de vídeo relevante.
Para validar visualmente las etiquetas generadas, haga clic en validación visual. Cada imagen con etiqueta generada se mostrará junto al marco de validación original. Si la precisión observada en la validación cuantitativa o cualitativa cae por debajo de los niveles aceptables, incluya y vuelva a entrenar más ejemplos de capacitación.
Una vez completadas las fases de entrenamiento y validación del clasificador, haga clic en Ejecutar inferencia para comenzar el etiquetado completo de todos los fotogramas de la secuencia de vídeo mediante el clasificador entrenado. Una vez completado el etiquetado, que puede tardar varias horas, haga clic en Examinar salida para ver las etiquetas resultantes. La mayoría del software de seguimiento ocular le mostrará que, en promedio, los participantes escanearon a izquierda y derecha en la coordenada x del vídeo en el primer video en comparación con el segundo video para el que el mapa de calor muestra una forma más redonda.
Usando la técnica de etiquetado de píxeles de aprendizaje automático descrita en este artículo, podemos ver más detalles. Esta representación gráfica del porcentaje de tiempo de fijación muestra que la ruta es claramente visible durante el transcurso del vídeo. Sin embargo, como se muestra en esta figura de los datos de seguimiento ocular, el participante solo examinó esta característica ocasionalmente en puntos clave.
Aquí se muestra un resumen del tiempo de permanencia de los 39 participantes de este estudio representativo al mirar objetos a lo largo de la duración del video. En este gráfico, los mismos datos de tiempo de permanencia se dividieron por la cantidad de tiempo y espacio que los diferentes objetos ocuparon en el vídeo. Un valor de uno indica que el tiempo de permanencia se puede contabilizar por la cantidad de objeto en el vídeo.
Por ejemplo, los objetos que eran menos pertinentes, como el cielo en ambas imágenes, se veían comparativamente menos que otros objetos. Objetos artificiales como farolas y faros se habitaban en mayor medida en comparación con otros objetos naturales. Este tipo de análisis puede tener muchos usos de amplio alcance para examinar cuestiones de atención y saliencia y puede tener muchas aplicaciones de amplio alcance en diferentes áreas de investigación.
A medida que el uso de cortometrajes como estímulos visuales se vuelve cada vez más común, esperamos que esta técnica se vuelva más popular.