De nombreuses études de suivi oculaire s’appuient sur des stimuli vidéo complexes et des paramètres du monde réel rendant l’analyse des données très complexe. Cette technique d’analyse permet une approche beaucoup plus riche et automatisée de l’analyse des données vidéo que les méthodes actuellement disponibles conduisant à une extraction plus riche de données plus complexes. Cette méthode pourrait être utilisée dans de nombreuses applications de suivi oculaire différentes en particulier dans des situations réelles ou celles qui utilisent la vidéo comme un stimulus.
Les études de paysage se sont appuyées sur la compréhension de la façon dont les gens réagissent à différents stimuli visuels. Cette technique combinée avec le suivi oculaire pourrait être utilisée pour tester ces hypothèses. Pour ce type de recherche, une approche d’équipe est essentielle car il y a plusieurs aspects qui nécessitent une contribution et une considération de haut niveau.
Démontrant la procédure avec moi sera mon étudiant de troisième cycle Andrew Treller. Les séquences de films doivent être montrées dans un laboratoire de suivi oculaire dans lequel la lumière naturelle est disponible, mais qui peut être contrôlée pour éviter les réflexions sur l’écran sur un écran aussi grand que possible pour occuper autant de champ visuel, évitant ainsi les distractions de l’extérieur du champ de vision. Après avoir assis le participant à 60-65 centimètres de l’écran, demandez-lui d’imaginer avoir besoin d’être restauré à l’aide d’une phrase qui permet au participant d’imaginer dans le contexte de la vidéo de suivi des yeux.
Ensuite, jouez les films pour le participant dans un ordre aléatoire prédéterminé à l’aide d’un dispositif de suivi oculaire de bureau pour enregistrer les mouvements oculaires du participant au cours de chaque vidéo. Pour concevoir un domaine d’intérêt, sélectionnez les éléments qui intéressent l’étude comme les arbres, les arbustes, les panneaux de signalisation, les bâtiments, les sentiers, les marches. Pour des performances optimales et des exigences minimales d’entraînement, utilisez des éléments qui se distinguent facilement visuellement les uns des autres à l’œil nu et/ou qui occupent constamment différentes régions de chaque image vidéo.
En général, l’inclusion d’exemples de formation suffisants représentant des différences visuellement distinctives de chaque AOI devrait suffire à une performance robuste. Lorsque tous les éléments ont été modifiés, sélectionnez un nombre approprié de cadres de formation pour composent l’ensemble de formation. Il n’y a pas de numéro fixe qui soit approprié.
Ensuite, ouvrez chaque cadre de formation à partir de la vidéo dans le logiciel d’édition d’image et pour chaque image superposer une couche d’image transparente sur l’image chargée pour l’étiquetage et créer une palette de couleurs fournissant une couleur pour chaque classe d’objet donnée d’intérêt. Pour sélectionner la couleur de la zone d’intérêt de l’échantillon, cliquez et faites glisser les pixels dans une zone à colorier dans une région d’échantillon avec le choix de palette approprié. Une fois que l’étiquetage d’un cadre est terminé, exportez la couche superposée comme un fichier d’image distinct en prenant soin que le nom de fichier de base correspond au nom de base du cadre d’origine, mais avec un C annexé à la fin.
Pour valider quantitativement la précision du classificateur formé, sélectionnez les images de la séquence vidéo originale qui n’ont pas déjà été sélectionnées pour être incluses dans l’ensemble de formation et étiquetez les pixels de chaque image comme il suffit de le démontrer pour que les cadres d’entraînement soient aussi précis et complets que possible. Lorsque l’étiquetage d’un cadre est terminé, utilisez la même convention de nommage que pour la formation, en sauvant les fichiers dans un dossier d’images de validation distinct. Pour l’étiquetage automatique des pixels de la séquence vidéo, lancez l’interface utilisateur graphique Darwin et cliquez sur les étiquettes de formation à la charge.
Pour configurer l’interface graphique pour la formation et l’étiquetage, sélectionnez créer un projet et fournissez au projet un nom à l’aide de la boîte de dialogue popup. Sélectionnez le dossier contenant tous les cadres originaux de la séquence vidéo dans la fenêtre popup. À l’aide de la boîte de dialogue popup file explorer, sélectionnez le dossier contenant les images de formation étiquetées pour la séquence vidéo pertinente.
Et dans la boîte de dialogue de l’explorateur de fichiers, sélectionnez le dossier contenant toutes les images de validation étiquetées pour la séquence vidéo pertinente. Suivez l’invite à sélectionner un dossier de destination pour tous les cadres de sortie qui seront sous forme d’images étiquetées en utilisant la même palette de couleurs que dans la formation. À l’aide de la boîte de dialogue popup, dans des domaines d’intérêt, entrez dans les domaines d’intérêt pour étiqueter, y compris les valeurs rouges/vertes/bleues utilisées pour marquer chaque région dans les exemples de formation.
L’algorithme examinera chaque cadre de formation étiqueté et apprendra un modèle d’apparence pour classer les pixels dans l’une des classes d’objets d’intérêt spécifiées. Une fois la formation terminée, cliquez sur valider la formation. Et dans la boîte de dialogue de l’explorateur de fichiers, sélectionnez le dossier contenant toutes les images de validation étiquetées pour la séquence vidéo pertinente.
Pour valider visuellement les étiquettes générées, cliquez sur validation visuelle. Chaque image étiquetée générée sera affichée à côté du cadre de validation d’origine. Si l’exactitude observée dans la validation quantitative ou qualitative tombe en dessous des niveaux acceptables, inclure et recycler d’autres exemples de formation.
Une fois les phases de formation et de validation des classificateurs terminées, cliquez sur exécuter l’inférence pour commencer l’étiquetage complet de tous les cadres de la séquence vidéo à l’aide du classificateur formé. Une fois l’étiquetage terminé, ce qui peut prendre plusieurs heures, cliquez sur parcourir la sortie pour voir les étiquettes qui en résultent. La plupart des logiciels de suivi oculaire vous montreront qu’en moyenne, les participants ont scanné à gauche et à droite sur la coordonnée x de la vidéo dans la première vidéo par rapport à la deuxième vidéo pour laquelle la carte thermique montre une forme plus ronde.
En utilisant la technique d’étiquetage des pixels d’apprentissage automatique décrite dans cet article, nous pouvons voir plus de détails. Cette représentation graphique du temps de fixation pour cent montre que le chemin est clairement visible au cours de la vidéo. Toutefois, comme le montre ce chiffre à partir des données de suivi oculaire, le participant n’a regardé cette fonctionnalité qu’occasionnellement à des moments clés.
Voici un résumé de l’heure de séjour des 39 participants à cette étude représentative lorsque l’on regarde des objets tout au long de la durée de la vidéo est montré. Dans ce graphique, les mêmes données de temps de vie ont été divisées par la quantité de temps et d’espace que différents objets occupaient dans la vidéo. Une valeur d’un indique que le temps de vie peut être expliqué par la quantité d’objet dans la vidéo.
Par exemple, les objets moins pertinents comme le ciel dans les deux images ont été vus comparativement moins que les autres objets. Les objets artificiels tels que les lampadaires et les bancs ont été plus longtemps maintenus que d’autres objets naturels. Ces types d’analyse peuvent avoir de nombreuses utilisations de grande envergure pour examiner les questions d’attention et d’importance et peuvent avoir de nombreuses applications de grande envergure dans différents domaines de recherche.
À mesure que l’utilisation de courts métrages comme stimuli visuels devient de plus en plus courante, nous nous attendons à ce que cette technique devienne plus populaire.