Muitos estudos de rastreamento ocular dependem de estímulos de vídeo complexos e configurações do mundo real, tornando a análise dos dados altamente complexa. Esta técnica de análise permite uma abordagem muito mais rica e automatizada para analisar dados baseados em vídeo do que os métodos disponíveis atualmente levando à extração mais rica de dados mais complexos. Este método pode ser usado em muitos aplicativos diferentes de rastreamento ocular, particularmente em situações do mundo real ou aqueles que usam o vídeo como estímulo.
Estudos paisagísticos têm se apoiado em entender como as pessoas reagem a diferentes estímulos visuais. Esta técnica combinada com o rastreamento ocular poderia ser usada para testar essas suposições. Para este tipo de pesquisa, uma abordagem de equipe é essencial para que existam múltiplos aspectos que requerem entrada e consideração de alto nível.
Demonstrando o procedimento comigo será meu estudante de pós-graduação Andrew Treller. As sequências de filme devem ser mostradas em um laboratório de rastreamento de olhos no qual a luz natural está disponível, mas que pode ser controlada para evitar reflexos na tela na tela o maior possível para ocupar o máximo possível do campo visual, evitando assim distrações de fora do campo de visão. Depois de sentar o participante a 60-65 centímetros de distância da tela, peça que imagine estar precisando de restauração usando uma frase que permite ao participante imaginar no contexto do vídeo de rastreamento ocular.
Em seguida, reprodue os filmes para o participante em uma ordem aleatória predeterminada usando um dispositivo de rastreamento de olhos de desktop para registrar os movimentos oculares do participante durante cada vídeo. Para projetar uma área de interesse, selecione itens de interesse do estudo, como árvores, arbustos, placas de sinalização, edifícios, caminhos, passos. Para obter um desempenho ideal e requisitos mínimos de treinamento, use elementos facilmente distinguíveis um do outro a olho nu e/ou que ocupam consistentemente diferentes regiões de cada quadro de vídeo.
Em geral, incluir exemplos de treinamento suficientes que retratam diferenças visualmente distintas de cada AOI deve ser suficiente para um desempenho robusto. Quando todos os itens tiverem sido modificados, selecione um número apropriado de quadros de treinamento para compor o conjunto de treinamento. Não há nenhum número fixo apropriado.
Em seguida, abra cada quadro de treinamento do vídeo no software de edição de imagens e para cada quadro sobreponham uma camada de imagem transparente na imagem carregada para rotulagem e crie uma paleta de cores fornecendo uma cor para cada classe de objeto de interesse. Para selecionar a cor para a área de amostra de interesse, clique e arraste pixels dentro de uma área para colorir em uma região de amostra com a escolha apropriada da paleta. Uma vez que a rotulagem de um quadro esteja completa, exporte a camada sobreposta como um arquivo de imagem separado, tomando cuidado para que o nome do arquivo base corresponda ao nome original do arquivo base do quadro, mas com um C anexado ao final.
Para validar quantitativamente a precisão do classificador treinado, selecione quadros da sequência de vídeo original ainda não selecionados para serem incluídos no conjunto de treinamento e rotule os pixels em cada quadro como apenas demonstrados para que os quadros de treinamento sejam o mais precisos e abrangentes possível. Quando a rotulagem de um quadro estiver completa, use a mesma convenção de nomeação que para o treinamento, salvando os arquivos em uma pasta de quadros de validação separada. Para rotulagem automática de pixels da sequência de vídeo, inicie a interface gráfica de usuário de Darwin e clique em etiquetas de treinamento de carga.
Para configurar a GUI para treinamento e rotulagem, selecione criar projeto e fornecer ao projeto um nome usando a caixa de diálogo pop-up. Selecione a pasta contendo todos os quadros originais da sequência de vídeo na janela pop-up. Usando a caixa de diálogo do explorador de arquivos pop-up, selecione a pasta contendo as imagens de treinamento rotuladas para a sequência de vídeo relevante.
E na caixa de diálogo do explorador de arquivos, selecione a pasta contendo todas as imagens de validação rotuladas para a sequência de vídeo relevante. Siga o prompt para selecionar uma pasta de destino para todos os quadros de saída que estarão na forma de imagens rotuladas usando a mesma paleta de cores usada no treinamento. Utilizando a caixa de diálogo pop-up, sob áreas de interesse, entre nas áreas de interesse para rotular incluindo os valores vermelho/verde/azul usados para marcar cada região nos exemplos de treinamento.
O algoritmo examinará cada quadro de treinamento rotulado e aprenderá um modelo de aparência para classificar os pixels em qualquer uma das classes de interesse de objetos especificados. Uma vez que o treinamento esteja completo, clique validar o treinamento. E na caixa de diálogo do explorador de arquivos, selecione a pasta contendo todas as imagens de validação rotuladas para a sequência de vídeo relevante.
Para validar visualmente os rótulos gerados, clique em validação visual. Cada imagem rotulada gerada será exibida ao lado do quadro de validação original. Se a precisão observada na validação quantitativa ou qualitativa ficar abaixo dos níveis aceitáveis, inclua e retreine outros exemplos de treinamento.
Uma vez que as fases de treinamento e validação do classificador estejam concluídas, clique em executar a inferência para iniciar a rotulagem completa de todos os quadros na sequência de vídeo usando o classificador treinado. Uma vez que a rotulagem esteja completa, o que pode levar várias horas, clique em procurar saída para ver as etiquetas resultantes. A maioria dos softwares de rastreamento de olhos mostrará que, em média, os participantes digitalizaram à esquerda e à direita na x-coordenada do vídeo no primeiro vídeo em comparação com o segundo vídeo para o qual o mapa de calor mostra uma forma de rounder.
Usando a técnica de rotulagem de pixels de aprendizado de máquina descrita neste artigo, podemos ver mais detalhes. Esta representação gráfica do tempo de fixação percentual mostra que o caminho é claramente visível durante o curso do vídeo. No entanto, como mostra esse número a partir dos dados de rastreamento ocular, o participante apenas olhou para esse recurso ocasionalmente em pontos-chave.
Aqui é mostrado um resumo do tempo de permanência de todos os 39 participantes deste estudo representativo ao olhar para objetos ao longo da duração do vídeo. Neste gráfico, os mesmos dados de tempo de moradia foram divididos pela quantidade de tempo e espaço que diferentes objetos ocuparam no vídeo. Um valor de um indica que o tempo de moradia pode ser contabilizado pela quantidade de objeto no vídeo.
Por exemplo, objetos menos pertinentes, como o céu em ambas as imagens, foram vistos comparativamente menos do que outros objetos. Objetos artificiais, como lâmpadas de rua e bancos, foram habitados em maior medida em comparação com outros objetos naturais. Esses tipos de análise podem ter muitos usos abrangentes para olhar questões de atenção e salciência e podem ter muitas aplicações de alcance amplo em diferentes áreas de pesquisa.
À medida que o uso de curtas-metragens como estímulos visuais se torna cada vez mais comum, esperamos que essa técnica se torne mais popular.