Viele Eye-Tracking-Studien basieren auf komplexen Videoreizen und realen Einstellungen, was die Analyse der Daten hochkomplex macht. Diese Analysetechnik ermöglicht einen viel umfassenderen und automatisierten Ansatz zur Analyse von videobasierten Daten als derzeit verfügbare Methoden, die zu einer umfassenderen Extraktion komplexerer Daten führen. Diese Methode könnte in vielen verschiedenen Eye-Tracking-Anwendungen verwendet werden, vor allem in realen Situationen oder solche, die Video als Stimulus verwenden.
Landschaftsstudien haben sich darauf verlassen, zu verstehen, wie Menschen auf unterschiedliche visuelle Reize reagieren. Diese Technik in Kombination mit Eye Tracking könnte verwendet werden, um diese Annahmen zu testen. Für diese Art der Forschung ist ein Teamansatz unerlässlich, da es mehrere Aspekte gibt, die einen hohen Input und eine hohe Berücksichtigung erfordern.
Demonstrieren das Verfahren mit mir wird mein Postgraduierten-Student Andrew Treller sein. Die Filmsequenzen sollten in einem Eye-Tracking-Labor gezeigt werden, in dem natürliches Licht zur Verfügung steht, das aber gesteuert werden kann, um Reflexionen auf dem Bildschirm auf einer möglichst großen Leinwand zu vermeiden, um so viel vom Gesichtsfeld zu besetzen, dass Ablenkungen von außerhalb des Sichtfeldes vermieden werden. Nachdem Sie den Teilnehmer 60-65 Zentimeter vom Bildschirm entfernt sitzen, bitten Sie ihn, sich vorzustellen, dass er mit einem Satz, der es dem Teilnehmer ermöglicht, sich im Kontext des Eye-Tracking-Videos vorzustellen, eine Wiederherstellung braucht.
Spielen Sie dann die Filme für den Teilnehmer in einer vorgegebenen zufälligen Reihenfolge mit einem Desktop-Eye-Tracking-Gerät ab, um die Augenbewegungen des Teilnehmers während jedes Videos aufzuzeichnen. Um einen Interessenbereich zu entwerfen, wählen Sie Elemente aus, die für die Studie von Interesse sind, z. B. Bäume, Sträucher, Wegweiser, Gebäude, Pfade, Schritte. Für optimale Leistung und minimale Trainingsanforderungen verwenden Sie Elemente, die sich mit bloßem Auge leicht voneinander unterscheiden lassen und/oder die unterschiedliche Bereiche jedes Videoframes konsequent einnehmen.
Im Allgemeinen sollte das Einschließen ausreichender Schulungsbeispiele, die die visuell unterscheidenden Unterschiede der einzelnen AOI darstellen, für eine robuste Leistung ausreichen. Wenn alle Elemente geändert wurden, wählen Sie eine entsprechende Anzahl von Trainingsrahmen aus, um den Trainingssatz zu bilden. Es gibt keine feste Nummer, die angemessen ist.
Öffnen Sie anschließend jeden Trainingsrahmen aus dem Video in der Bildbearbeitungssoftware, und überlagern Sie für jeden Frame eine transparente Bildebene auf dem geladenen Bild für die Beschriftung, und erstellen Sie eine Farbpalette, die eine Farbe für jede bestimmte Objektklasse von Interesse bereitstellt. Um die Farbe für den von Interesse ausgewählten Beispielbereich auszuwählen, klicken und ziehen Sie Pixel innerhalb eines Bereichs, um sie in einem Bereich des Beispiels mit der entsprechenden Palettenauswahl zu färben. Nachdem die Beschriftung eines Frames abgeschlossen ist, exportieren Sie die überlagerte Ebene als separate Bilddatei, wobei darauf zu achten ist, dass der Basisdateiname mit dem ursprünglichen Frame-Basisdateinamen übereinstimmt, jedoch mit einem an das Ende angehängten C.
Um die Genauigkeit des trainierten Klassifiierers quantitativ zu validieren, wählen Sie Frames aus der ursprünglichen Videosequenz aus, die noch nicht ausgewählt ist, um in das Trainingsset aufgenommen zu werden, und beschriften Sie die Pixel in jedem Frame, wie gerade gezeigt, damit die Trainingsrahmen so präzise und umfassend wie möglich sind. Wenn die Beschriftung eines Frames abgeschlossen ist, verwenden Sie die gleiche Benennungskonvention wie für die Schulung, indem Sie die Dateien in einem separaten Validierungsrahmenordner speichern. Starten Sie für die automatische Pixelbeschriftung der Videosequenz die darwingrafische Benutzeroberfläche, und klicken Sie auf Trainingsbeschriftungen laden.
Um die GUI für Schulungen und Beschriftungen zu konfigurieren, wählen Sie Projekt erstellen aus, und geben Sie dem Projekt mithilfe des Popupdialogfelds einen Namen an. Wählen Sie den Ordner aus, der alle Originalframes der Videosequenz enthält, im Popupfenster. Wählen Sie im Dialogfeld Popupdatei Explorer den Ordner mit den beschrifteten Trainingsbildern für die entsprechende Videosequenz aus.
Und wählen Sie im Dialogfeld Datei-Explorer den Ordner aus, der alle beschrifteten Validierungsbilder für die entsprechende Videosequenz enthält. Folgen Sie der Aufforderung, einen Zielordner für alle Ausgabeframes auszuwählen, die in Form von beschrifteten Bildern mit derselben Farbpalette wie im Training verwendet werden. Geben Sie unter den Interessengebieten die zu beschriftenden Bereiche ein, die die rot/grün/blauen Werte enthalten, die zum Markieren der einzelnen Regionen in den Schulungsbeispielen verwendet werden.
Der Algorithmus untersucht jeden beschrifteten Trainingsrahmen und lernt ein Darstellungsmodell für die Klassifizierung der Pixel in eine der angegebenen Objektklassen von Interesse. Sobald die Schulung abgeschlossen ist, klicken Sie auf Schulung überprüfen. Und wählen Sie im Dialogfeld Datei-Explorer den Ordner aus, der alle beschrifteten Validierungsbilder für die entsprechende Videosequenz enthält.
Um die generierten Beschriftungen visuell zu überprüfen, klicken Sie auf visuelle Validierung. Jedes generierte beschriftete Bild wird neben dem ursprünglichen Validierungsrahmen angezeigt. Wenn die bei der quantitativen oder qualitativen Validierung beobachtete Genauigkeit unter akzeptable Werte fällt, schließen Sie Weitere Ausbildungsbeispiele ein und schulen Sie sie um.
Nachdem die Klassenschulung und Validierungsphasen abgeschlossen sind, klicken Sie auf Inferenz ausführen, um mit der vollständigen Beschriftung aller Frames in der Videosequenz mit dem trainierten Klassifier zu beginnen. Sobald die Beschriftung abgeschlossen ist, was mehrere Stunden dauern kann, klicken Sie auf Ausgabe durchsuchen, um die resultierenden Beschriftungen anzuzeigen. Die meisten Eye-Tracking-Software zeigt Ihnen, dass im Durchschnitt die Teilnehmer links und rechts auf der x-Koordinate des Videos im ersten Video im Vergleich zum zweiten Video gescannt haben, für das die Heatmap eine rundere Form zeigt.
Mithilfe der in diesem Dokument beschriebenen Machine Learning-Pixelbeschriftungstechnik können wir mehr Details sehen. Diese grafische Darstellung der prozentualen Fixierungszeit zeigt, dass der Pfad im Verlauf des Videos deutlich sichtbar ist. Wie diese Abbildung aus den Eye-Tracking-Daten zeigt, hat sich der Teilnehmer diese Funktion jedoch nur gelegentlich an wichtigen Punkten angesehen.
Hier wird eine Zusammenfassung der Verweilzeit aller 39 Teilnehmer dieser repräsentativen Studie gezeigt, wenn man Objekte über die gesamte Länge des Videos betrachtet. In diesem Diagramm wurden die gleichen Daten zur Verweilzeit durch die Zeit und den Raum geteilt, die verschiedene Objekte im Video belegten. Der Wert 1 gibt an, dass die Verweilzeit durch die Menge des Objekts im Video berücksichtigt werden kann.
Beispielsweise wurden Objekte, die in beiden Bildern weniger relevant waren, wie z. B. der Himmel, vergleichsweise weniger als andere Objekte angesehen. Künstliche Objekte wie Straßenlaternen und Bänke wurden im Vergleich zu anderen Naturobjekten stärker bewohnen. Diese Arten von Analysen können viele weit reichende Anwendungen haben, um Fragen der Aufmerksamkeit und Salienität zu untersuchen, und können viele weit reichende Anwendungen in verschiedenen Forschungsbereichen haben.
Da die Verwendung von Kurzfilmen als visuelle Reize immer häufiger wird, erwarten wir, dass diese Technik immer beliebter wird.