基于视觉显著性的外观注视估计
时间:2022-12-22 07:30:00
Appearance-based Gaze Estimation using Visual Saliency
估计基于视觉显著性的外观注视
Y usuke Sugano, Y asuyuki Matsushita, and Y oichi Sato
【摘要】
本文提出了一个基础视觉显著性图的凝视感知方法,该方法不需要明确的个人标准。
我们的目标是创建凝视估计器,该估计器仅使用看视频剪辑的人捕获的眼睛图像。
我们的方法视频帧的显著性映射视为注视点的概率分布。
我们根据人眼图像的相似性对聚合显性图,有效地从显著性图中识别注视点。
我们使用回归建立高斯过程从眼睛图像到注视点之间映射。
此外,我们使用凝视估计器的反馈回路来细化凝视概率图,提高凝视估计的准确性。
实验结果表明,该方法适用于不同的人和视频片段,达到了3.5度的准确性足以估计显示器上用户的注意力。
指标项:注视估计、视觉注意、面部和手势识别。
We aggregate the saliency maps based on the similarity in eye images to efficiently identify the gaze points from the saliency maps.
我们根据人眼图像的相似性明显性图聚合,以有效地从显著性图中识别注视点。
We establish a mapping between the eye images to the gaze points by using Gaussian process regression.
我们使回归建立高斯过程了眼睛图像到注视点之间的映射。
In addition, we use a feedback loop from the gaze estimator to refine the gaze probability maps to improve the accuracy of the gaze estimation.
另外,我们使用凝视估计器反馈回路来细化为了提高凝视估计的准确性,凝视概率图。
The experimental results show that the proposed method works well with different people and video clips and achieves a 3.5-degree accuracy, which is sufficient for estimating a user’s attention on a display.
Index Terms—Gaze estimation, Visual attention, Face and gesture recognition.
实验结果表明,该方法适用于不同的人和视频片段达到3.精度为5度,足以估计用户在显示器上的注意力。
指标项:注视估计、视觉注意、面部和手势识别。
【介绍】
凝视估计对预测人类注意力非常重要,因此可以用来更好地了解人类活动和交互系统。凝视评估广泛应用于在线内容和数字看板的市场分析、凝视驱动的交互式显示和许多其他人机界面。----------------------------过渡
一般来说,通过分析一个人眼睛的外观来进行凝视估计。基于相机的遥感方法有两种:基于模型的遥感方法和基于外观的遥感方法。基于模型的方法使用几何眼睛模型及其相关特征。它们使用多个同步摄像头和红外光源等特殊硬件,提取眼睛的几何特性,以确定注视方向。另一方面,基于外观的方法使用商品相机观察到的眼睛的自然外观,而无需任何特殊硬件。对基于相机的凝视估计器进行了各种实现,包括商业产品(最近的调查见[1])。---------简单介绍
在以前的凝视估计器关键挑战是适应个人用户需要明确的个人校准。现有系统中的这些用户总是需要积极参与校准任务,以查看明确的参考点。大多数估算方法面临的另一个问题是校准漂移,这在很大程度上取决于用户和安装设置。在实际应用系统中,有时需要使用交互式局部校准方案,如用户反馈[2]来纠正个人校准错误。在很多情况下,这种主动的个人校准太有限了,因为它会中断自然的互动,无法进行无形的凝视估计。虽然个人校准的参考点数量可以通过使用特殊硬件(如多个光源[3]、[4]、[5]和立体相机[6])来减少,但用户仍然需要积极参与校准任务。
众所周知,凝视方向可以近似估计为光轴方向,而无需个人校准[7]。准[7]。然而,它与视觉轴的偏移(与实际注视方向相对应)可能高达5度[1]和[4],精度因个体而异。更重要的是,这种基于硬件的尝试对应用程序设置增加了强烈的限制,这自然限制了用户场景。
以前的研究目的完全消除对明确的需要个人校准过程。Yamazoe等用户移动眼睛时,使用简单的眼球模型进行凝视估计,并将模型与用户眼睛的外观进行自动校准[8]。Sugano在等人的方法中,本着类似[2]的精神,用户的天然鼠标输入用于基于外观的增量个人校准,无需任何校准说明[9]。
然而,这两种方法只使用单目相机,这些方法仍有一些局限性。Y amazoe由于眼球模型的简化,等人的方法不准确,Sugano等人的方法只能应用于用户输入的交互环境
can be used to better understand human activities as well as interactive systems.
它可以用来更好地理解人类活动以及交互系统。
There is a wide range of applications for gaze estimation including market analysis of online content and digital signage, gaze-driven interactive displays, and many other human-machine interfaces.
凝视评估应用广泛,包括在线内容和数字看板市场分析,凝视驱动交互式显示和许多其他显示人机界面。
In general, gaze estimation is achieved by analyzing the appearance of a person’s eyes.
一般来说,通过分析一个人眼睛的外表进行凝视估计。
remote sensing methods: 遥感方法
Model-based methods use a geometric eye model and its associated features.
几何眼睛模型采用基于模型的方法及其相关特征
Using specialized hardware such as multiple synchronized cameras and infrared light sources,they extract the geometric features of an eye to determine the gaze direction.
他们使用专用硬件,如多个同步摄像头和红外光源,提取眼睛的几何特征以确定注视方向。 Appearance-based methods, on the other hand, use the natural appearances of eyes observed from a commodity camera without requiring any dedicated hardware.
另一方面,基于外观的方法使用从商品相机观察到的眼睛的自然外观,而不需要任何专用硬件。
专用硬件 use specialized hardware , require dedicated hardware.
by fixating their eyes on explicit reference points.
让他们的眼睛盯着明确的参考点。
Another problem that most estimation methods suffer from is calibration drift, and their calibration accuracy highly depends on the users and installation settings.
大多数估算方法面临的另一个问题是校准漂移,其校准精度在很大程度上取决于用户和安装设置。
An interactive local calibration scheme with, e.g., user feedback [2], is sometimes required in practical application systems to correct personal calibration errors.
在实际应用系统中,有时需要使用交互式局部校准方案,例如用户反馈[2],以纠正个人校准错误。
In many scenarios, such active personal calibration is too restrictive as it interrupts natural interactions and makes unnoticeable gaze estimation impossible.
在许多情况下,这种主动的个人校准限制性太大,因为它会中断自然的互动,并且无法进行不可见的凝视估计。
It is also well known in the class of model-based approaches that the gaze direction can be approximately estimated as the direction of the optical axis without requiring personal calibration [7]. However, its offset with the visual axis, which corresponds to the actual gaze direction, can be as large as 5 degrees [1], [4], and the accuracy varies significantly based on the individual.
在基于模型的方法中,众所周知,凝视方向可以近似估计为光轴方向,而无需个人校准[7]。然而,它与视觉轴的偏移量(对应于实际的注视方向)可能高达5度[1],[4],并且精确度因个体而异。
There are previous studies that aim at completely removing the need for explicit personal calibration processes. 以前的研究旨在完全消除对明确的个人校准过程的需要。
Yamazoe et al. use a simple eyeball model for gaze estimation and perform automatic calibration by fitting the model to the appearance of a user’s eye while the user is moving his/her eyes [8].
Yamazoe等人使用一个简单的眼球模型进行凝视估计,并通过在用户移动眼睛时将模型与用户眼睛的外观相匹配来执行自动校准[8]。
In Sugano et al.’s method, in a similar spirit to [2], a user’s natural mouse inputs are used for the incremental personal calibration of the appearance-based gaze estimation without any calibration instructions [9]
Sugano等人的方法中,本着与[2]类似的精神,用户的自然鼠标输入用于基于外观的凝视估计的增量个人校准,无需任何校准说明[9]。
Both methods use only a monocular camera, however, these approaches still have some limitations. Y amazoe et al.’s approach suffers from inaccuracy due to the simplified eyeball model, and Sugano et al.’s approach can only be applied to interactive environments with user inputs.
这两种方法都只使用单目相机,然而,这些方法仍有一些局限性。Y amazoe等人的方法由于简化的眼球模型而存在不精确性,Sugano等人的方法只能应用于有用户输入的交互环境。
图1 :说明我们的方法。我们的方法使用自底向上方式从视频帧计算的显著性映射来自动构造注视估计器 ------------------------------在视频帧中用自底向上方式 ,计算出中间那个图就是显著性映射(图) ,来自动构造的一个注视估计器
除了这些注视估计研究外,还研究了视觉显著性的计算模型来估计图像上的视觉注意,这是以自下而上的方式计算的。与旨在确定人们眼睛实际看向何处的凝视估计方法不同,视觉显著性计算图像区域,以吸引人们的注意力。从生物学角度来看,人类倾向于注视具有高显著性的图像区域,即与周围区域相比,包含独特视觉特征的区域。继Koch和Ullman提出视觉显著性的原始概念【10】之后,在【11】、【12】、【13】、【14】、【15】中提出了各种自下而上的视觉显著性图计算模型。实验表明,自下而上的视觉显著性与注视位置之间存在相关性【16】。然而,视觉注意机制尚未被完全理解。众所周知,在自然动态场景下,注视预测变得更加困难,在这种场景中,高水平的任务和知识对注视控制的影响更大【17】。
-----------------------不研究注视估计了 ,研究视觉显著性的计算模型 --------------------之前的实验都表明 自下而上的视觉显著性&注视位置有关!!!视觉显著性有用!!!!!
Apart from these gaze estimation studies, computational models of visual saliency have been studied to estimate the visual attention on an image, which is computed in a bottom-up manner. In contrast to gaze estimation approaches that aim to determine where peoples’ eyes actually look, visual saliency computes the image region that is likely to attract human attention.
除了这些注视估计研究外,还研究了视觉显著性的计算模型来估计图像上的视觉注意,这是以自下而上的方式计算的。与旨在确定人们的眼睛实际看向何处的凝视估计方法不同,视觉显著性计算可能吸引人类注意力的图像区域。
. Experiments show that there is a correlation between bottom-up visual saliency and fixation locations [16]. However, the visual attention mechanism is not yet fully understood.实验表明,自下而上的视觉显著性与注视位置之间存在相关性【16】。然而,视觉注意机制尚未被完全理解。
It is already known that fixation prediction becomes much more difficult under natural dynamic scenes, in which a high-level task and knowledge have a stronger influence on the gaze control [17]
. 众所周知,在自然动态场景下,注视预测变得更加困难,在这种场景中,高水平的任务和知识对注视控制的影响更大【17】
注视估计(自上而下)和视觉显著性(自下而上)模型密切相关。尽管如此,并没有多少研究将这两个主题联系起来。
Kienzle等人[18]、[19]提出了一种利用凝视估计数据学习自下而上视觉显著性计算模型的方法。在他们的工作中,视觉显著性图被建模为高斯径向基函数的线性组合,并使用支持向量机(SVM)学习其系数。
Judd等人【20】以及Zhao和Koch【21】也将这种方法用于不同的功能和更大的数据库。低层图像特征(如颜色和强度)和高层特征(如人脸检测器)的线性权重通过SVM学习【20】。
在[21]中,通过使用活动集方法解决非负最小二乘问题来学习最佳特征权重。
这些方法使用注视点学习精确的显著性模型。
与这些方法不同,我们的目标是从视觉显著性图的集合中创建一个凝视估计器。据我们所知,这是第一次使用视觉显著性作为注视估计的先验信息。
-------------------------先验信息就是用啥去实现我们的目标
目前没有多少人研究 ,我们研究!!!
Gaze estimation (top-down) and visual saliency (bottomup) models are closely related. Nonetheless, not many studies exist that bridge these two subjects. 注视估计(自上而下)和视觉显著性(自下而上)模型密切相关。尽管如此,并没有多少研究将这两个主题联系起来。
Kienzle et al. [18], [19] propose a method for learning the computational models of bottom-up visual saliency by using the gaze estimation data.Kienzle等人[18]、[19]提出了一种利用凝视估计数据学习自下而上视觉显著性计算模型的方法。
A visual saliency map is modeled in their work as a linear combination of the Gaussian radial basis functions, and their coefficients are learned using a support vector machine (SVM). 在他们的工作中,视觉显著性图被建模为高斯径向基函数的线性组合,并使用支持向量机(SVM)学习其系数。
Judd et al. [20] and Zhao and Koch [21] also use this approach with different features and a larger database. The linear weights of low-level image features (e.g., color and intensity) and high-level features (e.g., face detector) are learned via the SVM in [20]. Judd等人【20】以及Zhao和Koch【21】也将这种方法用于不同的功能和更大的数据库。低层图像特征(如颜色和强度)和高层特征(如人脸检测器)的线性权重 通过SVM学习【20】。
In [21], the optimal feature weights are learned by solving a non-negative least squares problem using an active set method.
在[21]中,通过使用活动集方法解决非负最小二乘问题来学习最佳特征权重。
These approaches learn accurate saliency models using gaze points. In contrast to these methods, our goal is to create a gaze estimator from the collection of visual saliency maps. To our knowledge, this is the first work using visual saliency as prior information for gaze estimation.
这些方法使用注视点学习精确的显著性模型。与这些方法不同,我们的目标是从视觉显著性图的集合中创建一个凝视估计器。据我们所知,这是第一次使用视觉显著性作为注视估计的先验信息。
图1 :说明我们的方法。我们的方法使用自底向上方式从视频帧计算的显著性映射来自动构造注视估计器 ------------------------------在视频帧中用自底向上方式 ,计算出中间那个图就是显著性映射(图) ,来自动构造的一个注视估计器
在本文中,我们提出了一种新的凝视感知方法,该方法使用计算视觉显著性,如图1所示。
我们的方法基于自下而上的视觉显著性与实际注视点相关的假设。通过计算视频中的视觉显著性映射并将其与用户的相关眼睛图像相关联,我们的方法自动学习从眼睛图像到注视点的映射。
我们根据人眼图像的相似性对显著性图进行聚合,生成可靠的图,本文称之为凝视概率图,以处理原始显著性图预测精度低的问题。一旦获得了凝视概率图,我们的方法就会学习凝视概率图和眼睛图像之间的关系。
此外,反馈方案优化用于计算视觉显著性图的特征权重。反馈回路使我们能够进一步加强注视概率图和眼睛图像之间的相关性。从一个角度来看,我们的方法关闭了自下而上的视觉显著性和自上而下的注视估计循环;视觉显著性决定了注视点的可能位置,而注视点反过来又优化了视觉显著性的计算。
我们通过广泛的用户测试证明了我们的方法,并验证了使用视觉显著性进行凝视估计的有效性。
We aggregate the saliency maps based on the similarity of the eye images to produce reliable maps, which we call gaze probability maps in this paper, to handle low prediction accuracy of raw saliency maps.
我们根据人眼图像的相似性对显著性图进行聚合,生成可靠的图,本文称之为凝视概率图,以处理原始显著性图预测精度低的问题。
optimizes 优化
The feedback loop enables us to further strengthen the correlation between the gaze probability maps and the eye images.
反馈回路使我们能够进一步加强注视概率图和眼睛图像之间的相关性
From one point of view, our method closes the bottom-up visual saliency and top-down gaze estimates loop; the visual saliency determines the likely location of the gaze points, and the gaze points in return refine the computation of the visual saliency.
从一个角度来看,我们的方法关闭了自下而上的视觉显著性和自上而下的注视估计循环;视觉显著性决定了注视点的可能位置,而注视点反过来又优化了视觉显著性的计算。
We demonstrate our approach through extensive user testing and verify the effectiveness of the use of visual saliency for gaze estimation.
我们通过广泛的用户测试证明了我们的方法,并验证了使用视觉显著性进行凝视估计的有效性。
我们的方法将与任何视频剪辑同步记录的一组眼睛图像作为输入。根据这样的输入,我们的方法自动确定眼睛图像和注视方向之间的关系。
此外,我们的方法不区分测试数据和训练数据,即一个数据集可以同时用于校准和估计。
因此,当只需要特定视频剪辑的凝视估计值时,用户只需要观看一次视频剪辑。一旦了解了这种关系,只要相机和用户之间的配置保持不变,我们的凝视估计器就可以用于其他应用场景。
通过这种方式,提出的框架产生了一种视线估计技术,该技术可以免除用户的主动个人校准。
In this manner, the proposed framework leads to a gaze estimation technique that exempts the users from the active personal calibration.
通过这种方式,提出的框架产生了一种视线估计技术,该技术可以免除用户的主动个人校准。
一般来说,在准确性和系统的可移植性之间存在一个基本的权衡。
我们的系统旨在最大限度地减少硬件和校准限制,以开发一种完全环境注视估计技术,这是打开一种专注用户界面新方式的关键因素【22】、【23】。
例如,为了在公共显示器上的电影剪辑上收集凝视数据,电影创作者可能只需要放置一个相机来捕捉观众的眼睛图像。类似地,PC上的电影播放器可以自然地获取凝视数据,以便媒体理解,而无需用户通知。
此外,校准的凝视估计器可用于基于凝视的交互。我们的方法通过使用眼睛图像作为输入,可以进一步提高凝视估计过程中的标定精度。通过以这种方式关闭校准和估计的循环,这项工作旨在通过日常活动增强校准凝视估计器的方法。
In general, a fundamental trade-off between the accuracy and a system’s portability exists.
Our system aims at minimizing the hardware and calibration constraints for developing a fully ambient gaze estimation technique, which is a key factor for opening up a new way of attentive user interface [22], [23].
一般来说,在准确性和系统的可移植性之间存在一个基本的权衡。我们的系统旨在最大限度地减少硬件和校准限制,以开发一种完全环境注视估计技术,这是打开一种专注用户界面新方式的关键因素【22】、【23】。
这项工作的初步版本见[24]。
陈和季最近介绍了一项密切相关的工作【25】。他们利用视觉显著性图的思想,对观看静止图片的人进行基于模型的凝视估计。虽然陈和纪的方法达到了更高的精确度,允许头部自由移动,但他们的结果依赖于基于模型的设置,在单个图像上记录时间更长。相比之下,我们的系统使用基于外观的估计,并且仅使用单目相机构建。虽然经常讨论的是,当使用静态照片时,从显著性图进行凝视预测比使用视频剪辑时更可靠,但我们的方法通过显著性图的聚合避免了这个问题,从而得到统计上准确且稳定的凝视概率图。
The preliminary version of this work appeared in [24].这项工作的初步版本见[24]。
still pictures.静止图片
While Chen and Ji’s approach achieves a higher level of accuracy and allows for free head movement, their results rely on a model-based setup with a longer recording time on a single image.
虽然陈和纪的方法达到了更高的精确度,允许头部自由移动,但他们的结果依赖于基于模型的设置,在单个图像上记录时间更长。
In contrast, our system uses an appearance-based estimation and is built using only a monocular camera.
相比之下,我们的系统使用基于外观的估计,并且仅使用单目相机构建。
While it is often discussed that a gaze prediction from saliency maps is more reliable when using static photographs than when using video clips, our method avoids this problem via the aggregation of the saliency maps, which results in statistically accurate and stable gaze probability maps.
虽然经常讨论的是,当使用静态照片时,从显著性图进行凝视预测比使用视频剪辑时更可靠,但我们的方法通过显著性图的聚合避免了这个问题,从而得到统计上准确且稳定的凝视概率图。
本文的组织结构如下。
在第2节中,我们描述了所提出的凝视估计方法,该方法从自下而上的显著性图中自动校准。
第3节描述了从估计的注视点到显著性权重计算的反馈循环。这种反馈回路旨在弥合自上而下的注视点和自下而上的视觉显著性之间的差距,并提高注视估计的准确性。
最后,我们通过在第4节中进行用户测试来验证所提出的方法。
我们的结果表明,我们的方法可以达到3.5度的精度,而不需要任何专门的硬件或明确的个人校准过程。
This paper is organized as follows. 本文的组织结构如下
auto-calibrates 自动校准
This feedback loop is intended to bridge the gap between the top-down gaze point and the bottom-up visual saliency, and improves gaze estimation accuracy.
这种反馈回路旨在弥合自上而下的注视点和自下而上的视觉显著性之间的差距,并提高注视估计的准确性。
Finally, we validate the proposed method by conducting user tests in Section 4.
最后,我们通过在第4节中进行用户测试来验证所提出的方法。
【2 GAZE ESTIMATION FROM SALIENCY MAPS2基于显著性图的凝视估计】
我们的目标是构造一个没有校准阶段的凝视估计量。
我们的方法:
- 假设一个固定的头部姿势 和 用户头部、相机和显示器之间的固定相对位置。-------------------------------------------------------------------------固定位置准备
- 术语校准(校准项)表示获得从眼睛图像到显示(电脑)坐标上的点的映射函数。-------------------------------------------------------------------------映射函数
- 在基于外观的注视估计中,眼睛图像(输入)和注视点(输出)之间的关系表示为单个回归函数,我们的目标是在不使用显式训练数据的情况下估计注视估计函数的参数。----------------------------------------------------------应该是将映射函数当作回归函数 估计注视函数参数
- 我们的系统的输入是N个视频帧{I1,…,IN}和相关特征向量{e1,…,eN},这些特征向量是从观看具有固定头部位置的视频剪辑的人的眼睛图像中提取的。第4.1节描述了特征向量e的实现细节;但我们的框架并不依赖于特定的图像特征。。-------------------------------------------------------------------------------输入是I 和 E
- 为了表达清晰,我们在本文中将e简单地表示为眼睛图像。在我们的设置中,眼睛图像和视频帧是同步的。在向人显示帧Ii的同时捕获第i眼图像ei。使用该数据集{(I1,e1),…,(IN,eN)},从眼睛图像e∗ 到未知的注视点g∗ 已构建。--------------------- 看一个视频帧I就有捕获一个图像e
图2:提出方法的说明。我们的方法包括四个步骤。
显著性提取步骤:从输入视频计算显著性图。
显著性聚合步骤:结合显著性图生成注视概率图。
使用注视概率图和相关的平均眼睛图像,估计器构造步骤,学习从眼睛图像到注视点的映射。
通过交叉验证,使用反馈回路优化特征权重以提高精度。
我们的方法包括四个步骤:
显著性提取、
显著性聚合、
估计器构造
特征权重优化,如图2所示。
一旦在显著性提取步骤中计算了显著性图,显著性聚合步骤生成的注视概率图的注视点估计浓度高于显著性贴图。
- 通过对眼睛图像进行聚类计算平均眼睛图像,
- 并根据眼睛图像相似度对所有显著性图进行聚合,计算注视概率图。
使用凝视概率图和相关的平均眼睛图像,估计器构造步骤通过使用高斯过程回归的变量学习从眼睛图像到注视点的映射。
我们的方法通过使用反馈回路进一步优化用于显著性计算的特征权重。通过以交叉验证的方式优化权重,第四步提高了凝视估计器的准确性。
由此产生的凝视估计器输出用户的任何眼睛图像的注视点。在下面的小节中,我们描述了显著性提取、聚合和估计器构造步骤的细节,并在第3节描述了特征权重优化。
have a higher concentration of gaze point estimates
具有较高的注视点估计集中度
【 2.1 Saliency Extraction显著性提取 】
该步骤从输入视频帧{I1,…,IN}中提取视觉显著性图。如图3所示,我们的方法采用六个特征来计算显著性图:五个低级别特征和一个高级别特征。
首先将每个帧I分解为多个特征映射F。我们使用常用的特征通道,即颜色、强度和方向作为静态特征,闪烁和运动作为动态特征。强度通道表示灰度亮度,两个颜色通道为红色/绿色和蓝色/黄色差异,四个方向通道是方向为0的2D Gabor滤波器的响应◦, 45◦, 90◦,和135◦, 分别地。
Each frame I is first decomposed into multiple feature maps F . We use commonly-used feature channels, i.e., color, intensity, and orientations as the static features, and flicker and motion are used as dynamic features in our method.
首先将每个帧I分解为多个特征映射F。我们使用常用的特征通道,即颜色、强度和方向作为静态特征,闪烁和运动作为动态特征。
闪烁通道指示与前一帧的绝对强度差,四个运动通道使用Gabor响应之间的空间偏移差。
在图像金字塔的三个层次上计算特征映射,即原始图像分辨率的1/2、1/4和1/8。
结果,计算出36个(3个级别×(1个强度+2个颜色+4个方向+1个闪烁+4个运动))特征图F
The flicker channel indicates an absolute intensity difference from the previous frame, and four motion channels use the spatially-shifted differences between the Gabor responses. The feature maps are computed at three levels of the image pyramid which are 1/2, 1/4, and 1/8 of the original image resolution. As a result, 36 (3 levels × (1 intensity + 2 color + 4 orientation + 1 flicker + 4 motion)) feature maps F are computed
闪烁通道指示与前一帧的绝对强度差,四个运动通道使用Gabor响应之间的空间偏移差。在图像金字塔的三个层次上计算特征映射,即原始图像分辨率的1/2、1/4和1/8。结果,计算出36个(3个级别×(1个强度+2个颜色+4个方向+1个闪烁+4个运动))特征图F。
然后使用基于图形的视觉显著性(GBVS)从特征图F 计算显著性图【14】。
GBVS算法的计算分为两个阶段:激活和规范化。
首先从特征映射F-------计算激活映射A,以定位具有突出图像特征的区域。
激活图A中的像素分配了更大的值,与特征贴图中的周围区域相比,这些像素具有不同的值。
在GBVS算法中,该计算以马尔可夫链GA的稳态分析形式执行。
GA的每个节点对应于特征映射F中的像素位置, 并且转移概率Ω节点(i,j)和(p,q)之间的基于F中的两个对应像素之间的相异性定义为Ωa
(1111111111111111)式中Ωd表示评估(i,j)和(p,q)之间欧氏距离的高斯权重。、
这样,与周围环境具有更高相异性的节点(=像素)具有更高的转移概率。
因此,通过迭代计算GA的平衡分布da(a的光栅扫描向量形式),满足Ωada=da,(22222222222222222222222222)其中Ωa是转移概率矩阵,包括Ωa、 F中的显著像素在a中具有较大的值。
Computation in the GBVS algorithm is conducted in two stages: Activation and normalization.
GBVS算法的计算分为两个阶段:激活和规范化。
Activation maps A are first computed from the feature maps F to locate the regions with prominent image features.
首先从特征映射F计算激活映射A,以定位具有突出图像特征的区域。
Greater values are assigned to the pixels in activation maps A where they have distinct values compared with their surrounding regions in the feature maps.
激活贴图A中的像素分配了更大的值,与特征贴图中的周围区域相比,这些像素具有不同的值。
In the GBVS algorithm, this computation is performed in a form of a steady-state analysis of a Markov chain GA.
在GBVS算法中,该计算以马尔可夫链GA的稳态分析形式执行。
Each node of GA corresponds to a pixel position in feature maps F , and a transition probability Ωa between nodes (i, j) and (p, q) is defined based on a dissimilarity between the two corresponding pixels in F as (1) where Ωd indicates the Gaussian weight evaluating the Euclidean distance between (i, j) and (p, q).
GA的每个节点对应于特征映射F中的一个像素位置和一个转移概率Ω节点(i,j)和(p,q)之间的a基于F中的两个对应像素之间的相异性定义为(1)式中Ωd表示评估(i,j)和(p,q)之间欧氏距离的高斯权重。
. Therefore, by iteratively computing the equilibrium distribution da (a raster-scanned vector form of A) of GA
. 因此,通过迭代计算GA的平衡分布da(a的光栅扫描向量形式)
由于生成的激活图通常有许多不重要的峰值,GBVS算法进一步对其进行归一化以抑制局部极大值。------------------------------------第二阶段!!!!!!!!!!
使用计算出的激活映射A,马尔可夫链GN以类似的方式定义,并具有转移概率Ωn组件:(3333333333333333333333333)
进一步对其进行归一化以抑制局部极大值
further normalizes them to suppress the local maxima.
通过如上所述计算GN的平衡分布,所得图被浓缩,以便它们具有较少的重要峰。这些归一化激活图在每个通道内平均,结果是五个低水平显著性图s(1)~s(5)。
众所周知,人类倾向于盯着脸,尤其是眼睛,因为眼睛对人类来说非常突出。
通过这一观察,
Cerf等人[26]提出了一种使用人脸检测器的基于人脸通道的显著性模型。我们遵循这种方法,使用面部特征生成可靠的显著性图。我们使用欧姆龙公司开发的面部特征检测器OKAO视觉库来获取面部特征。
该第六个显著性映射s(6)被建模为二维高斯圆,在两个检测到的眼睛位置的中心具有固定方差。当检测器仅检测面部而不检测眼睛时,例如由于分辨率有限,面部显著性在面部区域的中心定义。
最后,我们的方法计算每个显著图s(1)-…s(6)-,的时间平均值,时间窗口内的ns为(4444444444444)其中s(f)j是从第j帧计算的第f特征的原始显著性图,ns是用于时间平均的帧数。
这是因为人类无法立即跟踪快速的场景变化,而只有过去的帧用于平滑以考虑延迟。结果,生成了同步的显著图和眼睛图像的对Ds={('s(1)1,…,'s(6)1,e1),…,('s(1)N,…,'s(6)N,eN)}。
a fixed variance
固定方差
temporal 时间
【
2.2显著性聚集
】
尽管假设显著性图可以预测注视点,但其准确性不足以确定先前研究中讨论的精确注视点位置【17】。
在本节中,我们描述了通过聚合计算出的显著性图来计算注视点概率分布的方法。
计算出的显著性映射{s(f)}对视频帧的独特视觉特征进行编码。
虽然显著性图不能提供准确的注视点,但显著性图中的高度显著区域可能与实际注视点重合。
假设我们有一组显著性地图,在统计上,这些地图在实际注视点周围具有较高的显著性得分,在其他区域具有随机显著性得分。
由于我们假设一个固定的头部位置,凝视点和眼睛图像之间存在一对一的对应关系;
视觉上相似的眼睛图像之间的实际注视点几乎相同。
因此,通过基于相关眼睛图像的相似性去聚合显著性图,我们可以假设实际注视点周围的图像区域与其他区域相比具有鲜明的显著性峰值。
聚合映射可用作注视概率映射,即注视点的概率分布。
distinctive visual features
独特的视觉特征
coincide with
符合 重合
has a vivid peak
有一个明显的顶峰
眼睛图像ei和ej的相似性得分ws定义为ws(ei,ej)=exp(−κ2s | | ei− ej | | 2),(5)其中因子κs控制相似性得分。当两幅眼睛图像的外观相似时,即眼睛图像的注视点接近时,相似度得分ws较高。由于眼睛图像的外观变化对于不同的人来说相当大,等式(5)中κs的最佳值高度依赖于人。因此,在这项工作中,因子κs是通过ws取值范围间接定义的。更具体地说,通过最小化定义为κs=argminκs | | Ts的错误来优化κs− det(Ws)| | 2,(6)其中Ws∈ RNs×Ns是使用Ds中随机选择的Ns眼睛图像计算的相似性权重矩阵。Ts是根据经验定义的行列式的目标值,例如,通过定量检查样本数据集。通过梯度下降最小化等式(6),确定因子κs以适应人的依赖性。
highly person-dependent. 高度依赖于人
indirectly defined via。。 通过。。间接定义
The factor κs is determined to adapt to the person-dependency by minimizing Eq. (6) via the gradient descent.
通过梯度下降 最小化等式(6),确定因子κs以适应人的依赖性。
在计算凝视概率图之前,我们从数据集中消除了对凝视估计不有用的眼睛图像,例如眨眼的眼睛图像。
另一方面,在注视期间记录的眼睛图像可用作训练数据。
为了自动识别这样的眼睛图像,我们使用眼睛图像e的固定度量,定义为we(ei)=exp(−αeκ2sVar(ei)),(7),其中αe是加权因子,Var(ei)表示眼睛图像{ei)中的方差−nf,ei+nf}在以i为中心的时间窗口2nf+1上,(88888888888888888888888888888)(999999999999999999999999999)
等式(7)评估眼睛区域的稳定性,并假设在时间窗口期间照明条件没有显著变化。
由于眼睛图像的外观在眼睛快速移动期间迅速变化,因此当在眼球运动或眨眼期间捕捉到ei时,we(ei)变小。通过移除we分数低于预定义阈值τf的眼睛图像,从Ds创建子集Ds'={('s(1)1,…,'s(6)1,e1),…,('s(1)N 0,…,'s(6)N 0,eN 0)}。
同步的显著图和眼睛图像的对Ds
a weighting factor,
加权系数,
the variance方差
由于Ds’限制了注视点的变化,并且可能有许多样本共享几乎相同的注视点,因此根据相似度ws对眼睛图像进行聚类,以减少冗余和计算成本。使用相似性得分(等式(5)),将每个眼睛图像ei依次添加到其平均眼睛图像´e与ei最相似的簇中。如果所有现有聚类中的最高相似度低于阈值τe.M聚类,则自适应创建一个新的聚类,并根据这些计算计算出它们的平均眼睛图像{e1,…,eM}。
the eye images are clustered according to similarity ws to reduce redundancy and computational cost.
根据相似度ws对眼睛图像进行聚类,以减少 冗余和计算量。
Using the similarity score (Eq. (5)), each eye image ei is sequentially added to the cluster whose average eye image ¯e is the most similar to ei.
使用相似性得分(等式(5)),将每个眼睛图像ei依次添加到其平均眼睛图像´e与ei最相似的簇中。
A new cluster is adaptively created if the highest similarity among all existing clusters is lower than a threshold τe.
如果所有现有聚类中的最高相似度低于阈值τe.M聚类,则自适应地创建一个新的聚类
在这些步骤之后,每个特征f的注视概率图p(f)i计算为(1010101010101010101010)
其中s(f)all是所有显著图's(f)1,…'的平均值,在子集Ds中
众所周知,由于人造图片通常在图像中心具有较高的显著性,因此存在视觉显著性的中心偏差[20]、[21]。
平均显著性图s(f)all用于消除凝视概率图中的中心偏差。如果没有这一点,无论眼睛图像“ei”如何,凝视概率图在中心的值都会更高。
凝视概率图p(f)i也可以有负值。在我们的例子中,只有相对差异才重要,因此,我们通过将值归一化到固定范围来使用计算结果。我们再次使用基于图的归一化方案(等式(3))对注视概率图´p(f)i进行归一化,以增强注视概率图中的峰值。
Without this, the gaze probability map tends to have a higher value at the center regardless of the eye image ¯ei.
In our case, only the relative differences matter, and therefore, we used the computed results by normalizing the values to a fixed range.
凝视概率图p(f)i也可以有负值。在我们的例子中,只有相对差异才重要,因此,我们通过将值归一化到固定范围来使用计算结果。
最终凝视概率图´pi---------------计算为所有特征相关图´p(f)的加权和,如等式(11)所示,其中ωf是第f个特征的权重。然后将凝视概率图pi归一化为一个固定的范围,我们得到一个数据集Dp={('p1,'e1),…,('pM,'eM)}。我们遵循了许多现有的视觉显著性地图模型,并在此步骤中使用等权重来聚合特征地图。
The final gaze probability map ¯pi is computed as a weighted sum of all the feature-dependent maps ¯p(f) as Eq. (11) where ωf is a weight for f-th feature. ¯pi is then normalized to a fixed range, and we obtain a dataset Dp = {(¯p1, ¯e1), . . . , (¯pM , ¯eM )}. We followed many existing visual saliency map models and used equal weights at this step to aggregate feature maps.
最终凝视概率图´pi计算为所有特征相关图´p(f)的加权和,如等式(11)所示,其中ωf是第f个特征的权重。然后将pi归一化为一个固定的范围,我们得到一个数据集Dp={('p1,'e1),…,('pM,'eM)}。我们遵循了许多现有的视觉显著性地图模型,并在此步骤中使用等权重来聚合特征地图。
然而,经常有人指出,每个特征的贡献并不一致,并且存在一定程度的数据依赖性。我们使用反馈方案来优化调整权重参数,以解决这些问题。第3节讨论了反馈方案。----------------有人说不行 我们找方法弥补不行
However, it is often pointed out that the contribution of each feature is not uniform, and there is a certain degree of data dependency.
We use a feedback scheme to optimally adjust the weight parameters to address these issues.
然而,经常有人指出,每个特征的贡献并不一致,并且存在一定程度的数据依赖性。
我们使用反馈方案来优化调整权重参数,以解决这些问题。
图4显示了六个人获得的凝视概率图'p的示例。每个子图左上角显示的眼睛图像表示相应的平均眼睛图像“e”,重叠的点表示“e”的实际注视点。
请注意,“e”是通过上述过程合成的眼睛图像的原型,实际注视点未知。
因此,我们使用第4节中描述的使用显式校准的基于外观的凝视估计器的估计,以获得真实的注视点作为参考。虽然在不知道实际注视点的情况下生成了注视概率图´pi,但它们与实际注视点有着显著的相关性。
overlaid dots ,重叠的点
a prototype of the eye images synthesized through the above process, 通过上述过程合成的眼睛图像的原型
to obtain the true gaze points as a reference. ,以获得真实的注视点作为参考
Although the gaze probability maps ¯pi are generated without knowing the actual gaze points, they have a significant correlation with the actual gaze points.
虽然在不知道实际注视点的情况下生成了注视概率图´pi,但它们与实际注视点有着显著的相关性。
我们将凝视概率图与原始显著性图进行比较,以评估与实际注视点的相关性改善。
图5示出了使用接收机工作特性(ROC)曲线的相关性改进。我们扫描注视概率图和原始显著性图的阈值以获得图,并评估我们通过实验获得的所有地面真实注视点。
横轴表示误报率,即图中高于阈值的像素的比率。纵轴是真实的正速率,表示注视点处显著性值大于阈值的帧的速率。
凝视概率图的曲线下面积(AUC)为0.93,原始显著性图的曲线下面积为0.82。这一结果表明,聚合过程显著增强了相关性。--------------------------最终的凝视概率图就是经过聚合嘛 所以说聚合过程增强相关性
compare with 比较
assess the correlation improvement with the actual gaze points. 以评估与实际注视点的相关性改善
Fig. 5 shows the correlation improvement using a receiver operating characteristic (ROC) curve. 图5示出了使用接收机工作特性(ROC)曲线的相关性改进。
sweep扫描
the plots,图,
The horizontal axis represents the false positive rate, i.e., the rate of the pixels in a map above a threshold value. The vertical axis is the true positive rate, which indicates the rate of frames whose saliency value at the gaze point is greater than the threshold.
横轴表示误报率,即图中高于阈值的像素的比率。纵轴是真实的正速率,表示注视点处显著性值大于阈值的帧的速率。
The area under the curve (AUC) of the gaze probability maps is 0.93, and that of the raw saliency maps is 0.82. This result shows that the correlation is significantly enhanced by the aggregation process.
凝视概率图的曲线下面积(AUC)为0.93,原始显著性图的曲线下面积为0.82。这一结果表明,聚合过程显著增强了相关性。