没有合适的资源?快使用搜索试试~ 我知道了~
眼动跟踪研究进展与展望.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 163 浏览量
2023-02-23
16:52:16
上传
评论 1
收藏 2.54MB DOCX 举报
温馨提示
试读
29页
眼动跟踪研究进展与展望.docx
资源推荐
资源详情
资源评论
人类获取信息很大程度上依赖于人眼感知的视觉信息, 人眼被称为心灵的窗户, 在人
的自然交互中有着重要的意义, 它能感知周围环境、表现人的注意力、传达个人的情感等.
因此, 眼动跟踪被广泛研究与应用. 眼动跟踪任务及应用示例如图 1 所示. 眼动跟踪一般是
指自动检测人眼瞳孔相对位置或估计视线方向的过程. 图 1(a)为眼动追踪任务示例. 眼动能
描述瞳孔的动态变化, 能直观地反映人的注视点和注视时间, 对于描述人类视觉感知过程与
特点、重现个体基本认知加工过程有重要意义, 被广泛应用于人机交互感知、智能驾驶座
舱、情感计算、意图分析等领域
[1-2]
, 图 1(b)为眼动追踪应用示例. 由于环境光照的多变、个
体眼球生理特性的差异、头部姿态的动态变化等, 眼动跟踪仍然是一个具有挑战的热点研
究问题. 眼动跟踪的研究可以追溯到 20 世纪初, 研究人员采用了接触式的眼动跟踪方法,
通过在眼睛周围放置成对电极的眼电图分析, 或者基于线圈嵌入式的巩膜搜索方法来获取
并分析眼动信息; 在 20 世纪 50 年代有了第 1 部记录基于飞行员瞳孔跟踪及视线分析的控
制飞机操作应用系统的视频资料; 在 60 年代头戴式眼动跟踪得到发展; 在 90 年代视线估
计方面开始使用计算机进行计算处理控制. 近年来, 随着计算机视觉、图形学、人工智能等
新兴技术的发展以及应用需求的增加, 非接触式的基于视频图像的眼动跟踪引起了学术界
和工业界大量深入研究
[1, 3-7]
.
图 1 眼动跟踪人任务及应用示例
Fig. 1 Examples of eye tracking and corresponding applications
下载: 全尺寸图片 幻灯片
本文根据多年眼动跟踪领域的研究基础与积累, 详细综述该领域的研究进展, 并对未
来发展趋势进行展望. 本文结构如下: 第 1 节整体概述眼动跟踪技术的发展. 第 2 ~ 3 节分
别阐述人眼瞳孔检测、视线方向与注视点的估计方法研究进展, 重点阐述基于图像的眼动
跟踪研究进展及相关的数据集. 第 4 节综述相关数据集及性能比较方法. 第 5 节介绍相关应
用. 第 6 节对眼动跟踪的未来发展趋势进行展望.
1. 发展概述
眼动跟踪是自动实现眼球瞳孔中心及注视点定位的过程. 人类获取的外部信息主要通
过人眼感知的视觉信息, 眼动能直观地反映人的注视点和注视时间, 对于描述人类视觉感知
过程与特点、探究个体基本认知过程有重要意义. 常见的眼动行为主要有注视、扫视和平
滑追踪有 3 种形式. 眼动可以通过时间和空间两个维度来进行描述, 常见指标有平均注视时
间、注视次数、注视顺序、平均扫视幅度、眼跳次数、扫视持续时间、扫视方向等. 早期
的眼动跟踪技术应用于心理学领域, 这一时期常用方法有直接观察法、后象法和机械记录
法等. 直接观察法和后象法只能粗略地描述眼动, 机械记录法需要角膜与测量装置接触, 作
为一种接触式的眼动跟踪方法, 容易造成眼部不适. 由于精度不足和调试难度大等问题, 这
些方法逐渐被淘汰. 目前眼动跟踪方法可以分为探查线圈记录法、红外线法、电流记录法
和视频记录法(Video oculography, VOG) 4 类.
1.1 探查线圈记录法
探查线圈记录法最早由 Robinson
[8]
于 20 世纪 60 年代提出, 该方法利用带有线圈的隐
形眼镜在电磁场中运动, 通过电磁感应原理产生的信号来测量眼球水平及垂直方向的运动,
从而实现眼睛位置检测. 眼动有时伴随着头部运动, 传统的探查线圈记录法利用亥姆霍兹线
圈构建磁场, 但无法直接捕捉头部运动
[2]
. Eibenberger 等
[9]
利用 Merritt 线圈产生稳定磁场,
并利用 MATLAB 进行仿真, 实现了无需头戴设备的检测, 并成功降低了测量误差. 此外还
提出了一种新的硬件系统和校准方法, 可以将记录模拟信号的老式线圈系统改装为数字记
录系统, 同时指出不同的运算放大器可能有助于探查线圈记录法的性能提升
[10]
. 探查线圈记
录法测量准确、采样率高, 但无法长时间佩戴, 成本也相对较高.
1.2 红外线法
红外线法需要在眼部附近安装红外光敏管, 根据瞳孔、巩膜、角膜等不同光学界面反
射的图像来测量眼动. 常用方法包括瞳孔−角膜反射法、虹膜−角膜反射法等. 这种测量方
法目前已被广泛地研究和使用, 许多学者提出了光线检测或瞳孔检测的算法提升测量准确
率. 文献[11]提出了快速鲁棒椭圆检测算法, 利用径向对称性搜索瞳孔位置, 并利用两个细
化步骤来适应某些图片中发生椭圆形变的瞳孔外观, 增强了模型的泛化能力. Mestre 等
[12]
利
用 12 次角膜反光获得高清瞳孔和角膜图像, 同时使用了一个标准化因子校正瞳孔中心反射
点向量. 标准化因子的引入提升了垂直眼动跟踪 43.2% 的准确率, 同时减少了设备对于光
源数量的要求. 其他具有代表性的相关算法和技术有 Santini 等
[13]
制作的开源的 EyeRecToo
软件、Else
[14]
、星光镜和霍夫变换结合
[15]
等. 红外线法是一种非侵入式的眼动跟踪方法, 不
会造成眼部不适且精度较高.
1.3 电流记录法
电流记录法是一种成本较低、操作性强的眼动跟踪方法, 在闭上眼睛的情况下也可以
正常工作
[16]
. 眼球发生转动时会产生生物电现象, 具体是指角膜和视网膜新陈代谢率的不同
导致产生电位差, 电位变化可以通过传感器测量眼部周围皮肤获得. 如图 2 所示, 苏黎世联
邦理工学院研究的一种电流记录法眼动跟踪设备
[17]
, 通过不同的电极片分别记录垂直眼动
和水平眼动. 由于设备问题, 如果电位差过小或电极接触不良, 电流记录法无法保证测量效
果, 所以电流记录法并不适用于日常眼动跟踪应用, 一般应用于特定实验室环境下.
图 2 苏黎世联邦理工学院的电流记录法眼动仪
[17]
Fig. 2 An eye tracker based on electrooculography from eidgenössische technische hochschule
[17]
下载: 全尺寸图片 幻灯片
1.4 视频记录法
视频记录法主要利用视频摄像机记录的眼球运动过程, 通过计算机自动分析处理视频
图像. 摄像机可以采集人眼图像或者眼球反射的红外线图像, 然后通过计算机自动处理图像
数据, 实现非侵入式的人眼瞳孔中心检测或者视线注视点估计. 从摄像机安装方式上, 视频
记录法可以分为头盔式、遥测式和头部固定式, 相机数量上可以使用单相机或多相机. 单相
机方法通常使用红外光源引起暗瞳效应, 此时瞳孔较暗, 虹膜较亮, 容易分割瞳孔区域从而
实现眼动追踪. 多相机方法拥有更大的视野, 通常使用一台相机拍摄眼睛图像, 其他相机用
于定位头部位置或进行校准
[2]
. Khamis 等
[18]
研发 EyeScout 系统, 利用摄像头识别人体运动
信息, 并利用 Pursuits 方法检测眼动和屏幕中物体运动轨迹的相关性, 进而判断是否需要调
整眼动追踪装置的位置以适应人体运动. Kong 等
[19]
将 VOG 技术应用于人耳前庭功能检测,
使用红外摄像机和红外发光二极管获得视线水平移动数据, 利用形态学运算和轮廓检测获
取瞳孔位置. Brousseau 等
[20]
提出一种融合了三维视线估计的混合模型, 训练了多个卷积神
经网络用于眼睛区域定位和特征提取, 在传统位置估计网络的基础上增加了质量中心结构,
实验结果表明眼动跟踪的准确率有显著提升.
随着计算机视觉、模式识别、图形学、人工智能等技术的快速发展, 基于视频图像分
析的非接触式眼动跟踪受到广泛关注, 大量相关研究获得开展, 取得了突破性进展及应用,
本文将重点论述基于计算机视觉及机器学习的眼动跟踪研究进展, 分别从眼动跟踪包含的
瞳孔检测及视线估计两个任务进行详细阐述.
2. 瞳孔检测
瞳孔检测, 有时也称为人眼(中心)检测, 其目的是在给定的人脸图像中自动完成瞳孔位
置的定位. 准确的人眼瞳孔检测是视线估计、注意力分析及人机交互等的基础. 人眼瞳孔检
测领域已经开展了数十年的研究. 基于不同的特征将相关方法总结为基于形状结构、基于
外观纹理和基于上下文信息三类.
2.1 基于形状结构的瞳孔检测方法
人眼的特殊生理结构构成, 尤其是虹膜的椭圆形几何结构可以帮助实现瞳孔中心的检
测. 在早期的研究中, Yuille 等
[21]
设计了一个参数化的形变模型来描述人眼瞳孔的几何形状,
通过拟合 11 个参数来覆盖可能的形变空间, 从而完成基于形状信息的瞳孔检测. Hansen 等
[22]
基于虹膜的椭圆形状, 提出一种似然模型来捕捉瞳孔周边信息, 利用期望最大化和随机抽
样一致算法来拟合图像中的椭圆结构, 从而实现瞳孔检测. Valenti 等
[23]
首先检测圆形曲线边
缘, 然后提取相等强度的等照度线曲率, 并设计合适的基于投票的方法来实现准确的瞳孔定
位. 他们在等照度线方法的基础上添加尺度不变性, 最后用每个区域关键点的尺度不变特征
变换向量与数据库进行匹配确定眼睛位置
[24]
. 还有一些研究基于脸部结构信息来完成人眼
中心定位, 脸部结构信息主要包括人脸五官构成, 即人眼、鼻子等的结构分布, 这些先验分
布可以快速帮助完成人脸中的人眼区域定位. Tan 等
[25]
提出一种增强的画像结构
[26]
来建模描
述人脸几何分布关系, 并通过构建左眼、右眼及鼻的位置关系来实现人脸中人眼中心的定
位. Wang 等
[27]
提出一种基于全卷积网络的瞳孔定位与虹膜分割方法, 并利用瞳孔中心、虹
膜区域以及其内外边界的形状结构信息来同时实现瞳孔定位与虹膜分割, 部分结果如图 3
所示, 其中图 3(a) 为原图, 图 3(b) 为真实标签, 图 3(c) 为模型检测结果, 图 3(d) 为基于瞳
孔、虹膜及其边界的形状结构进行后处理的最终结果. Gowroju 等
[28]
提出一种基于 U-Net 的
编码解码瞳孔分割方法来实现瞳孔的准确定位.
图 3 基于 IrisParseNet 的瞳孔检测与虹膜分割结果示例图
[27]
Fig. 3 Some localization and segmentation results based on IrisParseNet
[27]
下载: 全尺寸图片 幻灯片
基于形状结构的瞳孔检测方法主要出现在早期的眼动跟踪研究中, 其主要观点是利用
先验知识, 基于人眼在视频图像中呈现的特定椭圆或者圆形形状及几何关联关系的特性来
对人眼瞳孔进行定位. 由于其过多依赖于固有先验几何知识, 无法较好应对复杂多变的环
境, 且由于视频图像角度变化导致形状拉伸及畸变, 传统基于形状结构的方法普遍存在鲁棒
性不足的问题.
2.2 基于外观纹理的瞳孔检测方法
基于形状的瞳孔检测方法无法应对有较大头部姿态的场景, 而基于外观纹理特征的方
法对头部姿态等更为鲁棒, 其核心是通过设计一些特征提取方法来描述瞳孔的边缘、颜色
剩余28页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3658
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功