没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
Ali Borji and Laurent Itti,
State-of-the-art in Visual Attention Modeling,
IEEE Transactions on Pattern Analysis and Machine Intelligence, In press.
题目:注意力模型的当前发展水平
作者:Ali Borji, and Laurent Itti
摘要:视觉注意力的建模,特别是刺激驱动的,基于显著性的注意力,在过去 25 年内已
经是一个非常活跃的研究领域。现在有很多不同的模型,除了给其他领域带来理论贡献以
外,这些模型已经在计算机视觉,移动机器人,和认知系统展示出成功的应用。这里我们
从计算角度综述应用在这些模型的基本概念。我们提出了对大概 65 个模型的分类,提供
了一个方法、性能和缺点的关键的比较。特别是,提出了从行为研究和计算研究得出的
13 个标准,来量化笔记注意力模型。并且,我们解决了一些具有挑战的模型问题,包括
计算模型的生理解释,与眼动数据库的关系,自上而下和自下而上的分离,以及构建有意
义的性能指标。最后,我们突出注意力模型的今后研究方向,为未来提出见解。
1,介绍
每秒钟有大量的视觉信息进入人们的眼睛[1][2]。如果没有一个智慧的机制来滤除视
觉数的中的错误的数据,实时处理这些数据将是一个非常恐怖的事情。高层次的认知和复
杂处理,比如物体认知或者场景理解,都依赖这些经过这种方式【注:一个智慧的机制来
滤除视觉数的中的错误的数据】转换过的易处理的数据。本文将讨论的这个机制就是视觉
注意力,他的核心在于选择机制的思想以及相关的概念。对人类来说,注意力通过已经进
化为高分辨率的中央凹的视网膜【注:中央凹(central fovea):是眼球后极视网膜上
一个浅黄色的区域,称为黄斑。其中央有一椭圆形小凹,称为中央凹】和一个底分辨率的
周围区域实现的。尽管视觉注意力将这些解剖学组织指向场景中的重要部分来采集更具体
的信息,(视觉注意力模型的)主要问题是基于这个指向的计算机制。
近年来,科学研究的很多方面已经旨在回答这个问题。心理学家研究了视觉注意力的
相关行为,比如变化盲点[3][4]【注:变化盲点 Change blindness 是一个心理学现
象,当刺激发生变化时,人们往往无法注意到】,无注意力盲点[5]【注: 无注意力盲点
inattentional blindness 是我们无法注意到一些显而易见的激励】和注意瞬脱[6]【注:
注意瞬脱 attenional blink 是指在一个连续的注视过程中,我们会短时间内无法注意到
一些显著的物体或者其他东西】。神经生理学家证明了神经元是如何适应自己来更好的感
知感兴趣的物体[27][28]。计算神经科学家已经构建了现实的神经网络模型来模拟和解
释注意力行为(比如[29][30])。受这些研究的鼓励,机器人学家和计算机视觉科学家
已经试图解决计算复杂度的内在问题来构建能够实时工作的系统(比如[14][15])。尽
管现在在以上提及的研究领域已经有很多模型,这里我们仅讨论能够计算图像或者视频的
显著图的模型(见下节的定义)。对于计算视觉注意力的计算模型的一般综合,包括偏向
竞争[10],选择调节[15],注意力模型的规范化[181],和其他模型,参考[8]。从心理
学、神经生理学以及计算角度出发的注意力模型的综述,参考[9][77][10][12][202]
[204][224]。图 1 显示了注意力研究的分类,并突出了我们的综述范围。
1.1定义
尽管术语attention,saliency 和 gaze 经常被相互替换使用,但是他们之间有更细
微的描述他们的定义。
注意力 attention 是一个普遍概念,覆盖了影响选择机制的各个方面,无论他们是场
景驱动的自下而上的机制或者是预期驱动的自上而下机制。
显著性 saliency 直觉上刻画了场景的一些部分,可能是物体或者区域,这些部分似
乎相对他们的临近区域突出。术语“salient”通常在自下而上的计算模型[18][14]中提及
到。
Gaze,一个眼睛和脑的协调运动,通常被用作注意力在自然行为中的代名词。(见
[99])。比如,一个人或者一个机器人必须和周围的物体进行交互,在场景中移动是控
制注意点来执行任务。从这点讲,注意点控制同时集视觉,行为和注意力来执行感觉运动
协调,这是某些特定行为(比如到达 reaching 和理解 grasping)所必须的。
1.2起源
很多注意模型的基础能够追溯到 Treisman&Gelade's[81],他们提出的“特征整合
理论”陈述了那些视觉特征是重要的以及他们如何组合来在弹出式的和连续的搜寻任务中
引导人们的注意力。Koch and Ullman[18]提出了一个前馈模型来组合这些特征,并引
入了 saliency map 的概念,saliency map是表示场景位置突出性的地形图。他们同时
引入了一个 winner-take-all 神经网络,这个网络选择最显著的位置,利用返回抑制机制
使注意力焦点移向下一个最显著的位置。一些系统随即创建出来,利用相关模型来处理数
字图像[15][16][17]。Koch&Ullman 模型的第一个完整的实现以及验证由 Itti 等人[14]
提出(见图 2),并应用于人造场景和自然场景。从此以后,这个领域受到持续的关注。
基于不同对注意力模型的假设的各种各样的方法涌现出来,并在不同的数据库上进行验证。
在接下来的章节中,我们提出一个统一的概念框架,在这个框架下我们将讨论每个模型相
比其他模型的优点和缺点。我们将给作者深入的分析关于注意力模型的当前技术的发展,
确定当前依旧面临的问题。
对注意力建模的主要关注点在于如何,何时以及为什么我们选择行为相关的图像区域。
由于这些原因,提出了一些定义和计算视角。一个通用的方法是从前期人类视觉系统
(early human visual system)的解剖学和功能性来获得灵感(比如[14][15][16]
[191])。另外,一些研究假设视觉注意力服从那些函数,并将它形成一个计算框架。比
如,大家一致认为视觉注意力能吸引更多的信息[144],更多的意想不到的场景区域
[145],或者关于一个任务的最大化回报[109]。
1.3经验基础
注意力模型通常通过观测者的眼球运动来验证。眼球运动传达了关于认知过程的重要
信息,比如阅读、视觉搜索和场景感知。因此,他们通常被看做是注意力转移的表达方式。
比如说,在场景感知和视觉搜索中,当激励比较混乱时,注意点会变得更长,同时扫描线
变得更短[19]。任务的难度(比如说全面阅读对主旨阅读,或者在场景中寻找人对用于
记忆力测试的图像浏览)明显影响着眼球运动行为[19]。尽管注意力模型和眼球运动预
测模型经常用眼球运动数据进行验证,但是在范围、方法、激励以及细节的层次上存在着
剩余16页未读,继续阅读
资源评论
- smileseu2015-11-23翻译的很好,对读懂论文很有帮助,美中不足的是只翻译了前面部分,后面没有翻译。
- saw0092018-04-23先看看 应该很不错
- qq_273439272015-05-19翻译很专业,准确,能够很快看懂,但是后半部分翻译的缺失不够完美
- PumaChaw2016-05-10翻译的很好,对读懂论文很有帮助,美中不足的是只翻译了前面部分,后面没有翻译。
- norrte2015-03-24很好的综述文章,翻译的还行
purple_shadow
- 粉丝: 4
- 资源: 13
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功