⽣物学家开始研究视觉的机理,Hubel & Wiesel,1959,他们的问题是:哺乳动物的视觉处理机制是怎样的呢?他们将电极插进主要控制猫
视觉的后脑上的初级视觉⽪层(V1),然后观察,何种刺激会引起视觉⽪层神经元的反应。他们发现猫的⼤脑的初级视觉⽪层有各种各样的
细胞,其中最重要的细胞是当它们朝着某个特定的⽅向运动的时候,对⾯向边缘产⽣反应的细胞。当然还有更加复杂的细胞,但是总的来
说,它们发现视觉初级是始于视觉世界的简单结构,⾯向边缘,沿着视觉处理途径的移动,信息也在变化,⼤脑建⽴了复杂的视觉信息,直
到它可以识别更为复杂的视觉世界。
计算机视觉的历史是从60年代初开始的,Block World 是由Larry Roberts出版的⼀部作品,被⼴泛地称为计算机视觉的第⼀篇博⼠论⽂,其
中视觉世界被简化为简单的⼏何形状,⽬的是能够识别它们,重建这些形状是什么。1966年MIT的暑期视觉项⽬,⽬的是为了构建视觉系统
的重要组成部分。David Marr,⼀个MIT 视觉科学家提出了使得计算机识别视觉世界的算法,他指出,为了获取视觉世界完整的3D图像,需
要经历⼏个阶段:第⼀个阶段是原始草图,⼤部分边缘、端点和虚拟线条,这是受到了神经科学家的启发,Hubel &Wiesel 告诉我们视觉处
理的早期阶段有很多关于像边缘的简单结构;第⼆阶段是David Marr 所说的“2.5维草图”我们开始将表⾯、深度信息、不同的层次以及视觉场
景的不连续性拼凑在⼀起的;最后⼀个阶段是将所有的内容放在⼀起,组成⼀个3D模型。这是⼀个⾮常理想化的思想过程,这种思维⽅式
实际上已经在计算机视觉领域影响了⼏⼗年。这也是⼀个⾮常直观的⽅式,并考虑如何解构视觉信息。
七⼗年代另外⼀个⾮常重要的⼯作(Brooks&Binford,1979 Fischler & Elschlager 1973),这个时候他们提出了⼀个问题,我们如何越过简
单的块状世界,开始识别和表⽰现实世界的对象。70年代是⼀个没有数据可⽤的时代,计算机的速度很慢,计算机科学家开始思考如何识别
和表⽰对象,在斯坦福⼤学的帕洛阿尔托以及斯⾥兰卡提出了类似的想法,⼀个被称为⼴义圆柱体,⼀个被称为圆形结构,他们的基本思想
是每个对象都是由简单的⼏何图单位组成,任何⼀种表⽰的⽅法就是讲物体的复杂结构,简约成⼀个集合体,有更简单的形状和⼏何结构,
这些研究已经影响了很长很长的⼀段时间。
80年代,David Lowe思考如何重建或者识别由简单的物体结构组成的视觉空间,他尝试识别剃须⼑,通过先和边缘进⾏构建,其中⼤部分
都是直线以及直线之间的组合。那个时候由于样本⼩,物体识别是很难的。
如果物体识别太难了,那么我们⾸先要做的是⽬标分割,这个任务就是把⼀张图⽚中的像素点归类到有意义的区域,我们可能不知道这些像
素点组合到⼀起是⼀个⼈型,但是我们可以把这些属于这⼈的像素点从背景中抠出来,这个过程就叫做图像分割,这项⼯作是由Berkeley的
Jitendra Malik和他的学⽣Jianbo Shi 所完成的。他们⽤⼀个图论算法对图像进⾏分割,还有另外⼀个问题,先于其他计算机视觉问题有进
展,也就是⾯部检测,脸部是⼈类最重要的部位之⼀。
1999-2000年机器学习技术,特别是统计机器学习⽅法,开始加速发展,出现了很多⽅法:⽀持向量机模型,boosting⽅法,图模型。有⼀
种⼯作做出了很多贡献,技术使⽤AdaBoost 算法进⾏实时⾯部检测,由Paul Viola和Michal Jones 完成。在他们发表论⽂后的第五年,也
就是2006年,富⼠康推出了第⼀个具有实时⾯部识别的照相机。这是从基础科学研究到实际应⽤的⼀个快速转化,关于如何才能能够做到更
好的⽬标识别,这是⼀个我们可以继续研究的领域。从90年代末到2000年的前⼗年有⼀个⾮常有影响⼒的思想⽅法是基于特征的⽬标识
别,这⾥有⼀个影响深远的⼯作,由 David Lowe完成,叫做SIFT特征,思路就是去匹配整个⽬标。例如这⾥有⼀个stop标识去匹配另外⼀
个stop标识是⾮常困难的,因为有很多变化的因素,⽐如相机的⾓度、遮挡、视⾓、光线以及⽬标⾃⾝的内在变化,但是可以得到⼀些启
发,通过观察⽬标的某些部分,某些特征是能够在变化中保持不变性,所以⽬标识别的⾸要任务是在⽬标上确认这些关键的特征,然后把这
些特征与相似的特征进⾏匹配,它⽐匹配整个⽬标要容易得多。我们这个领域另外⼀些进展是识别整幅图的场景,有⼀个算法叫空间⾦字塔
匹配,背后的思想是图⽚⾥⾯有各种特征,这些特征可以告诉我们这是哪种场景,到底是风景还是厨房,或者是⾼速公路等等 。这个算法从
图⽚的各部分,各个像素抽取特征,并把他们放在⼀起,作为⼀个特征描述符,然后在特征描述符上做⼀个⽀持向量机。有个在⼈类认知⽅
⾯很类似的⼯作正处于风头浪尖。有些⼯作是把这些特征放在⼀起之后,研究如果在实际图⽚中合理地设计⼈体姿态和辨认⼈体姿态,这⽅
⾯⼀个⼯作被称为⽅向梯度直⽅图;另外⼀个被称为可变形部件模型。
可以看到我们从60年代、70年代、80年代⼀步步⾛到20世纪,有⼀件事情⼀直在变化,就是图⽚的质量,随着互联⽹的发展,随着数码相
机的发展,计算机视觉的研究也能拥有更好的数据了,计算机视觉在21世纪早期提出了⼀个⾮常重要的基本问题,我们⼀直在⽬标识别,但
是直到21世纪的早期,我们才开始真正拥有标注的数据集,能供我们衡量在弥补识别⽅⾯取得的成果,其中最具有影响⼒的标记数据集之⼀
叫PASCAL Visual Object Challenge 这个数据集由20个类别的图⽚,数据集中的每个种类都有成千上万张图⽚,
评论0