《A Computational Theory of Human Stereo Vision》是Marr和Poggio在1979年发表的一篇论文,该论文为人类立体视觉提供了一个计算理论模型,并构建了计算机视觉与三维视觉研究的框架。这篇论文在计算机视觉领域具有里程碑意义,提出了通过计算方法解决双眼立体匹配问题的算法。接下来,我们将详细解读该论文中所提到的知识点。
1. 双眼立体视觉(Binocular Stereo Vision):
双眼立体视觉是指人的两只眼睛从稍微不同的视角观察同一场景,通过大脑的处理形成深度感和三维空间结构感知的能力。人类的立体视觉是通过两只眼睛接收的图像差异(视差)来实现深度信息的估计。
2. 立体匹配问题(Stereo Matching Problem):
立体匹配问题是立体视觉中的核心问题,指的是将左右眼图像中的对应点找到匹配的过程。如果能够准确地找到匹配点,那么就可以计算出点之间的视差,从而得到物体的深度信息。
3. Marr-Poggio算法(Marr-Poggio Algorithm):
Marr和Poggio在论文中提出的算法包括五个步骤:
- 第一步:用不同方向和大小的条纹掩码(bar masks)对左右眼图像进行滤波处理,这些掩码随着位置的偏离而增大。
- 第二步:在滤波后的图像中确定零交叉点(zero crossings),这些点大致对应于边缘的位置。同时,找到线段和边缘端点的位置。
- 第三步:对于每一个掩码的方向和大小,匹配发生在同一符号的零交叉点或线段端点在两幅图像之间,视差范围大约等于掩码中心区域的宽度。
- 第四步:通过宽掩码控制收敛运动,使得小掩码能够进行对应。
- 第五步:当匹配达成时,将其存储在动态缓冲区中,称之为“二维草图”(2½-D sketch)。
4. 条纹掩码(Bar Masks):
条纹掩码是一种图像处理技术,用于在图像中提取特定方向的边缘信息。Marr和Poggio使用的掩码随着位置的偏移而增大,从而能够在不同的尺度上提取特征。
5. 零交叉点(Zero Crossings):
零交叉点是图像处理中的一个概念,表示在一幅图像中像素强度的变化从正变为负或从负变为正的点。这些点对应于图像中的边缘信息,可用于后续的特征提取和匹配过程。
6. 二维草图(2½-D Sketch):
Marr和Poggio提出了一种中间表示方法,称为二维草图,它是将场景深度信息编码在二维图像上的一种形式。这种表示方法可以包含每个点的深度信息,但没有完整三维模型的全部信息。
7. 计算机视觉(Computer Vision):
计算机视觉是研究如何让机器“看”的学科,它涉及从图像或视频中提取信息并对其进行处理以理解所见内容。该领域的一个重要目标是使计算机能够像人类一样解释和理解视觉信息。
8. 三维视觉(Three-Dimensional Vision):
三维视觉是指能够理解视觉世界为三维空间的能力。在计算机视觉中,三维视觉通常涉及从二维图像中重建三维场景结构的任务,包括深度估计、三维建模等。
通过Marr和Poggio的研究,我们可以看到计算机视觉领域中一个重要的研究方向,即利用计算模型来模拟和实现人类视觉系统的功能。这篇论文提出的理论和算法为后来的计算机视觉研究提供了重要的理论基础和研究方向。