没有合适的资源?快使用搜索试试~ 我知道了~
一种基于双层框架的仿射类图像抠像方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 68 浏览量
2023-02-23
20:15:30
上传
评论
收藏 1.09MB DOCX 举报
温馨提示
试读
25页
一种基于双层框架的仿射类图像抠像方法.docx
资源推荐
资源详情
资源评论
数字图像的抠像与合成问题是在虚拟现实中图像处理领域的两种经典问题, 目的是从
一幅合成图像中将前景物体从背景中分离出来, 并合成到一幅新背景图像中.对于合成问题,
对于在数字图像 II 中的某个位置 i=(x,y)i=(x,y), 给定前景图像的颜色 FiFi、背景图像颜色
BiBi 以及一个透明度标量 αi∈[0,1]αi∈[0,1], 其观察到的颜色 IiIi 能够用如下抠像公式表示
为
Ii=αiFi+(1−αi)BiIi=αiFi+(1−αi)Bi
(1)
如果 αi=0αi=0 或 αi=1αi=1, 将点 ii 称作绝对前景或者绝对背景, 并统称为绝对像素.
对于其余 0<αi<10<αi<1 的点, 称为混合像素.
抠像问题为合成问题的逆问题, 同时也是欠约束问题:给出各点的合成像素 IiIi, 需要求
出未知量 FiFi、BiBi 与 αiαi.很多一般背景抠像问题都需要用户提供手工输入的辅助三分图
Trimap, 如图 1(a)和(b)所示, 它包括已知绝对前景区域 ΩFΩF 和已知绝对背景区域 ΩBΩB,
剩余部分为未知区域.于是, 依据已知像素, 并根据抠像公式及某些先验条件, 可以估计未知
区域内的每个像素的{F,α}{F,α}值.基于 Trimap 的图像抠像算法通常分为如下 2 种方式: 1)基
于仿射的抠像方法
[1-7]
.该方法并不孤立地计算每个点, 而是考虑像素间的相关性, 利用间
接、迭代的方式递归地求出未知区域中各个点的 αα 值. 2)基于采样的抠像方法
[8-17]
.该方法
对每个未知点独立从已知区域中选取样本, 并采用逐对样本的计算方式, 而并不考虑各个像
素之间的联系.
图 1 图像抠像问题的基本输入输出和本文的双层次抠像结构
Fig. 1 Input and output of image matting and the hierarchical framework of our method
下载: 全尺寸图片 幻灯片
本文主要讨论仿射类方法
[18]
.虽然相比仿射类方法, 采样类方法的采样位置和采样方式
变化较多, 而且获取样本方式非常直接, 然而, 仿射类方法具有以下优势. 1)仿射类方法充
分强调了像素间的相关性, 该方式也可视为由已知区域向未知区域缓慢、渐进的计算, 因此
在最终 αα 结果的平滑性以及带给或用户的视觉感受上要明显好于采样类方法. 2)采用远距
离搜索的仿射类方法对绝对点的计算效果较好, 而在事实上, 未知区域内的大多数点为绝对
像素, 因此该类方总体准确率上有较为明显的优势.本文在第 1 节首先阐述了仿射类方法的
2 种分类方式以及它们优点和缺点, 在第 2 节中针对 KNN 类的特点讨论了绝对像素划分(即
预处理)方式, 在第 3 节中针对 Matting Laplacian 类的特点讨论了剩余混合像素的计算, 并
在第 4 节中讨论了这 2 类方法各自的实验结果.最后第 5、6 节讨论了仿射方法目前存在的
问题并得出本文的结论.本文基于仿射方法的双层次抠像框架如图 1 所示.需要说明的是, 由
于仿射类方法与采样类方法、乃至其他类如特殊类
[19]
、深度学习类
[20-22]
等方法采用完全不
同的计算机制, 而且本文主要研究前者, 因此无论在理论研究和实验数据上, 本文并未引入
任何其他类方法, 而且也不将结果传至 αα 评估系统
[23]
中, 以保持仿射类方法的整体一致性.
1. 仿射类抠像方法概述
假设每个未知像素的 αα 值是它的 KK 邻域像素 αα 值 α1α1, α2,⋯,αKα2,⋯,αK 的线性组
合, 表示为
αi=w1α1+⋯+wjαj+⋯+wKαKαi=w1α1+⋯+wjαj+⋯+wKαK
(2)
实际求解中, 所有未知点 ii 的 αiαi 可通过求解如下大型稀疏线性方程得到
(L+θD)α=θb(L+θD)α=θb
(3)
其中, LL 为长与宽均为图像像素总数的稀疏方阵, 未知点 ii 所在行对应 KK 邻域的系
数记为 wjwj, j=1,⋯,Kj=1,⋯,K, DD 为对角阵, 在已知点所对应的对角线元素的位置为 1, 未
知点为 0, θθ 为某个较大的数. bb 为长度等于像素总数的列向量, 前景 ΩFΩF 处位置为 1,
背景未知区域 ΩUΩU 位置为 0.上式可采用共轭梯度法求解.
1.1 仿射类方法的分类
各仿射类方法、亦即稀疏矩阵 LL 的构造方式之间的主要区别是每个未知点 ii 的若干
近邻像素位置的远近以及相应权值 wjwj 的构造方式.按是否采用抠像公式以及在抠像中的
实际效果, 仿射类方法可分为不采用抠像公式的简单权重类方法以及采用抠像公式的
Matting Laplacian 类方法.
1.1.1 简单权重类方法
该类方法如图 2 左栏所示, 其特点是不采用抠像公式, 直接采用颜色差异的方法确定
权重.具体的, 当前点 ii 与各近邻点 jj 颜色差异的某个负函数即为各个权重, 即与 jj 的颜色
越接近, 权值越大, 二者的 αα 越相似.起初的 Random Walk 算法
[6]
仅采用 8 邻域处最近的搜
索范围, 但无论在绝对像素还是混合像素, 其计算效果均很不理想. Nonlocal 算法
[3]
对邻域
空间进行了扩展, 采用以每个未知点为中心、半径为 rr 的方形搜索寻找 KK 个颜色最相近
的点.为减少计算量, 采样半径 rr 通常不大. KNN 算法
[4]
的搜索距离则更远, 需要寻找每个
点在颜色约束和空间距离约束的特征下最近的 KK 个点.
图 2 仿射类方法的 2 种分类方式对应的算法及适用范围(其中 Lap 表明在原简单权重方法
的基础上采用 Matting Laplacian)
Fig. 2 Two types of affinity based matting method and the corresponding algorithms and
application scopes (where Lap denotes the application of matting Laplacian based on simple
weight methods)
下载: 全尺寸图片 幻灯片
根据式(2), 若 αiαi 或其 KK 个近邻像素的 αjαj 均接近于 0 或 1, 即它们均为绝对前景
或背景, 此时的权值 wjwj 显然几乎无法构成影响.因此, 在 KNN 算法中讨论的权值是否采
用 exp(−x)exp(−x)还是 1−x1−x 的问题则显得不大重要.但若 αiαi 和 αjαj 为小数, 即它们均
为混合点, 则权 wjwj 非常重要.然而, 由于简单权重模式下的 wjwj 的产生并不采用抠像公
式, 而真实值 αtrueαtrue 是由抠像公式算出, 因此此时的结果肯定不理想.由此可得出的结论
是:该类方法适合于计算绝对像素, 而不是混合像素.
另一方面, 搜索范围较近的 Random Walk 和 Nonlocal 等方法, 需要经过多次传递才能
到达已知区域, 因此较易造成误差累积.相反, 搜索范围较广的 KNN 算法可以通过较少次数
的传递或直接搜索到达已知区域, 会产生较少误差累积, 更有利于绝对前景和背景的计算.
这与采样类方法中直接访问已知区域的方式较为相似.
绝对像素计算步骤也同时在文献[24]中进行了深入讨论.据统计, 在评估系统
[23]
提供的
所有训练图像中, 大型号与小型号 Trimap 中的绝对点数量大大超过了混合点的数量, 由此
可以看出该步骤的重要性.进一步, 该步骤必须单独采用一个独立的、不采用抠像公式的步
骤, 使其区别于普通的混合像素计算步骤, 而简单权重类方法则完全符合这种绝对像素计算
准则.目前, 绝对像素的计算的算法仅出现在采样类计算方式中, 但局部类方法
[13-16, 19]
容易遗
漏较远处的样本, 误划分率偏高, 而全局类方法
[17]
易受全局前景和背景颜色重叠影响, 误划
分率较高.由此可以看出, 目前的绝对像素划分方法仍然受到全局与局部采样方式相互平衡
的困扰.
1.1.2 Matting Laplacian 类方法
该类方法如图 2 右栏所示, 它假设在某"局部集合"SS 内, 任何点 ii 的前景和背景颜色
FiFi 和 BiBi 都是两个固定颜色{F1,F2}{F1,F2}和{B1,B2}{B1,B2}的线性组合, 称为颜色线性
模型(Color line model).结合抠像公式并经推导, 结论为在某个集合 SS 内的(i,j)∈S(i,j)∈S,
点 ii 与 jj 产生的权重为
−1|S|(1+(xi−μS)T(ΣS+ε|S|X3)−1(xj−μS))−1|S|(1+(xi−μS)T(ΣS+ε|S|X3)−1(xj−μS))
(4)
其中, xixi 与 xjxj 分别为点 ii 与 jj 的三维颜色向量, X3X3 为 3×33×3 单位阵, ΣSΣS、
μSμS 分别为 SS 内的 3×33×3 协方差矩阵与 3×13×1 的均值向量, εε 为一个较小的数.未知点
ii 与 jj 的权重为所有包含二者的集合 SS 所产生的权重之和.显然, 由于采用了抠像公式, 该
类方法非常适合于混合点的计算, 也是目前为止, 仿射类方法中对混合点最重要的计算方
式.
该类方法的关键问题是相关集合 SS 如何选择. Closed-Form 算法
[1]
提出将集合 SS 定义
为较小的局部窗口, 对于宽度较窄的前景硬边界效果较好, 然而该类小窗口无法充分涵盖较
宽的混合区域或前景空洞等实例的颜色信息. Large Kernel 算法
[2]
改进了基于空间局部窗口
的思想, 提出了核宽度 rr 与不同未知局部区域的宽度成比例的方式.然而事实上, 核宽度很
大程度上依赖于真实混合区域的宽度信息, 而未知区域仅为用户的粗略手工输入, 尤其输入
为稀疏的线条不能充分表达混合区域的实际信息, 现实中还会存在很多偏差. CCM 算法
[5]
采
用了 KNN 方式中的颜色近似的方法选取集合 SS, 取代了空间方式的局部窗口.由于该方法
搜索范围过大并引入大量已知样本, 在实际中, 它对绝对像素计算的效果较好, 但对于混合
像素的计算也受到全局绝对样本影响, 出现过于二值化的现象.
CNN Matting 方法
[20]
提到, KNN 算法与 Closed Form 算法之间的区别并不直接, 由此采
用基于深度学习方式对二者进行融合.然而经本文讨论至此, 它们的区别已经非常明朗, 即
KNN 类方法适用于绝对像素的划分, 而 Matting Laplacian 类(即 Closed Form 类)适用于混合
像素的计算.本文从仿射类方法自身入手, 据各类方法自身的优点和缺点做出相互的补充,
避免了大量训练数据以及长时间训练等问题.
图 3 显示了 5 种典型算法在 αα 评价系统
[23]
的 52 幅训练图像上(27 幅训练图像中的
大、小 Trimap 且不包含 GT16), 各 αtrueαtrue 区间的平均 MSE 比较(不包含 Random Walk),
显然, KNN 在 0∼0.250∼0.25 与 0.95∼10.95∼1 区间较好, 印证了它非常擅长于绝对像素划
分, 而较为平滑的背景使得在绝对背景划分上更加优秀. CCM 仅在 0∼0.050∼0.05 区间较
好, 说明它受前景和背景重叠的影响非常大. Closed Form 与 Large Kernel 大致
0.25∼0.950.25∼0.95 间较好, 印证了它们擅长混合像素的计算.同时, 近距离 Nonlocal 算法
在各区间中均不理想.
图 3 各 αtrueαtrue 区间中 5 种传统仿射类算法 αα 结果的平均 MSE 比较(其中 xx 轴坐标中
的 0.0 表示 0.0∼0.050.0∼0.05 区间等)
Fig. 3 MSE comparison on five traditional affinity based matting algorithms in
each αtrueαtrue interval (where 0.0 in xx-label denotes the range of 0.0∼0.050.0∼0.05, etc)
下载: 全尺寸图片 幻灯片
1.2 本文方法的提出
事实上, KNN 类算法中 KK 近邻像素的远近的选取, 对该类方法的绝对像素划分结果
会产生重要影响.在前景与背景的整体重合度不高的前提下, 选择更远距离的搜索范围, 不
仅会为当前未知点提供更多相似的已知点, 而且在 Trimap 真实样本距离未知点较远时(如未
知区域较大、或者前景存在空洞)计算效果更好.但如果较远处的前景与背景颜色存在较大
重合, 则会产生计算错误, 此时需要采用较小的搜索范围.因此, 所选取的近邻像素的远近也
是一个重要的平衡.然而, KNN 采用固定的远距离与近距离相结合的方式, 无法根据空间上
的颜色变化情况进行自适应调整.
基于上述分析, 本文在第 2 节新引入了 KNN 搜索上的 3 种范围(如图 2 左栏所示), 并
依据全局重叠与局部重叠程度, 相应采用其中 2 种层次相结合的方式, 以期对大部分绝对像
素进行划分, 并进一步缩小未知区域的宽度.同时, 由于无法保证初始 Trimap 与混合点之间
的关系, 该层次采用与初始 Trimap 未知区域大小无关的方式, 这与 Large Kernel 算法不同.
如前文所述, 混合像素计算过程中的 Matting Laplacian 类方法中的核宽度、或者搜索
空间的大小, 需要与真实未知区域的宽度相一致.若搜索范围过小则无法充分涵知区域的信
剩余24页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3548
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- kernel-ml-6.8.8-1.el7.elrepo.x86-64.rpm
- Labview基本框架之状态机
- HM2309B-VB一款P-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- Git安全实践:保护你的代码仓库个人学习笔记.md
- 自动驾驶定位系列教程九:后端优化.pdf
- 三国志5威力加强版-windows
- HM2309A-VB一款P-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- HM2306-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- Git进阶技巧:提升团队协作效率个人学习笔记.md
- 自动驾驶定位系列教程八:建图系统结构优化.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功