论文研究-基于RGB-D融合特征的图像分类.pdf

所需积分/C币:17 2019-09-10 10:04:04 818KB .PDF
130
收藏 收藏
举报

当前经典的图像分类算法大多是基于RGB图像或灰度图像,并没有很好地利用物体或场景的深度信息,针对这个问题,提出了一种基于RGB-D融合特征的图像分类方法。首先,分别提取RGB图像dense SIFT局部特征与深度图Gist全局特征,然后将得到的两种图像特征进行特征融合;其次,使用改进K-means算法对融合特征建立视觉词典,克服了传统K-means算法过度依赖初始点选择的问题,并在图像表示阶段引入LLC稀疏编码对融合特征与其对应的视觉词典进行稀疏编码;最后,利用线性SVM进行图像分类。实验结果表明,所提出的算法能有效地提高图像分类的精度。
() 计算机工程与应用 直方图)从图可以看出, 算法能提取到束,因此局部比稀疏更重要。根据这个结论,本文选用 大量的特征点,可以将整个图像信息都包括在内。 编码模型通过建立视觉字典和特征编码来进 行稀疏编码。 建立视觉字典 视觉字典的建立一般是使用聚类算法对图像特征 进行聚类处理。在已有的聚类算法中,应用最为广泛 的当属是 算法,如文献,都表明了利用 ()图像 特征 算法可以简单且高效地建立视觉字典。但 图 图像及其 特征 算法自身也存在着一定局限性:算法在对初始 深度图像的全局特征提取 聚类中心的选择上是随机的,这就导致聚类结果受初始 全局特征是一神生物启发特征,该特征通过中心点的影响较太,如果初始中心点选择个当算法将 模拟人的视觉提取图像中简单的上下文信息,可没描述陷入局部最优解进而无法得到正确的图像分类结果 图像中物体或场景的个方向特性即湘糙度、崎岖度、所以针对这点不足,本文选用 改进算法建立 自然度、扩展度以及开敚度。因此该特征能较好地描述视觉字典,采取一种概率选取的方法代替随机选择初始 图像整个空间特征,并∏该特征提取算法较为简单,所聚类中心。具体实施步骤如下。 以本文使用算法对深度图像进行全局特征提取。 设输入数据点集合X和聚类数目k,那么有: 全局特征使用个方向和个尺度的滤 〕在输入的数据点集合X中随机选择一个点作 波器对图片进行瀌波,将整个图片划分为4×4的网格,为第一个初始聚类中心S。 在每个网格屮计算每个通道的平均能量,最终获得 )对数据点集合中每一个点x,x∈X,计算它与 8×4×4×4=512维特征向量。其中滤波器是由51的欧式距离d(x)。 函数构造的,其表达式为 )选择下一初始聚类中心S,x'∈X。选择的原 d(x)2 exp2+y)×cos2y6x+y)()则是计算基于 2的概率,选择叮能性最大的点 其中,xy代表着图像中像素点的坐标;a,o,表示沿作为初始聚类中心。 xy方向上高斯分布的方差;表示滤波频率;参数g 重复步骤()和(),直到k个初始聚类中心被 是该余弦谐波因子的相位差。通过算法提取的深选出来。 度图像全局特征如图所示。 利用选出来的初始聚类中心来运行 算 法,最终生成k个聚类中心。 ()定义每个聚类屮心为视觉单词,聚类数目k即 为视觉单词库的大小。 特征编码 特征编码准则如下: ()深度图像 )全局特征 图深度图像及其全局特征 min ∑|h BC+川d 特征融合 s.t. lc=1.v 提取 和特征之后,分別对图像的式中,h;为输入的融合特征向量,B是通过改进 特征和特征进行归一化,使所有的特征 算法建立的视觉字典,c为待优化的特征编码系 拥有相似的尺度。然后再将归化后的特征采用串行数,为的恋因子,1c=1保证了的平移不 融合方式进行特征融合最终得到幅图像的触合特征。变性,d定义为 稀疏编码 dist(h B 稀疏编码是通过对图像特征进行聚类来建立视觉 d =exp 字典,然后对所有图像特征根据视觉字典进行特征编其中 码。在特征编码的过程中,不同的编码方式以及不同的 dist(h, B)=[dist(h, b,),dist(hi, b2), . dist(hi, b, 视觉字典都会导致不同的结果。根据文献中的结N代表字典中元索的个数,dith,b)表示h;与b之 论,满足特征的局部性位置约東必然可以满足特征的稀间的欧式距离,通过使用σ为调整局部位置的约東权重 疏性,而满足特征的稀疏性不一定满足局部性位置约的卜降速度。 向程谕,王冬丽,周彦,等:基于 融合特征的图像分类 式()中,编码模型在ε的求解过程中,待编码的特 征值倾间选择视觉字典中距窝较近的基,形成一个局部 巫标系统。因此,根据这个规律,提出一种简单 的近似特征编码方式来加速编码过程.即不求解 式(),对于任意一个带编码的特征值h,使川k邻近 搜索选取视觉字典B中距离其最近的K个基,通过求 解规模更小的线性系统来获得编码。其表达八如下 in h2-Bc‖ s.t.Ic=1, i () 根据式()解析解,近似特征编码能够将计算 复杂度丛N)降为a(N+K2),其中K<<N,但最后的 性能与特征编码相差不大。山于近似特征编 码方式既可以保留局部特征,乂可以保证编码稀疏性的 数据集 要求所以本文的特征编码采用近似特征编码。 实验结果与分析 为了验诽本文算法的有效性,实验采用了两个数据 集 数据集和 数据集, 来验证本文算法的分类性能,并根据结果进一步分析了 不同的特征与不同的视觉字典的构建对分类性能的 影响 实验数据集 数据集。 数据集 由个类别种不同视角、不同光照条件下的常见日 数据集 用品的 图像组成,这些图像全部通过摄 图实验数据集中的部分图像 像机获取,共 幅 表 数据集上:的图像分类准确率比较 数据集。 数据集 准确率 是由华盛顿大学提供的一个多视角的场景图片数据集, 该数据集出个分类场景组成,共张图片,图像大 小均为 实验效据集屮的部分图像如图所示 实验结果 数据集 本文方法 在 数据集中,因为图片数据过于L 大,所以本文选择 幅深度图像与图像用于 分类准确率;在文献中利用深度图与彩色 实验,并将图像尺刂调整为64×64大小。对于特征提图进行三维重建获取点云模型,然后在点云模型的基础 取,实验中图像提取的 特征采样间隔上提取特祉,从而进行分类,在本次实验中获得了 设置为像素,图像块为4×4;深度图像全局特征 准确率;等在文献屮使用空间金字塔模型 提取按本文节进行设置。建立视觉字典时,字典无监督地从原始 图像中学丬分层的特征,并利 大小设为 分类时采用 工具包的用这些特征实现最后的分类,在本次实验中获得了 工具箱,选取图片用于训练,图片 准确率;而本文提出的算法获得了 的准确 用丁测试 率,与之前最好的结果相比提高了约,由此可以看 分类准确率与其他方法的对比如表所示。 出本文算法具有良好的分类性能 等在文献中将三种特征集成,分别用线性 数据集 和 对其进行 在 数据集中,将全部图像川于实验, 训练与分类,在此次实验中分别获得 与并将图像尺寸调整为 对于特征提取,本次实 () 计算机工程与应用 )传统 算法建立视觉字典的分类结果 ()改进 算法建立视觉字典的分类结果 图N不同字典构造方法的分类性能比较 验将图像提取的 特征采样间隔设置为码对图像內的特征基与其对应的视觉词典进行稀疏编 像素,图像块为16×16κ深度图像全局特征提取码。所提算法口在不同类型两种标准数据集上进行了 按照本文节进行设置,建立视觉字典时,字典大小实殓,实验结果表明本文方法能有效提高图像分类准确 设为 与上述实验设置一致。在此次实验性,并且具有较好的稳定性。但本文中并没有考虑两种 中,从两方面验证本文算法:第一,考察融合特图像的空间信息,如果存在噪声与遮挡等情况,图像的 征、特征和特征的分类效果;第二,考察视觉分类准确率将会受到影响,所以未来需要进一步对算法 字典的构建对图像分类的影响。 进行改进,将空间信息引入 图像分类中。 不同特征的分类准确宰由表可知,仅仅使用深度 图像全局特征进行图像分类时准确率较低,为参考文献: 单独使用图像 局部特征可以获 王红霞,杨克倫,张敏,等基亍视觉词汇形状描述的图像 得较好的分类准确率,为但基于单一全局特征 表示方法计算机工程与应用,,() 或局部特征的算法在准确率上都不如图像 彭大强,栗芳哈希编码结合空冋金字塔的图像分类中 特征联合深度图像特征,准确率为 由 国图象图形学报 此可以看出,结合深度信息进行图像分类时可以有效地 提高分类准确率。 表不同特征的分类准确率 特征 准确率 深度信息使用情况 图给出了两种不同字典构造方法的分类混淆矩 阵。从图屮可以看出,改进 算法的分类效果要 归显优于传统算法,尤其在几个易混淆的场景中,如 与 与 改进算法 王欢,汪同庆,今阳利用深度信息的三维点云配准 都体现了良好的分类准确性,相较于传统方法,该方法 方法研究计算机工程与应用, 能够构建更为稳定且更有代表性的视觉词典库 结语 本文提出了一种基于 融合特征与稀疏编吗 的图像分类方法,首先将图像局部特征 特征与深度图像全局特征进行串行融合;然后 使用改进 算法对提取的融合特征进行聚类建 立视觉字典;最后在图像表示阶段引入近似特征编 (卜转页)

...展开详情
试读 5P 论文研究-基于RGB-D融合特征的图像分类.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于RGB-D融合特征的图像分类.pdf 17积分/C币 立即下载
1/5
论文研究-基于RGB-D融合特征的图像分类.pdf第1页

试读结束, 可继续读1页

17积分/C币 立即下载