论文研究-基于语义分类的外观专利图像快速检索系统.pdf

所需积分/C币:9 2019-09-08 15:51:01 544KB .PDF
3
收藏 收藏
举报

针对大规模专利图像特征库的特点,使用边缘轮廓距离与分块特征相结合的方法提取低层视觉特征,结合基于K均值聚类的分类索引方法,兼顾语义相似和视觉特征相似,对专利图像库数据构建索引结构,实现了先分类后检索的功能。实验结果表明,方法不仅提高了检索速度,而且提高了检索的语义敏感度。
2042012,48(16) Computer Engineering and Applications计算机工程与应用 具外观专利分类示意图。该分类呈树状结构,“家个互异的聚类中心。 具”为分类树的根结点,“床”、“座椅”、“衣架”、“桌 步骤2对图像库屮的图像分别计算与每个聚类 子”和“其他”为第二层结点,剩下的为第三层结点。中心的欧氏距离,取其中的最小值所对应的聚类中 聚类是在分类树的L个叶结点(“床”、“沙发椅”、办心标签作为该图像的标签。 公椅”、“折叠椅”、“圈椅”、“普通椅”、“衣架”、“茶 步骤3对于每个聚类,计算距离和,D1为该聚 儿”、“餐桌”和“其他”)类别中进行。分类检索则是类中所有图像与重心的距离总和。 在第二层结点类别中进行。 步骤4计算所有图像的距离总和D K 家具 D D (11) 步骤5根据矢量空间重心计算公式,计算该聚 床 座椅衣架桌子其他 类几何重心: 沙‖办折 (12) 发公昏 圈 荼‖餐 椅 几‖桌 其中,F为第j个图像的特征,是由F和F合成的 图1家具外观专利分类树 向量;n2为聚类i中的图像数目。 本文提出的聚类索引算法,将采集的家具外观 步骤6计算类中每幅图像与几何重心的欧氏 样木按语义层次聚类,如果一个聚类中包含多个语距离。 义类的样本,这个聚类的样本作进一步的聚类划分 步骤7重新计算每个聚类中图像的距离总和以 直到每个聚类的全部样本都属于同一个语义类为及图像数据库中所有图像的距离总和D,计算方法 止,每个聚类建立一条索引。 同上(步骤3和步骤4) 如果图像库中语义概念是分层次的,生成的聚 步骤8判断几何重心是否稳定,若稳定,则将几 中类索引也是分层次的。例如家具外观图像库具有何重心作为新的聚类重心,返回步骤2:否则执行步 桌子”和“衣架”等语义概念,“桌子”又分为¨茶几”、骤9 餐桌”等概念。那么,聚类过程中,一个聚类C1中的 步骤9对于每个聚类重心及类中图像建立索引 样本都属于桌子类,生成一条索引,由于桌子不是最链表。 底层概念,其中样本还可以分为茶几和餐具,所以还 要继续划分为聚类C1和Cl2。而聚类C1和Cl2中4图像检索及复杂度分析 分别只包含茶几和衣架类样本,这两个语义概念是 通过预处理,采用K均值聚类算法将特征向量库 最底层概念,生成底层索引。 分为L×K个聚类,L为分类树的叶结点个数,K为各 32K均值聚类算法 叶结点类别中聚类的数目,并获得每个聚类中心,查 κ均值聚类算法的基本思想是把像点值映射到询时,首先计算目标图像与各个聚类中心的距离,距 各种特性空间(形状、颜色、纹理等)中,若在某特性离最小的聚类中心所在的类别,即判定为目标所属 空间中一些像点相似,就把它们聚在一起,形成同构类别,再在该类别中做顺序遍历。由于聚类是在叶 点簇( cluster) 结点类别屮进行,而分类查询是在第二层结点类别 对图像库中按语义分类后的图像进行聚类处理中进行,这样,同一类日标的不同视角因为外观形状 库中所有图像根据与聚类中心距离的远近程度,上的差异会聚类到不同的聚类中心,但这些聚类中 形成K个互不相交的聚类,较为相似的图像都聚在同心的集合仍属于同一类的特征。 类中。因此,示例图像只需与各聚类中心相比较 假设库中所有特征向量有n个,计算目标特征向 再在最相近的第二层结点类别中进行匹配,即可得量和库中特征向量的时间耗费为T。根据国际外观 到较好的查询结果。相比于顺序查找的匹配次数,设计分类表,某个大类的产品可分为m个小类,这些 该算法的匹配次数明显减少。相应地,查询时间也小类即为查询类别,在聚类计算时,对每个不同的小 会因此减少,查询效率则大为增加。 类,再细分为数目不等的聚类类别,就是聚类类别 算法实现的具体步骤 的总数目。如果不用索引结构,直接对库中所有特 步骤1给定初始条件Z,22…,zk,分别表示K征向量进行遍历,所耗费的时间为nT;如果使用了 李旭明,戴青云,曹江中,等:基于语义分类的外观专利图像快速检索系统 2012,48(16)205 索引结构,假设已分了L个聚类类别(因为聚类可以 为了检验聚类算法对基于内容的外观专利图像 离线完成,这里没有考虑聚类所耗费的时间),那么检索是否有效,进行基于聚类索引结构的快速分类检 寻找距离最小的聚类中心耗费的时间为(×K)7,索实验。系统特征库数据存储丁 SQL Server200 为了简化分析,在时间的理论分析时,可以认为每个中,检索程序运行在本地机上,索引文件及专利图像 查询类别中的特征向量数基本相等那么,对查询类也存于本地磁盘。 别中特征向量进行遍历的时间耗费为n7m,总共时 木实验样本来自国家专利图像库,选用家具行 间耗费为(LxK)T+n7m,在实际测试和应用中 业的外观专利图像,共计3504幅5个大类,分别是 般情况下,n/m远远大于L×K,那么使用索引结(括号内为图像幅数)座椅(98)桌子(72)、衣架 构查询一次耗费的时间近似为nTm (585)、床(593)、其他家具(602)。其中座椅又分为 沙发椅、办公椅、折叠椅、圈椅和普通椅5小类,桌子 5实验结果与讨论 分为茶儿、餐桌2小类。而地毯、床垫只能从纹理进 行区分的家具及组合家具则归为其他家具一类。分 本文所有实验的硬件平台均为 Intel core2 类框图如图1所示。 DuO CPU T5750@2.00GHz,2.00GB内存,软件开 图库中各类别包含有不等数量的主视图、左视 发环境为VC++6.0。 图2为检索系统的用户界面,文本视窗中左上角了各类别间的特征,也因此增加了分类的复杂度 显示进行检索的示例图像,示例图像右边显示当前 实验1通过对比实验,确定聚类中心数目(表1)。 页10个检索结果的相似度及图像在本地的存储路 径。示例图像下方显示这10个检索结果对应的图像 表1不同数量聚类中心的分类识别准确率比较(%) 语义类别 聚类中心数量 (图像位置按相似度人小从左到右,从上到下依次 n8n=10n=12n=14n=16 排列)。 座椅99.4099.6099.60996099.60 桌子 96.2097.0096.8096.4096.00 衣架98.209860992099,409940 床 86.4091.6 54095.80 6.20 其他 90.4090.6090.40918092.00 工TTIT 鉴于单个专利拥有多视图,选定的聚类中心数 目大小可以考虑与图像视角数相匹配。为更好地为 后续实验确定合理的聚类数目,本文首先选取训练 样本,“沙发椅”、办公椅”、“折叠椅”、“圈椅”、“普通 椅”、“茶几”、“餐桌”各取100个,衣架、床、其他家具各 图2系统界面及检索结果 取100个,共1000个,即每100个为一个类,分成10 图像检索系统性能评价的准则主要是查准率和类,对这10个类分别取不同的数目n(m=8、10、12、14、 查全率。设查询得到的相关图像数目为a,查询得到16)进行聚类(得到了10×n个聚类中心),做对比实验。 的不相关图像数目为b,图像库中和查询图像相关但 表1中,随着聚类中心数日的增加,大多数类别 没有检索到的图像数日为c,这样查准率和查全率可的分类准确率在提升。某些类别的聚类数目增加到 表示为: 一定数量后,分类准确率达到最高。而当聚类数目 Precision (13)过多时聚类中心可能出现重叠,导致分类准确率略 a+b 微下降(如桌子) Recall=a (14) a+C 表2中,聚类中心数目越多,分类的平均准确率 查准率和査全率越高,表明系统的性能越好。越高,聚类时间也越长。综合以上因素考虑,对于 查准率和查全率在一定程度上能评价检索系统的性100个样本的类别,选择“14”作为叶子结点类别的聚 能。实际上,由于人对图像内容的感知具有主观性,类中心数目,叮以保证较高的分类准确率,聚类时间 很难定义一个客观的评价标准来评价检索系统的性也合适。 能。实验中,本算法的平均杳全率为0.67,杳准率为 实验2在3504个样本库中进行分类测试及时 0.63 间测试(表3、表4)。 2062012,48(16) Computer Engineering and Applications计算机工程与应用 表2不同数量聚类中心的平均准确率及聚类时间比较 样可以看出,在大规模查找比对中,系统的检索速度 聚类中心数目n8 14 是令人满意的。 平均准确率(%)94.20954896.28966096.64 聚类时间/s0.470.630780.941.10 6结束语 表3分类测试结果 根据专利图像具有多视图的特点,使用K均值聚 所属类别 被判为类别 座椅桌子衣架床其他识别率(%) 类对专利特征库建立分类索引,从而对专利图像库 座椅 进行快速查询与检索。根据聚类结果,可以得到多 桌子 12482 027 衣架 0134 个索引文件。在进行检索时,首先在索引文件中查 994 找与该示例图像最为相近的类,进而再在类的索引 床 7479 文件中进行更深层次的查询。这种分层的索引方式 其他 411459 918 虽然以牺牲一定的准确率为代价,但大大减少了查 表4检索速度实验结果 ms 询时图像匹配的次数,从而使得查询时间缩短,查询 样本所属类别 平均查找时问 效率得以显著提高。 顺序查找聚类查找 实验表明对专利图像实现先分类后检索的可行 座椅 345 性,如何将专利图像按更多更细的语义分类标准进 桌子 339 衣架 322 行分类检索,进一步提高语义分类的精确度,是今后 床 335 需要研究的问题。 其他 322 19 除去训练的1000图,剩余的图像(2504幅)作多考文献: 为测试库。取固定数值14”作为叶子结点类别的聚[ Smeulders a w m, Worring m, Santini s, et al. content- 类中心数目 based image retrieval at the end of the early years[J] 表3中,小类别分得最细的“座椅”识别率最高。 IEEE Trans on Pattern Analysis and Machine Intelligence, 其次是“衣架”,因为衣架的外形比较特殊,无论从专 2000,22(12):1349-1380 利的哪个视图进行识别,都具有较强的区分性。“其 [2 Cao Jiangzhong, Dai Qingyun, Cao Lu, et al. An effectiv shape-based retrieval algorithm for design patent images[J 他”类别的识别率虽然也达到918%,但在各大类中 Journal of computational Information Systems, 2010. 6 仍处于最低,从计算得到的距离进行分析,原因在于 (3):773-78 这一类别中的家具区分性不大,导致识别错误。 [3]方骥,戴青云基于图像内容的外观专利自动检索系统[ 取固定的属于5个不同类别的5个查询向量,分 计算机工程与应用,2004,40(34):209-211 别在顺序查找、聚类查找这2种情况下多次查询,取[4] Yuji I, Daisuke f, Takeshi H. Development of a fully au 平均检索时间(不计聚类的开销)来比较查询速度 tomatic scheme for detection of masses in whole breast (在前文的分析中已经提到,分类处理离线未完成, ultrasound images[J]. Medical Physics, 2007, 34(11) 不影响系统在线运行的査询速度)。实验结果如表4 4378-4388 所 [5 Kanth KV R, Agrawal D, Singh A Dimensionality reduc 从表4可知,不进行聚类时,即全库搜索,此时5 tion for similarity searching in dynamic databases[C]//Pro ceedings of the ACM SIGMOD International Conference 个样本查询的平均时间最长。当使用分类索引后, of Management of Data, Seattle, Washington, 1998: 166-176 从时间结果推测5个样木查询时间,“衣架”、床”以(6孙吉责,刘杰,赵连宇聚类算法研究山软件学报,200190 及“其他”这三个类别在库屮数目较为接近,符合实 (1):48-61 际情况;使用索引结构,系统的检索速度眀显增加,[陆建江,张亚非,徐伟光,等.智能检索技术M北京:科学 排除系统开销因素,速度增加大致呈线性关系。同 出版社,2009

...展开详情
试读 5P 论文研究-基于语义分类的外观专利图像快速检索系统.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
weixin_38744270 如果觉得有用,不妨留言支持一下
2019-09-08
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
    最新推荐
    论文研究-基于语义分类的外观专利图像快速检索系统.pdf 9积分/C币 立即下载
    1/5
    论文研究-基于语义分类的外观专利图像快速检索系统.pdf第1页

    试读结束, 可继续读1页

    9积分/C币 立即下载 >