下载  >  开发技术  >  其它  > 论文研究-基于语义分类的外观专利图像快速检索系统.pdf

论文研究-基于语义分类的外观专利图像快速检索系统.pdf 评分

针对大规模专利图像特征库的特点,使用边缘轮廓距离与分块特征相结合的方法提取低层视觉特征,结合基于K均值聚类的分类索引方法,兼顾语义相似和视觉特征相似,对专利图像库数据构建索引结构,实现了先分类后检索的功能。实验结果表明,方法不仅提高了检索速度,而且提高了检索的语义敏感度。
2042012,48(16) Computer Engineering and Applications计算机工程与应用 具外观专利分类示意图。该分类呈树状结构,“家个互异的聚类中心。 具”为分类树的根结点,“床”、“座椅”、“衣架”、“桌 步骤2对图像库屮的图像分别计算与每个聚类 子”和“其他”为第二层结点,剩下的为第三层结点。中心的欧氏距离,取其中的最小值所对应的聚类中 聚类是在分类树的L个叶结点(“床”、“沙发椅”、办心标签作为该图像的标签。 公椅”、“折叠椅”、“圈椅”、“普通椅”、“衣架”、“茶 步骤3对于每个聚类,计算距离和,D1为该聚 儿”、“餐桌”和“其他”)类别中进行。分类检索则是类中所有图像与重心的距离总和。 在第二层结点类别中进行。 步骤4计算所有图像的距离总和D K 家具 D D (11) 步骤5根据矢量空间重心计算公式,计算该聚 床 座椅衣架桌子其他 类几何重心: 沙‖办折 (12) 发公昏 圈 荼‖餐 椅 几‖桌 其中,F为第j个图像的特征,是由F和F合成的 图1家具外观专利分类树 向量;n2为聚类i中的图像数目。 本文提出的聚类索引算法,将采集的家具外观 步骤6计算类中每幅图像与几何重心的欧氏 样木按语义层次聚类,如果一个聚类中包含多个语距离。 义类的样本,这个聚类的样本作进一步的聚类划分 步骤7重新计算每个聚类中图像的距离总和以 直到每个聚类的全部样本都属于同一个语义类为及图像数据库中所有图像的距离总和D,计算方法 止,每个聚类建立一条索引。 同上(步骤3和步骤4) 如果图像库中语义概念是分层次的,生成的聚 步骤8判断几何重心是否稳定,若稳定,则将几 中类索引也是分层次的。例如家具外观图像库具有何重心作为新的聚类重心,返回步骤2:否则执行步 桌子”和“衣架”等语义概念,“桌子”又分为¨茶几”、骤9 餐桌”等概念。那么,聚类过程中,一个聚类C1中的 步骤9对于每个聚类重心及类中图像建立索引 样本都属于桌子类,生成一条索引,由于桌子不是最链表。 底层概念,其中样本还可以分为茶几和餐具,所以还 要继续划分为聚类C1和Cl2。而聚类C1和Cl2中4图像检索及复杂度分析 分别只包含茶几和衣架类样本,这两个语义概念是 通过预处理,采用K均值聚类算法将特征向量库 最底层概念,生成底层索引。 分为L×K个聚类,L为分类树的叶结点个数,K为各 32K均值聚类算法 叶结点类别中聚类的数目,并获得每个聚类中心,查 κ均值聚类算法的基本思想是把像点值映射到询时,首先计算目标图像与各个聚类中心的距离,距 各种特性空间(形状、颜色、纹理等)中,若在某特性离最小的聚类中心所在的类别,即判定为目标所属 空间中一些像点相似,就把它们聚在一起,形成同构类别,再在该类别中做顺序遍历。由于聚类是在叶 点簇( cluster) 结点类别屮进行,而分类查询是在第二层结点类别 对图像库中按语义分类后的图像进行聚类处理中进行,这样,同一类日标的不同视角因为外观形状 库中所有图像根据与聚类中心距离的远近程度,上的差异会聚类到不同的聚类中心,但这些聚类中 形成K个互不相交的聚类,较为相似的图像都聚在同心的集合仍属于同一类的特征。 类中。因此,示例图像只需与各聚类中心相比较 假设库中所有特征向量有n个,计算目标特征向 再在最相近的第二层结点类别中进行匹配,即可得量和库中特征向量的时间耗费为T。根据国际外观 到较好的查询结果。相比于顺序查找的匹配次数,设计分类表,某个大类的产品可分为m个小类,这些 该算法的匹配次数明显减少。相应地,查询时间也小类即为查询类别,在聚类计算时,对每个不同的小 会因此减少,查询效率则大为增加。 类,再细分为数目不等的聚类类别,就是聚类类别 算法实现的具体步骤 的总数目。如果不用索引结构,直接对库中所有特 步骤1给定初始条件Z,22…,zk,分别表示K征向量进行遍历,所耗费的时间为nT;如果使用了 李旭明,戴青云,曹江中,等:基于语义分类的外观专利图像快速检索系统 2012,48(16)205 索引结构,假设已分了L个聚类类别(因为聚类可以 为了检验聚类算法对基于内容的外观专利图像 离线完成,这里没有考虑聚类所耗费的时间),那么检索是否有效,进行基于聚类索引结构的快速分类检 寻找距离最小的聚类中心耗费的时间为(×K)7,索实验。系统特征库数据存储丁 SQL Server200 为了简化分析,在时间的理论分析时,可以认为每个中,检索程序运行在本地机上,索引文件及专利图像 查询类别中的特征向量数基本相等那么,对查询类也存于本地磁盘。 别中特征向量进行遍历的时间耗费为n7m,总共时 木实验样本来自国家专利图像库,选用家具行 间耗费为(LxK)T+n7m,在实际测试和应用中 业的外观专利图像,共计3504幅5个大类,分别是 般情况下,n/m远远大于L×K,那么使用索引结(括号内为图像幅数)座椅(98)桌子(72)、衣架 构查询一次耗费的时间近似为nTm (585)、床(593)、其他家具(602)。其中座椅又分为 沙发椅、办公椅、折叠椅、圈椅和普通椅5小类,桌子 5实验结果与讨论 分为茶儿、餐桌2小类。而地毯、床垫只能从纹理进 行区分的家具及组合家具则归为其他家具一类。分 本文所有实验的硬件平台均为 Intel core2 类框图如图1所示。 DuO CPU T5750@2.00GHz,2.00GB内存,软件开 图库中各类别包含有不等数量的主视图、左视 发环境为VC++6.0。 图2为检索系统的用户界面,文本视窗中左上角了各类别间的特征,也因此增加了分类的复杂度 显示进行检索的示例图像,示例图像右边显示当前 实验1通过对比实验,确定聚类中心数目(表1)。 页10个检索结果的相似度及图像在本地的存储路 径。示例图像下方显示这10个检索结果对应的图像 表1不同数量聚类中心的分类识别准确率比较(%) 语义类别 聚类中心数量 (图像位置按相似度人小从左到右,从上到下依次 n8n=10n=12n=14n=16 排列)。 座椅99.4099.6099.60996099.60 桌子 96.2097.0096.8096.4096.00 衣架98.209860992099,409940 床 86.4091.6 54095.80 6.20 其他 90.4090.6090.40918092.00 工TTIT 鉴于单个专利拥有多视图,选定的聚类中心数 目大小可以考虑与图像视角数相匹配。为更好地为 后续实验确定合理的聚类数目,本文首先选取训练 样本,“沙发椅”、办公椅”、“折叠椅”、“圈椅”、“普通 椅”、“茶几”、“餐桌”各取100个,衣架、床、其他家具各 图2系统界面及检索结果 取100个,共1000个,即每100个为一个类,分成10 图像检索系统性能评价的准则主要是查准率和类,对这10个类分别取不同的数目n(m=8、10、12、14、 查全率。设查询得到的相关图像数目为a,查询得到16)进行聚类(得到了10×n个聚类中心),做对比实验。 的不相关图像数目为b,图像库中和查询图像相关但 表1中,随着聚类中心数日的增加,大多数类别 没有检索到的图像数日为c,这样查准率和查全率可的分类准确率在提升。某些类别的聚类数目增加到 表示为: 一定数量后,分类准确率达到最高。而当聚类数目 Precision (13)过多时聚类中心可能出现重叠,导致分类准确率略 a+b 微下降(如桌子) Recall=a (14) a+C 表2中,聚类中心数目越多,分类的平均准确率 查准率和査全率越高,表明系统的性能越好。越高,聚类时间也越长。综合以上因素考虑,对于 查准率和查全率在一定程度上能评价检索系统的性100个样本的类别,选择“14”作为叶子结点类别的聚 能。实际上,由于人对图像内容的感知具有主观性,类中心数目,叮以保证较高的分类准确率,聚类时间 很难定义一个客观的评价标准来评价检索系统的性也合适。 能。实验中,本算法的平均杳全率为0.67,杳准率为 实验2在3504个样本库中进行分类测试及时 0.63 间测试(表3、表4)。 2062012,48(16) Computer Engineering and Applications计算机工程与应用 表2不同数量聚类中心的平均准确率及聚类时间比较 样可以看出,在大规模查找比对中,系统的检索速度 聚类中心数目n8 14 是令人满意的。 平均准确率(%)94.20954896.28966096.64 聚类时间/s0.470.630780.941.10 6结束语 表3分类测试结果 根据专利图像具有多视图的特点,使用K均值聚 所属类别 被判为类别 座椅桌子衣架床其他识别率(%) 类对专利特征库建立分类索引,从而对专利图像库 座椅 进行快速查询与检索。根据聚类结果,可以得到多 桌子 12482 027 衣架 0134 个索引文件。在进行检索时,首先在索引文件中查 994 找与该示例图像最为相近的类,进而再在类的索引 床 7479 文件中进行更深层次的查询。这种分层的索引方式 其他 411459 918 虽然以牺牲一定的准确率为代价,但大大减少了查 表4检索速度实验结果 ms 询时图像匹配的次数,从而使得查询时间缩短,查询 样本所属类别 平均查找时问 效率得以显著提高。 顺序查找聚类查找 实验表明对专利图像实现先分类后检索的可行 座椅 345 性,如何将专利图像按更多更细的语义分类标准进 桌子 339 衣架 322 行分类检索,进一步提高语义分类的精确度,是今后 床 335 需要研究的问题。 其他 322 19 除去训练的1000图,剩余的图像(2504幅)作多考文献: 为测试库。取固定数值14”作为叶子结点类别的聚[ Smeulders a w m, Worring m, Santini s, et al. content- 类中心数目 based image retrieval at the end of the early years[J] 表3中,小类别分得最细的“座椅”识别率最高。 IEEE Trans on Pattern Analysis and Machine Intelligence, 其次是“衣架”,因为衣架的外形比较特殊,无论从专 2000,22(12):1349-1380 利的哪个视图进行识别,都具有较强的区分性。“其 [2 Cao Jiangzhong, Dai Qingyun, Cao Lu, et al. An effectiv shape-based retrieval algorithm for design patent images[J 他”类别的识别率虽然也达到918%,但在各大类中 Journal of computational Information Systems, 2010. 6 仍处于最低,从计算得到的距离进行分析,原因在于 (3):773-78 这一类别中的家具区分性不大,导致识别错误。 [3]方骥,戴青云基于图像内容的外观专利自动检索系统[ 取固定的属于5个不同类别的5个查询向量,分 计算机工程与应用,2004,40(34):209-211 别在顺序查找、聚类查找这2种情况下多次查询,取[4] Yuji I, Daisuke f, Takeshi H. Development of a fully au 平均检索时间(不计聚类的开销)来比较查询速度 tomatic scheme for detection of masses in whole breast (在前文的分析中已经提到,分类处理离线未完成, ultrasound images[J]. Medical Physics, 2007, 34(11) 不影响系统在线运行的査询速度)。实验结果如表4 4378-4388 所 [5 Kanth KV R, Agrawal D, Singh A Dimensionality reduc 从表4可知,不进行聚类时,即全库搜索,此时5 tion for similarity searching in dynamic databases[C]//Pro ceedings of the ACM SIGMOD International Conference 个样本查询的平均时间最长。当使用分类索引后, of Management of Data, Seattle, Washington, 1998: 166-176 从时间结果推测5个样木查询时间,“衣架”、床”以(6孙吉责,刘杰,赵连宇聚类算法研究山软件学报,200190 及“其他”这三个类别在库屮数目较为接近,符合实 (1):48-61 际情况;使用索引结构,系统的检索速度眀显增加,[陆建江,张亚非,徐伟光,等.智能检索技术M北京:科学 排除系统开销因素,速度增加大致呈线性关系。同 出版社,2009

...展开详情
所需积分/C币:5 上传时间:2019-09-08 资源大小:544KB
举报 举报 收藏 收藏
分享 分享
论文研究-基于k-means聚类算法的研究 .pdf

基于k-means聚类算法的研究,黄韬,刘胜辉,本文首先分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机��

立即下载
论文研究-基于JDBC的数据库访问研究 .pdf

基于JDBC的数据库访问研究,于宁宁,赵宗平,JDBC兼具有强大的数据处理功能,它可以处理各种不同类型的数据源,同时具有极其简单、易用的编程接口,因而得到了广泛的应用。为��

立即下载
论文研究-基于CUDA的SAR成像算法研究 .pdf

基于CUDA的SAR成像算法研究,何丰,任义,雷达技术的不断发展使合成孔径雷达(SAR) 成像处理呈现出算法复杂化、数据海量化、运算密集化等趋势,在基于中央处理器(CPU)的平台上�

立即下载
论文研究-基于QoS的上行调度算法研究 .pdf

基于QoS的上行调度算法研究,朱歆垚,别红霞,随着无线通信与生产需求的发展,越来越多的任务需要设备在没有人干预的情况下进行相互通信来完成,我们称之为 M2M通信。LTE网络支��

立即下载
论文研究-基于Asterisk的SS7集群研究 .pdf

基于Asterisk的SS7集群研究,王晓栋,詹舒波,Asterisk作为一个开源的VoIp PBX 系统,是一个在Linux环境下的纯软件实施方案,完成了各种IP PBX 的功能。它免费,开源,可二次开发的特性�

立即下载
论文研究-基于3-matic的有限元前处理方法研究 .pdf

基于3-matic的有限元前处理方法研究,王伟,杨亚男,针对数字化CAD模型的STL格式文件无法直接生成三维实体模型进行有限元分析的问题,本文提出了基于3-matic的有限元前处理技术,即将扫��

立即下载
论文研究-基于EPON的动态带宽分配算法研究 .pdf

基于EPON的动态带宽分配算法研究,陈存康,,本论文展示了一种基于以太网的下一代无源光网络(EPON)。并且提出了一种称为固定周期流水线轮询(CPP)的动态带宽分配算法(DBA)��

立即下载
论文研究-基于WoT的接口协议 .pdf

基于WoT的接口协议,周密,孙礼,由于物联网设备种类繁多,网络架构区别较大,整个物联网系统相对封闭等问题,物联网的进一步发展受到了很大的阻碍。而Web of Things��

立即下载
论文研究-基于条件随机场的中文分词研究 .pdf

基于条件随机场的中文分词研究,张成志,王洪波,本文对基于条件随机场的中文分词理论和技术做了研究,并基于开源的crf 实现了一个中文分词器。CRF模型将分词转化为标记问题,充分�

立即下载
论文研究-基于VRML的三维仿真建模算法研究 .pdf

基于VRML的三维仿真建模算法研究,王昊鹏,刘永玉,随着Internet的发展,以VRML为代表的基于WWW的虚拟现实建模技术正在日益受到广泛的重视。基于VRML、遥感技术构建虚拟三维环境可以对农��

立即下载
论文研究-基于RSSI的ZigBee室内定位算法研究 .pdf

基于RSSI的ZigBee室内定位算法研究,高永清,商丹,通过分析对数距离路径损耗模型、待定位节点定位过程中产生的误差,提出了首先采用基于RSSI和均值滤波与加权质心混合定位算法进行��

立即下载
论文研究-基于深度学习的人脸识别算法研究 .pdf

基于深度学习的人脸识别算法研究,赵学斌,张雷,传统的人脸识别算法主要是基于图像的浅层特征提取,比如LBP、SIFT、HOG等图像特征描述算子,然后进行多种浅层特征融合,PCA降维之后��

立即下载
论文研究-基于蚁群算法的LEACH协议研究 .pdf

基于蚁群算法的LEACH协议研究,王静,胡彧,针对LEACH协议中簇头节点与汇聚节点之间采用单跳通信造成能量损耗过快的问题,提出了一种基于蚁群算法的LEACH协议,该算法利用蚁群��

立即下载
论文研究-基于Logistic混沌序列通信系统仿真研究 .pdf

基于Logistic混沌序列通信系统仿真研究,宗恒山,李艳萍,针对扩频序列的好坏直接关系到扩频通信系统性能的好坏,本文提出了一种基于Logistic混沌序列的直扩通信系统模型。经过系统仿真实验�

立即下载
论文研究-基于大数据的预测处理模式研究 .pdf

基于大数据的预测处理模式研究,王金海,俎云霄,随着大数据时代的来临,人类社会已经进入一个崭新的数字时代。大数据的时代里 ,数据的产生和收集是基础,数据挖掘是关键,在日��

立即下载
论文研究-基于编码感知路由的COPE方案研究 .pdf

基于编码感知路由的COPE方案研究,杨政伟,寿国础,COPE是首个实用的无线网络编码方案,通过机会侦听和机会编码可以提升网络的传输性能,然而COPE方案被动地等待编码机会,存在着很大�

立即下载
论文研究-基于Leader-follower的处置突发事件队形变换方法研究 .pdf

基于Leader-follower的处置突发事件队形变换方法研究,熊景,巩青歌,针对武警部队处置突发事件时的队形变换问题,提出了一种基于跟随领航者(Leader–follower)法的队形变换方法,该方法引入几何划分,对��

立即下载
论文研究-基于ARM-Linux的Qt/Embedded的研究与实现 .pdf

基于ARM-Linux的Qt/Embedded的研究与实现,郑阳吉,,本文研究了Qt的特点、发展历程等,在此基础上以一个简单的实例阐述了Qt的开发过程。研究了Qt在嵌入式领域的工具Qt/Embedded,包括硬件�

立即下载
论文研究-基于训练序列的OFDM系统同步算法研究 .pdf

基于训练序列的OFDM系统同步算法研究,王舒申,刁鸣,本论文在正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统的背景下,对基于训练序列的同步算法进行深入研究,并验证各个算�

立即下载
论文研究-基于LEGIC技术的读写设备的开发研究 .pdf

基于LEGIC技术的读写设备的开发研究,李哈达,,论文在详细分析LEGIC智能卡技术的基础上,研究读写器所采用的SM05-S安全模块的特性及其与单片机的硬件接口,程序设计等;分析了卡与�

立即下载