论文研究-基于词袋模型的地基云图检索方法研究 .pdf

所需积分/C币:10 2019-08-16 10:54:30 647KB .PDF
1
收藏 收藏
举报

基于词袋模型的地基云图检索方法研究,孙靳睿,李清勇,随着地基云观测设备的成熟,针对其收集的海量数字地基云图,提出了一种基于词袋模型的地基云云图检索方法。该方法在对云图进行色
山国武花论文在丝 图 原始图像:灰庋图像:蓝红分量比特征图 归一化蓝红分量比特征图;饱和度亮度比特征图 图给出了两张云图图像在不同特征下的表现样例。列是原始的彩色云图图像,列 是使用传统公式将其进行转化为单通道灰度图像的结果。列列列分别展示了蓝红分 量比特征图、归‘化监红分量比特征图、饱和度亮度比特征图。观察可以看出,注重红监分 量或注重饱和度亮度分量的方法相比传统的转化灰度图方法会展示出更多的云图细节,在结 果的呈现上具有一定的优势。 图像检索相关技术 )图像特征描述子 的中文命名是“多媒体内容描述接口”,是国际标准化组织( )在年提出并承认的国际化标准。在这个标准中的部分内容就是提出了视觉 图像描述了。人们提出了很多基于这些图像描述了的图像检索方法,最简单的方法就是计算 两个描述子之间的距离来度量两张图片的相似性。在标准中对于图像的描述子包含颜色特征 描述子和形状特征描述子等。其中颜色特征描述子主要有:颜色空间描述符 ,主颜色描述符 可伸缩颜色措述符 ,颜色布局描述符 等。纹理特 征描述子主要有:同质纹理描述符 ,边缘百方图描述 符 颜色空间描述符:颜色空闩描述符描述了 颜色描述符的颜色空闩,包括 ,以及各种颜色系统与的线性变换矩阵 主颜色描述符 主颜色描述符最适用于衣示局部(对象或图像区域)特征,几种 颜色就足以表达我们感兴趣的区域的信息。 可伸缩颜色描述符:可伸缩颜色描述符定义了空间的颜色直方图,然后用 变化编码。根据的数目和表示的精度,它的二进制表达在的数量和表 达精度上都是可伸缩的。这个措述符主要用于图像与图像的匹配和基于颜色特征的检索,检 索的精度随着描述中使用的比特数目的增加而增加。 颜色布局描述符ε颜色布局描述符描述了整幅图像或者图像的部分区域的颜色空 间分布状况 同质纹理描述符:同质纹理描述符在纹理只有一致性的区域统计纹理的空间频 率,它作为一个重要的视觉特征,通过频域汁算和能量差来提供对纹理的量化措述。同质纹 山国武花论文在丝 理措述了采用了个尺度和个方向的个滤波器对纹理图像进行多分辨率分解 将频域内滤波器组输出的能量均值和标准差作为纹理特征。 边缘直方图描述符:边缘直方图描述符描述了边缘的空间分布信息。首先将图像 划分成个互不重叠的矩形区域,对每个图像区域分别按水平,垂直,° °四个方 向和一个无方向性边缘五类信息进行统计。 :的中文名是局部二值模板,是针对图像的一种纹理特征 方法。这个方法的基本原理基于灰度图像,找一定半径的圆形邻域,在邻域上均匀选择若干 个点,与中心点的灰度值做差,在经过归一、旋转不变等处理后得到描述子。该方法 的优点在于计算简单快捷,原理易懂,对于图片的旋转不敏感,只有灰度不变性。已被广泛 应用」人脸识别、图像匹配、图像分析、运动目标的跟踪与检测等多邻域。 )基于内容的图像检索原理 图像内容分析 在线检索 查询图像 和管理子系统1子系统 用户 图像库 内容分析和特征挂取 颜纹形|其 色理状 特特特特 (特征库 征征征征 内容分析模块一 征比较>图接<检索结果 界面 呈现 图 检索系统图 基于内容的图像检索 的概念于年由 提 出1。图展示的是一种为用户提供的以图搜图服务的系统。系统中存有一定数量的图片, 预先计算、保存每张图片的特征,并建立索引。当用户输入一张査询图像时,系统抽取该图 像的特征,使用已经建立好的索引文件,快速査找只有相同或相似内容的其他图片,作为结 果返回给用户。特征抽取和特征比较是该方法的两个主要内容。 特征抽取是指将彩色图像转换为个高维特征向量的过程。通常情況下会选择个或多 个图像特征描述子,使用对应的方法将图像进行处理,并将处理后得到的多个向量合并保存。 针对不同的图像特征描述子,有相对应的效果较好的特征比较方法,包括欧氏距离,马氏距 离,直方图的交等。 虽然基于内容的图像检索已经取得了很多成果,但是仍存在不足和很多的研究难点, 其中包括但不限于语义鸿沟、高维索引、效果评价等问题。语义鸿沟是指图像在现实世界 所展现的内容和现实中的物体所存在的一和逻辑关系,想要直接越过它以现在的计算机技术 还不太现实,但是通过很多的方法可以减少或者缩短这条鸿沟。高维索引是指在图像数据通 常会被表小为很高维度的向量特征,在图像库日益变大的情况下,如何降低计算复杂度就是 山国武花论文在丝 个很难的问题。图像检索的另个问题是如何来评价最终的切究成果。 )基于词袋模型的图像检索原理 模型也称为词袋模型,起源于基于语义的文本检索算法,是一种有效的基于语 义特征提取与描述的物体识別算法。该模型认为一幅图像由若干个视觉单词 组成。用视觉单词组成的视觉单词直方图表述一幅图片的特征,可以有效地实现物体的识别 分类 局部特征描述子计算 量化 点检测 描述子 图基于词袋模型的图像检索原理 基于该模型的图像检索系统的基原理如图所示,对于图像库中的毎一幅图像,第一 步,使用特定方法选取图像中的特征点和每个特征点对应的邻域大小。比如 依次枚 举尺度的大小,在一系列的尺度中用高斯差分运算找到极值点作为特征点。第二步,对每个 特征点根据其尺度大小在局部图像中抽取冋量特征,即描述 特征描述子的方法是 首先选取一个或多个主方向,然后根据其方向旋转图像,以关键点为中心选取 的邻域 窗口,再平均分为个子区域,然后计算每个区域的八个梯度方向,最终形成局部特征描 述了。第三步,使用无监督的学习方法( 等),将得到的描述了向量聚为若|类, 形成视觉单词。为了满足检索的需求,需要对单词建立索引。 倒排索引,也常被称为反向索引,是一种索引方法,被用米存储在全文搜索中,某个单 词在一个文档或者一组文档中的存储位置的映射。一个倒排索引包括两个部分,第一部分是 各个不同的词汇的词表,称之为索引(),第二部分是一组列表( )。对于 每一个单词,对应一个所有包含这个单词的列表。如今存在许多对于倒排索引压缩的算法。 并且可能通过在查询处理阶段忽略掉对一些查询单词的处理来进一步提高系统的检索效率。 山国武技论文在丝 基于词袋模型的地基云图检索方法与系统 系统概述 结果列表 云图教据集 原子云图 快速 离线训练部分 索引结构 最近邹 索和排序 查询图像 图基于词袋模型的地基云图检索系统框图 如图所示,基于词袋模型的地基云图检索系统主要包含两部分:蓝色背景区域为离线 训练部分,其余为在线检索部分。云图数据库中的每张图像经过转化变为原子云图,根据原 子云图所表示的特征向量,建立倒排索引结构并保存待用。当用户输入一张待检索图像时, 先将其转化为原子云图。然后使用原」云图表小的特征冋量进行最近邻检索和排序,得到云 图数据库中最相似图片的结果列表。 生成原子厶图模块同时被在线和离线两部分调用,其功能是将原始的厶图图像转化为原 子云图,其主要步骤是分割图像,对每小块图像抽取其特征向量(特征图),并用生成好的 原子字典来量化特征向量,最终得到原子云图。只体细节将在中介绍。 建辶索引模块,在离线部分被使用,其功能是计算所有的原子云图的高维特征向量,使 用倒排索引的方法,在內存中建立一个倒排索引 模型。这种索引表中的每 项都包括一个云原子和具有该云原子的云图列表。其作用是为快速的在线检索提供支持和条 件 最近邻检索和排序模块,在线部分直接使用它为用户输出结果,其响应速度有严格的要 求,通常情况下小于一秒。该模块接收经转化的查洵原子图,依次遍历每个原子,使用内存 中凵经构建好的倒排索引结构,快速遍历相关图像,对相似图像加权,最后将厶图数据库中 所有相关图像按相关度排序,将结果输出给用户。 山国武技论文在丝 原子云图生成 」上 原始云图图像 云图局部特征 原子云图 图原」云图生成过程 在上节中已经提到和简单介绍了生成原子云图的方法,其具体过程如图所示。原子云 图是由原始云图经三个步骤处理后得到的,其分别是分割图像、抽取局部特征向量(特征图) 量化特征向量。一张原始的云图图像,首先将其均匀的分为×个小块图像,将图像碎 裂化。对于每个小块图像,抽取其颜色、形状、纹理等特征,筛选并组合最终成为该局部图 像的特征向量。最后,对所有的特征向量,用无监督的聚类方法,将每组向量标注上一个类 别标签,从而生成最终的原子云图。而各个聚类中心向量所组成的向量集合被保存为原子词 典,用于以后快速对查询云图的每个局部图像所对应的特征向量做快速分类。 云图特征向量与索引 厶图经过转化为原子云图后,用代表第张厶图,依次统计每个原子的类型,即 其中为原子云图的总类型数,表示第张云图对应 的原子云图中类型为的原子类型出现了次,从而实现对原子云图的计数,形成高维直 方图,直方图的横轴代表云图的原子类型,直方图的纵轴(高度)代表对应类型的原子出现 的次数。这样云图的最终特征就表示成了直方图。定义为两张云图之间的距离,则衡量 两张云图的相似度 航等价于衡量这两张云图所对应的直方图之间的距离。直方图 距离衡量方法冇很多种,在这里选择第范式距离,即 想要快速的检索到与查询云图图像最相似的云图,即找到云图图像集合中与查询云图图 像直方图距离最近的直方图,就需要建立合适的索引结构。这里选择使用倒排索引结构来解 决这个问题。令为原子云图的总类型数,代表第个类犁的原子,则总类型集为 。在倒排索引中,索引列表中保存原子,即直方图中的横铀,而每个 索引所指向的一组列表 只保存出现原子的所有厶图,以及每张厶图出现原子 的次数 即 ,其中代表第 张云图 表示第张云图对应的原子云图中类型为的原子类型出现了次。所有的 就构成了整个倒排索引。当用户进行检索的吋候,先将检索云图图像转化为原了云 图,然后依次遍历该图的原子,对于每一个原子,可迅速找到倒排索引中的该原子 索引对应的一组列表,顺序访问列表即可快速对该查洵原子云图的相关图像进行加 杈,最后根据加权值对云图数据集中的所有图像进行排序,得到相关图像列表。 山国武花论文在丝 实验分析和比较 实验设置 本文实验是在台 服务器上完成的,该服务器基本配置为双 ,配有内存,和磁片阵列。该机安装的是 操作系统,编程选用的是 本实验中使用的云图图像数据库由六种类型的云图:积云、层云、卷云、卷积云、卷层 云、层积云,共计张组成。其中张为积云,其特点是垂直向上发展的顶部旱圆弧形 或圆拱形重叠凸起,而底部几乎是水平的云块。层云一共有张,它们的特点是均匀成层, 呈灰色,似雾,但不与地接,常笼罩山腰。卷云类型的云图共张,其特点是已形成的卷 云由所下降的冰晶通过温、湿、风等不同的气层,也会表现为各种形态。卷积云类型的云图 共张,特点是厶块很小,白色鱼鳞状,成行、成群排列分布在高空,有时很像微风吹拂 水面而成的小波纹。卷层云云图共张,其特点是白色透明的云幔,有丝缕状结构或呈均 匀薄幕状,可以部分或全部遮蔽天穹,常伴有晕。层积云共张,其特点是云块·般较大, 在厚薄、形状上有很大差异,有的成条,有的成片,有的成团。 在每种类型的云图中随机选择张图像作为查询图像。系统将对每一个查询给予一个回 复,该冋复是所有图像库中的图像的排序列表 这里我们使用信息检索系统中最常用性能指标一平均准确率 作为实验的评价指标。其方法是:首先两个基本客观指标是召回率 和准确率 ,这与绝大多数的模式识别技术相同。用表小检索系统所针对的检索集合, 表小一个查询,而表小查询所返回的相关云图集,表小图像库中与查询相关的所 有图像。并定义算符|为集合中元索的个数,有省回率、准确率的定义如下 由于该图像检索系统返回的是一个排序的图像集合,因此召回率与准确率是互补的。 改定不同的相关性得分门限就能够得到相应的准确率与召回率。那么,对于系统的评价指标 就存在一个问题,如果一个系统偏重于给用户最准确的结果,那么高的准确率是必要的,反 之,如果系统希望包括尽可能多的相关结果,又会偏好召回率。系统如果简单的用召回率或 准桷率对系统性能作评价,无法评估系统的理想性能 这里举两个不同性能系统的例子,如图所示,两条曲线分别对应了两个检索系统的准 确率一召回率曲线。 山国武技论文在丝 AP=0.53 0.6 0.2 00.20.40.60 图准确率召回率曲线 可以看出,虽然两个系统的性能曲线有所交叠但是以圆点标示的系统的性能在绝大多 数情況下要远好于用方块标示的系统。从中我们可以发现点,如果个系统的性能较好, 其曲线应当尽可能的向上突出。更加具体的,曲线与坐标轴之间的面积应当越大。最理想的 系统,其包含的面积应当是,而所有系统的包含的面积都应当大于。这就是用以评价信 息检索系统的最常用性能指标,平均准确率 。其规范的定义 是,设为系统在召回率为时的准确率, 在实验中用于对比的方法是传统的图像检索方法,即基于内容的图像检索系统, 使用和选取种不同的特征与基于词袋模型的地基云图检索方法进行比较。他们分别为颜色 布局描述符 、边缘直方图描述符 局部二值模板。每组实验在相同特征下 使用不同方法进行对比试验 与传统 的比较 表与传统比较结果 特征选择 基于内容的图像检索 基于词袋模型的地基云图检索 颜色布局描述符 边缘直方图描述符 局部二值模板 为了评估基于词袋模凖的地基云图檢索方法与传统图像检索系统的优劣,我们针 对以上提到的种不同的图像特征描述子进行逐个一对一的比较。即每次选择一种描述子进 行传统图像检索,在该描述」指导生成原子云图的条件下,进行对比实验,详见表 实验结果表明,将基」词袋模型的地基厶图检索方法与传统图像检索方法对比 时,在检索效果泮价()的指标上,颜色布局特往对检索结果有一定程度的提升,而在 两种纹理特征中,局部二值模板()具有较为良好的表现,结果有左右的提髙。 参数分析 )不同特征的性能差异 表不同特社的性能差异比较结果 山国武花论文在丝 云图图像特征边缘直方图描述符 局部二值模板 原始图像 蓝红分量比特征图() 归一化蓝红分量比特征图() 饱和度亮度比特征图() 考虑到抽取纹理特征首先需要将彩色云图(图像)转化为妖度图像,该处理过程 会造成一定程度的信息丢失,传统的方式可能并不能很好的适用于云图,因为云图多为偏蓝 背景的图像,所以这里主要考虑前文中所提到的地基云图特征,根据图像的蓝通道和红通道 做特别处理从而产生灰度图像。 在实验中我们选择了三种不同的方法进行灰度图预处理。从实验结果可以看出,在 标准的纹理特征中,强调蓝和红通道的转化灰度图方法会在一定程度上提升最终的 云图檢索系统的性能。但饱和度亮度比特征图方法的优势最为明显。而对于局部二值 模板,该方法并未使最终检索性能产生显著的提升。 )词典规模的影响 表不同词典规模比较结果 原子词典规模 我们实验了原子词典规模对检索性能的影响。表展示了不同的原子词典规模大小,即 聚类中心数口大小对最终平均准确率的影响。这甲使用的是的分割尺寸和局部二值模 板来进行原子云图的描述。最好的结果岀现在词典规模为的情况,词典规模选取的不合 适有可能会造成分类过于零散,原本相同的特征未被归为相同类别,类间距离过小。或造成 分类过于集中,造成类内距离过大,不同的特征被归为类。因此太大或者太小的词典规模 都会使最终结果有所下降 )分割尺寸的影响 表不同分割尺寸比较结果 分割尺寸 最终检索系统的表现结果和厶图的分割尺寸有一定的联系,如果云图的分割尺寸较大, 会让原了云图木充分表达其局部特征,影响最终结果。反之,如果云图的分割尺寸较小,使 原始图像被过分切碎,较小的局部图像过于细致凌乱,同样不利于原子云图特征的表达。实 验分别选取的×、 ×、X四个尺寸来对云图数据集进行试验。如表 所示,在分割尺寸属性参数选择X的时候平均准确率表现最为优异。这体现出该方法 中尺寸参数选择×在云图检索上有一定的优势。 结论 本文给出了新的云图检索方法一基于词袋模型的地基云图检索方法,该方法是对源图像 进行分割后抽取局部图像特征,并基于思想以及现有的文字搜索的倒排索引技术实现

...展开详情
试读 11P 论文研究-基于词袋模型的地基云图检索方法研究 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
抢沙发
一个资源只可评论一次,评论内容不能少于5个字
weixin_39841882 你的留言是对我莫大的支持
2019-08-16
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
    最新推荐
    论文研究-基于词袋模型的地基云图检索方法研究 .pdf 10积分/C币 立即下载
    1/11
    论文研究-基于词袋模型的地基云图检索方法研究 .pdf第1页
    论文研究-基于词袋模型的地基云图检索方法研究 .pdf第2页
    论文研究-基于词袋模型的地基云图检索方法研究 .pdf第3页

    试读结束, 可继续读1页

    10积分/C币 立即下载 >