没有合适的资源?快使用搜索试试~ 我知道了~
改web中图像的检索技术研究学位论文.doc
0 下载量 171 浏览量
2023-06-28
04:08:30
上传
评论
收藏 213KB DOC 举报
温馨提示
试读
14页
改web中图像的检索技术研究学位论文.doc
资源推荐
资源详情
资源评论
1
WEB 中图像的检索技术研究
第一章 前言
1.1 引言
伴随网络技术的迅猛发展,图片的来源不断在扩大,容量超大的高速存储系统给图
片的海量存储给予了基本保障,各行业对图像的趋于增多,图像资源管理和搜索也愈发
重要。但由于网络本身架构、管理的种种问题,想在网络精准、高效地找到所需的图像,
却变成了件非常不易之事。
由于网络现在的问题:内容没有良好的架构;网络海量信息不断的增多。由此,便
出现了搜索引擎。虽然搜索引擎的出现给用户提供了不少的便捷,但是离精准、快速、
全面的检索到自己所想要的图像还是有一段距离,所以对图像搜索的研究还要下大力气
研究。
依照现有的搜索引擎和国内外有关研究人员的种种资料表明,现在的网络资源和搜
索引擎的特点如下:
(1)搜索的数据种类多样,如视频、图片、文字等。存取协议也是种类繁多,如
HTTP、FTP、News 等等;
(2)索引数据量巨大,从而导致不可能有某一个数据库可以包括整个网络的索引,
当下最大的搜索引擎,其索引也仅仅覆盖了网络的一小部分而已;
(3)资源消耗过大,系统需将 HTML 文档传送到本地之后再进行分析,占用昂贵的网
络和 CPU 资源,从而增加被搜索结点的压力。此外由于搜索引擎大多是集中式的,所以
搜索引擎服务器对硬件配置的要求也极高,这样才能处理巨大的数据量以及及时响应用
户的检索请求;
(4)不能有效解决搜索失效的问题,大多时候,搜索引擎会返回无用的查询结果;
(5)各种检索工具各行其事,无法相互协作,共享资源,也是一种资源的浪费。
1.2 现今的图像检索技术
近些年伴随着用户对图像搜索需求不断的增长,各类图像搜索引擎由此诞生,它们
以不同的搜索方式为用户提供各类检索途径,使得网上图像地检索变得简单,虽然还不
太完善,但已经可以满足大多数用户的要求。
1.2.1 搜索引擎的工作原理
最初的搜索引擎结构,是让 Spider 不停的从 Web 收集数据,存储在搜索引擎数据
库当中。用户靠搜索引擎服务器的 Web 接口,发出搜索请求,让 Web Server 通过 CGI 或
者其它技术访问数据库,并且将用户搜索请求变成相对应的数据存取语句,发送给引擎
处理,然后把结果通过网页显示反馈给用户。
2
网络检索的基本原理其实就是通过 Spider 定期在 web 上运行,发现新的数据,把
其取回到本地数据库中,让用户查询的请求可通过查询本地的数据库得到。
常用的网络信息检索实现机制可分为两种,通过手工方式对网页进行索引是一种方
法,但它的缺陷是 Web 覆盖率低,且不能保证是最新的息。查询匹配就是对用户写入的
关键字和网页描述、标题来匹配,并非是通过对全文匹配进行的。对网页进行自动的索
引是第二种,这类方法能自动实现文档分类,这种方法是采用信息提取技术。可是在分
类精准性上也许不如手工进行的分类。
对当下所有运行中的搜索工具来讲,基本上都会有一个机器人定期的访问一些站点,
以检查这些站点最近变化,同时找到新的站点。一般站点都会有个 robot.txt 文件来标
注服务器不希望机器人访问的区域,机器人都必须遵守这规定。假如是自动索引,机器
人在得到一个页面以后,需根据该页面的内容进行索引,依据它的关键字把它归到一个
类中。页面信息是通过元数据这类形式来保存的,经典的元数据有标题、IP 地址、该页
面简要的介绍、关键字抑或是索引短语、文件大小和最后更新的日期等等。虽然元数据
有一定的标准,但是很多站点都是使用自己的模板。文档提取的机制、索引策略这些对
搜索引擎(web)的有效性有巨大的联系。高级搜索选项包括:布尔方法、短语匹配、
自然语言的处理。一个检索所产生的结果按照提取机制的不同被分成不同等级提交给用
户,以关联度的大小排序。每个提取出来的文档元数据会显示给用户。也会包括该文档
所在的 URL 地址。
此外有些关于某个主题专门的搜索引擎,只针对某个主题的内容来进行检索和处理,
如此一来信息的取全率、精准度也相对会较高。
当前,图片搜索引擎大多通过以下两类方法来识别图像:
(1)自动查找图像档。通过 IMGSRC 和 HREF(HTML 标签)来检查是否有可显示的图
片文件,IMGSRC 表达的是“显示下面的图像文件”,导向嵌入式的图片;HREF 则是用来
表示“下面是一个链接”,导向被链接的图片。引擎通过检查扩展名来判断这个导向是
否是图片文件,假若文件扩展名是.png、.jpg、.gif 等,则说明是一个可显示的图片文
件。
(2)人工干预找出图片。进行归类,靠人工对网上的图像及站点进行筛选。这类方
法可产生精准的查询体系,可是劳动强度过大,因此处理图像的数量有限。
由于图像与文本不同,要人们按照自身的理解来说明其蕴含的意义,比文字更趋于
感性。因此对于计算机,图像检索的难度比文本的查询的难度要高出很多。
1.2.2 图像搜索引擎检索途径
1.关键词检索
传统图像检索技术是靠关键字精确的匹配来检索,即输入关键字,输出图片。它包
3
括两种途径:
(1)基于图片外部信息进行搜索。即依据图片的文件名、目录名、路径名、以及图
像周围文本的信息等等外部信息来进行检索,这是当前图片搜索引擎使用最多的方法。
当找到图像文件后,搜索引擎通过查看文件名或者路径名来确定文件内容,当然也可以
通过查看图片标题来匹配检索关键词。
(2)基于手工标注的检索。通过手工对图像的内容(如颜色对比、反差、景深等)
进行描述和分类,将图像标注为一系列关键字,并且建立索引。检索时,将主要在这些
关键词中搜索用户输入的关键字。这种查询方法是比较准确的,大都可以获得蛮好的查
准率,但是需人工参加,劳动强度高,因此限制了可处理图像的数量。此外,由于图片
所包含的信息量很庞大,不同类型用户对同一张图片的看法又不尽相同,就像一万个读
者有一万个哈姆雷特一般,从而导致了对图像标注缺乏统一标准。
2. 图像可视属性检索
基于图像内容的搜索主要是由图片分析软件自动提取图片的颜色、类型等特征,从
而建立特征数据库,其输入的弱国为用户要查找图片的大致特征或示例,则通过一定相
似匹配规则,输出为与该图片具有相近特征的图片,按相似的程度来排列,以供用户选
择,从而解决了在传统图像检索技术中一般用户难以完成的图像特征描述、提取与识别
等难题。
这是基于图片本身特征的检索,适用于检索明确目标的查询要求,可是目前这种较
为成熟的检索技术主要是应用于图片数据库检索。在图片搜索引擎中应用这类检索技术
还有困难,但是有部分图像搜索引擎开始尝试使用这种检索方法。
1.2.3 对几个基本引擎的简单分析
(1)InfoSeek 是一个简单而又功能强大的索引,它的优点是有面向主题搜索而且可
扩展的分类。可以把搜索关键字和相似的分类目录主题短语互相作为参照,而且那些主
题短语会自动加入到你的查询中。使你的检索有更好的主题相关性。以此同时它也支持
对图片的查询。能够漫游 Web、Usenet、Usenet FAQs 等等。不过不支持布尔操作,但可
以使用"+"和"-"。
(2)AltaVista 是个大容量的,基于机器人索引的搜索引擎。能够帮你在万维网上搜
索你所需的网页,文本,图像,视频音频。AltaVista 支持多种语言和简单的自然语言
搜索查询。AltaVista 覆盖面约为万维网上可索引的网页之 30%
(3)Scour 自称是第一个基于 web 的多媒体搜索引擎。严格讲,它并非是个图像搜索
引擎,但是可以将检索局限在图像搜索上。
Scour 工作原理是在文件名、路径名、ALT 标签中搜索关键词。主要使用关键词搜
索,可以用符号"+"或"-"来增加、排除关键词,使用较少关键词会更有效。在高级模
剩余13页未读,继续阅读
资源评论
zzzzl333
- 粉丝: 689
- 资源: 7万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功