没有合适的资源?快使用搜索试试~ 我知道了~
第十章 语义搜索1. 任务定义、目标和研究意义随着 Internet 的爆炸性增长,万维网已经发展成为包含多种信息资源、站点遍布全球的巨大动态信息服务网络,为用
资源详情
资源评论
资源推荐
![](https://csdnimg.cn/release/download_crawler_static/86333879/bg1.jpg)
134
第十章 语义搜索
1. 任务定义、目标和研究意义
随着 Internet 的爆炸性增长,万维网已经发展成为包含多种信息资源、站点
遍布全球的巨大动态信息服务网络,为用户提供了一个极具价值的信息源。然而,
传统搜索技术仍以关键词匹配、倒排索引和网页的链接结构为搜索依据,其查全
率和查准率均无法满足用户日益提高的标准 [Arvind, et al., 2001] [Guo, et al.,
2003] [Zhang, et al., 2007] 。与传统搜索技术不同,语义搜索是指搜索引擎的工
作不再拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕
捉到用户所输入语句背后的真实意图,并依此来进行搜索,从而更准确地向用户
返回最符合其需求的搜索结果。
语义搜索和传统的搜索系统有很大不同。以 Google 为例,Google 的传统搜
索主要依据网站中是否存在关键词、有多少其他网站链向这个网站、用户的点击
率等其他各种因素来决定呈现什么结果。Google 其实并不知道搜索词的含义。比
如当你在 Google 中搜索“中国最大的城市”,Google 给你呈现的是一页包含这些
关键词的链接,Google 并不知道这个问题的真正含义。相反,借助于语义网和知
识图谱,语义搜索能直接给出这个问题的答案,而不是一页相关的链接。可以肯
定的说,未来的搜索将会超越搜索词本身,进入由各种实体(entities)、实体的属
性和实体的相互关系所组成的世界。语义搜索的目的即是借助于对实体的理解,
它们之间的交互行为,用户对这些实体的理解获取准确的答案而不是一条条链接,
通过利用语义技术,将推理结合到检索过程中,可以极大的提高当前的搜索效果,
在语义 Web 环境下,可以更高效地发现信息资源。
2. 研究内容和关键科学问题
事实上,传统搜索技术提升的困难并不是因为目前的搜索技术本身不够先进,
其根源存在于 Web 上现有的信息表达和组织方式过于简单。Web 上的网页使用
的 HTML 语言或其改进版本,通过 DOM 树描述了网页的结构和格式,并引入
包括图片、声音以及视频等多种媒体格式,使得信息的显示更加生动、形象。此
外,相关文档之间可以采用超链接互相定向。然而,这种信息的表达和组织方法
主要是为人们阅读服务的,对于计算机而言,缺失了 Web 页面所承载的语义信
息。比如,某个 Web 页面中说明“小米 Note3 6GB 手机的价格是 2500 元人民
币”。HTML 语言难以使得计算机理解:小米是一个移动设备的制造公司,Note3
是其生产的一款手机型号,6GB 是手机的内存容量,2650 的含义是手机的销售
价格,其单位是人民币。
![](https://csdnimg.cn/release/download_crawler_static/86333879/bg2.jpg)
135
目前有不少针对自然语言理解的研究,希望通过自动的方式将自然语言的语
义转换为计算机可以理解的表达方式,但是当前的研究进展无论是处理的效率还
是结果的精确度都不能达到令人满意的程度。因此,现有的信息表达机制限制了
计算机帮助人们处理、综合和分析信息的能力。为此,万维网发明人 Tim Berners-
Lee 在 20 世纪九十年代末提出了语义网的构想。他指出,“语义网是现有万维网
的扩展,在其中信息被赋予明确的、完善的语义,以使得计算机和人能够更好地
进行协作” [Tim, et al., 2001] [Nigel, et al., 2006] 。为了实现在 Web 上表达语义
的需求,包括万维网联盟(W3C) 和因特网工程技术组(IETF)在内的研究机构制定
和开发了一系列技术规范。它们是在 Web 上进行语义表达和处理的技术基础,
构成了一个层次化的技术框架。语义网是对万维网中信息表达方式的一次革新,
它给出了一套技术框架使得 Web 上的信息可以方便地被计算机进行处理和理解。
语义搜索是架构在语义网上的搜索引擎,将语义 Web 技术引入搜索引擎,为用
户提供精准的检索结果。近两年来国外学者采用不同的方法和技术对该问题进行
了深入的研究,并得出了不少有益的结论,也建立了相关的原型系统。但是一方
面,由于语义 Web 处于发展阶段,另一方面也由于技术条件的限制,目前并不
存在一个“通用”的解决方案,现有的语义搜索引擎系统也都处于起步研究阶段,
离实用的商业化水平还相距甚远。
总的来说,语义网背景下的语义搜索主要面临的问题有以下三点:
(1)与传统的 Web 文档相比,语义网文档的本质是 RDF Graph。给定一个
RDF Graph,可以采取多种语法格式对其进行序列化,如,RDF/XML,Natation3
等。采用不同的语法进行序列化,生成的语义网文档之间可能具有显著的差别,
然而它们表达的语义却是一致的。有时,即使采用相同的语法,也会导致不同的
结果文档,比如采用不同的 name space 前缀。因此,对于语义网文档的搜索而
言,如何针对 RDF 数据模型的特点进行文档分析、索引建立和查询匹配即变得
极为重要。
(2)理解一个 URI 所指称的实体对于判断语义网上的实体共指问题非常重
要。实体共指是指客观世界的同一个对象,在语义网上(通常是被不同的信息发
布者)使用不同的 URI 来指称。这种共指现象给语义网数据的整合和建立在其
上的搜索均带来了困难。自动的共指消解技术能够帮助人们快速地找到可能的共
指 URI 列表。要更好地解决实体共指问题,当前还是以人工参与为主。因此,提
供一种快速、高效的办法理解一个 URI 所指称的实体,将能够很好地帮助人们
做出共指判断,进而帮助人们理解所获取的信息的真实含义。
(3)在现有缺乏必要的手段形成语义网的背景下,如何利用语义网技术改
进传统的 Web 信息检索系统对用户来说极为重要。传统 Web 是基于自然语言的
方式进行组织的,而语义网提供的一系列的技术规范,包括语义的明确表达和语
![](https://csdnimg.cn/release/download_crawler_static/86333879/bg3.jpg)
136
义网数据查询,能够以一个特定领域的搜索系统为切入点,利用语义网技术帮助
获取传统 Web 上的信息。
3. 技术方法和研究现状
语义搜索的研究涉及到多个领域,包括搜索引擎、语义 Web、数据挖掘和知
识推理等。运用的主要方法可归纳为:(1)图理论;在语义网的技术框架中,
RDF(Resource Description Framework)是一个非常基础、且又非常重要的数据模型。
通过 RDF 数据模型可将语义网中的本体组织为图结构,图中的弧和由结点和弧
组成的路径中都包含着信息,因此在语义搜索中应用到了不同形式的图遍历方法,
如实例扩展及查询的形式化方法等;(2)匹配算法,在语义搜索中需进行概念与
关键字或者实例与关键字的匹配,关键字提供了一种快速定位信息的入口,而关
键字和概念的匹配方法是语义搜索中重要的一环;(3)逻辑特别是描述逻辑、模
糊逻辑等。逻辑和推理已经被整合到未来的语义 Web 框架中。描述逻辑是知识
的一种形式化表示方法[Baader, et al., 2003],作为本体语言的基础为人们所熟知
[Horrocks, et al., 2003],如 OIL,DAML+OIL,OWL。语义搜索的目的是为了准
确地理解用户的输入,因此必须要使计算机具有逻辑推理能力,即如果输入为“小
米 Note3是 Note2的升级版吗?价格是多少?”计算机要确切理解“小米”、“Note2”、
“Note3”代表的含义,并且理解“Note2”和“Note3”之间的关系。
3.1.主流语义网搜索引擎
在新一代的语义搜索引擎中较为典型的有两个,且都是基于本体的语义搜索
引擎,分别为:Swoogle 和 TUCUXI。其中,Swoogle 从搜索返回结果的 Web 文
档中提取出本体,然后依据本体间的语义关联性确定出文档间的语义关系;
TUCUXI 则通过所获得的本体在 Web 上以特定规则爬行,并通过语义处理找出
最符合要求的网页。目前已开发出许多建立于本体上的语义搜索引擎,如,
Congnition、Hakia、DeepDyve、Factbites、Kngine 等。
Swoogle 是由马里兰大学计算机科学和电气工程系于美国国家科学基金会
(NSF)和美国国防部下署高级研究计划署(DARPA)的资助下所建立的。与那
些传统意义上的语义网搜索引擎不同,Swoogle 在资源获取方面拥有一系列突出
的解决方案,可自动发现语义网中 RDF 格式的文档,通过 Link-Following 和 Meta-
Search 的方式识别出语义网文档(SWDs),通过语义分析不断发现新的语义网文
档,并可对其中元数据建立相关索引提供高效率的查询服务,利用 Rational
Random Surfing 模型提供高质量的排序结果[Ding, et al., 2004] [Ding and Finin,
2006]。Swoogle 的核心功能有:
- 提取语义网中的实例数据;
剩余11页未读,继续阅读
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![doc](https://img-home.csdnimg.cn/images/20210720083327.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![avatar](https://profile-avatar.csdnimg.cn/8017c643ba4b43a497db822aa2da9582_weixin_35734364.jpg!1)
赶路的稻草人
- 粉丝: 24
- 资源: 330
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)
评论0