没有合适的资源?快使用搜索试试~ 我知道了~
搜索引擎-主题搜索引擎的信息抽取和索引的研究.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 91 浏览量
2022-06-27
19:53:01
上传
评论
收藏 874KB PDF 举报
温馨提示
试读
51页
搜索引擎-主题搜索引擎的信息抽取和索引的研究.pdf
资源推荐
资源详情
资源评论
II
ABSTRACT
With the explosion of World Wide Web, “Information Overload” has become a
serious problem. To help people accurately get the piece of information what he wants
from the Web, information extraction from web pages is necessary. The program that
performs this task is called wrapper. The key requirements are that a wrapper can be
constructed rapidly, without much human intervention, and the wrapper should be
robust, adaptable to the change of web page, moreover, the wrapper should be as
general as possible, that is, it is independent on particular web site.
Many approaches have been proposed to ease wrapper generation. Almost all of
them use proprietary extraction languages. The languages are simple, hard to express
accurate or complex extraction pattern. Although through labled examples, extraction
rules can be induct automatically, they are not accurate, not robust or general.
We apply standard technologies of XML to web information extraction problem.
With standard XSLT, we can exploit strong and flexible features of the language to
construct simple, robust and general extraction rules. We have developed a platform to
ease wrapper construction.
The failure of extraction rules is mainly due to the failure of XPath expression.This
paper studies the optimization methods of extraction of extraction rules and put
forwards several improved location methods. Moreover ,the combination sreategy of
these methods is put forward to generate simple.these methods have been used in the
information extraction to get better precision.
Keywords: XSLT, Information Extraction, XML
III
目 录
1 绪 论 ............................................................................................................... 1
1.1 选题背景和意义 ........................................................................................ 1
1.2 主题搜索引擎简介..................................................................................... 1
1.3 信息抽取技术 ............................................................................................ 3
1.3.1 信息抽取与信息检索 .............................................................................. 3
1.3.2 信息抽取与自动摘要 .............................................................................. 3
1.4 本文的研究内容 ........................................................................................ 3
1.5 本文的组织结构 ........................................................................................ 4
2 Web 信息抽取技术概述 ................................................................................... 5
2.1 Web 信息抽取技术分类 ............................................................................ 5
2.2 包装器概念(wrapper) ......................................................................... 5
2.3 wrapper 构建技术的分类 ......................................................................... 6
2.4 几种基于 HTML 的信息抽取系统............................................................... 8
2.4.1 W4F............................................................................................................ 8
2.4.2 XWRAP ..................................................................................................... 8
2.4.3 EXALG...................................................................................................... 9
2.4.4 Road Runner .............................................................................................. 9
2.4.5 国内的信息抽取研究 ............................................................................ 10
2.5 Web 信息抽取存在的问题 ...................................................................... 10
2.6 本章小结.................................................................................................. 11
3 Web 信息抽取的原理和方法.......................................................................... 12
3.1 XML 相关标准 .......................................................................................... 12
3.1.1 XML......................................................................................................... 12
3.1.2 XHTML ................................................................................................... 13
3.1.3 DOM ........................................................................................................ 14
3.1.4 XPath ....................................................................................................... 15
3.1.5 XSLT........................................................................................................ 15
3.1.6 用 Java 进行 XSLT 扩展........................................................................ 16
3.2 系统的设计目标与思路 ........................................................................... 16
3.2.1 系统的设计目标 .................................................................................... 16
3.2.2 系统设计的基本思路 ............................................................................ 16
IV
3.2.3 XML 和 XSLT 在系统中的角色............................................................ 17
3.3 抽取系统的总体框架 ............................................................................... 18
3.4 系统中的知识库与数据库........................................................................ 19
3.4.1 抽取规则库 ............................................................................................ 19
3.4.2 抽取结果数据库和 Web 页面数据库 ................................................... 19
3.5 页面优化模块 .......................................................................................... 19
3.5.1 XHTML 页面转化 .................................................................................. 20
3.5.2 页面解析 ................................................................................................ 24
3.6 信息抽取模块 .......................................................................................... 24
3.6.1 规则学习的依据 .................................................................................... 24
3.6.2 规则学习的步骤 .................................................................................... 26
4 抽取规则的优化 .............................................................................................. 33
4.1 优化问题的提出 ...................................................................................... 33
4.2 改进的定位方法 ...................................................................................... 33
4.2.1 路径与内容结合方法 ............................................................................ 33
4.2.2 完全基于文本的方法 ............................................................................ 34
4.2.3 基于属性的方法 .................................................................................... 35
4.2.4 几种方法的比较 .................................................................................... 35
4.3 各种方法的组合 ...................................................................................... 36
4.4 优化的抽取规则 ...................................................................................... 37
5 倒排索引技术研究 .......................................................................................... 39
5.1 倒排索引概念 .......................................................................................... 39
5.2 中文分词技术 .......................................................................................... 39
6 结 论 ............................................................................................................. 42
6.1 总结 ......................................................................................................... 42
6.2 下一步工作.............................................................................................. 42
致 谢 ............................................................................................................... 44
参 考 文 献.......................................................................................................... 45
附 录 ............................................................................................................... 48
1
1 绪 论
1.1 选题背景和意义
Internet 是计算机出现以来甚至是人类有史以来最伟大的创举,它改变了全
球通讯和信息资源共享的方式,它把各种各样的资源从经济、科技、教育到体
育、艺术联系在一起,构成了一个巨大的网络。其中 WWW(World Wide Web)
的发展最为迅速,己经发展成为拥有约上亿用户和几千万个站点、十几亿个网
页的巨大分布式信息空间
[1]
,而且这个数字仍以每 4 至 6 个月翻一番的速度迅
猛增加。WWW 将全世界不同地点的相关信息资源有机的编制在一起,它以超
级文本的方式向用户提供多媒体信息服务,用户只要操纵计算机的鼠标器,就
可以从全世界任何地方得到所需要的文本、图象、声音和影视信息。这些信息
目前为止是世界上最丰富和最密集的信息来源,在海量的、异构的信息资源中,
蕴藏着具有巨大潜在价值的知识。这些知识以及 Web 页面的访问和使用记录信
息为数据挖掘提供了丰富的资源。但它也为数据挖掘和知识发现提出巨大的挑
战,与传统的数据挖掘相比,Web 信息抽取有自身的特点。
首先,抽取的对象是海量的、异构的、分布的文档,属于传统的数据挖掘
的范畴。其次,Web 在逻辑上是一个由文档节点和超链接构成的图,因此 Web
抽取所得到的模板可能是关于 Web 内容的,也可能是关于 Web 结构的。再次,
由于 Web 文档是半结构化或无结构的,且缺乏机器理解的语义,而数据挖掘的
对象局限于数据库中的结构化数据,并利用关系表格等存储结构来发现知识,
因此传统的数据挖掘技术并不能直接的应用于 Web 信息抽取。
抽取技术随着需求的增加而不断丰富,近年来国内外涌现了多种信息抽取
方法,这些方法各有侧重地解决了上述 Web 信息抽取中面临的问题,总体上取
得了良好的效果,但是在某些方面存在不同程度的局限或缺陷。
为了更好的解决 Web 信息抽取面临的诸多问题和不足,有必要对 Web 信息
抽取问题作进一步研究。
1.2 主题搜索引擎简介
所谓主题搜索,是针对某一特定领域,某一特定人群或某一特定需求提供
的有一定价值的信息和相关服务。其特点就是专、精、深,且具有行业色彩。
它是与通用搜索引擎截然不同的引擎类型。主题搜索引擎专注具体、深入的纵
向服务,致力于某一特定领域内信息的全面和内容的深入,这个领域外的闲杂
信息不收录。
2
搜索领域有句名言:用户无法描述他要找什么,除非让他看到想找的东西。
微软研究院一名技术专家说:“75%的内容通用搜索引擎搜索不出来”
[3]
。而主 题
搜索引擎的诞生则是为了更大程度地提高搜索的“查全率”和“查准率”。主题搜索
引擎通过对行业领域内的信息模型和用户模型结构化的搜集或再组织,提供更
多、更专业、个性化的行业相关服务。
图 1.1 主题搜索引擎各模块介绍
Fig 1.1 The introduction of the module of topic search engine
主题搜索引擎主要分为 3 个功能模块(图 1.1),网页抓取模块(Web Spider)
是主题搜索引擎的第一步,该模块从互联网海量的信息里抓取与搜索引擎的主
题相关的网页,例如,设计一个摩托车行业的主题搜索引擎,就可以到摩托车
门户网站进行抓取。这一模块还包含对网页进行预处理,去除掉一些不符合主
题规范的网页,然后进行网页净化,使之符合抽取的规范
[5]
。
第二步是信息抽取和索引模块,该模块的主要目的是生成倒排索引,并且
存储到数据库中,便于查询模块中查全率和查准率的提高,该模块承前启后,
是一个主题搜索引擎中最重要的一环,最为关键的步骤就是对第一步得到的大
量网页进行信息抽取,从大量结构化和非结构化的数据中提取信息。然后对提
取的信息进行中文分词,建立倒排索引,生成索引文件,存储到数据库中。
第三步就是设计查询页面和查询的算法,使用户可以按照第二步得到的索
Internet
网页信息采
网页预处理
建立倒排索引
查询界面
Web 信息抽取
设计网页抓取程
序,抓取相关主
题网页
净化网页,使之
符合抽取规范
设计界面和检索
规则
中文分词技术,
索引建立规则
设计 wrapper 包
装器和抽取规
则,抽取主题相
关信息
网页抓取模
块
信息抽取和
索引模块
界面及检索
模块
剩余50页未读,继续阅读
资源评论
programxh
- 粉丝: 17
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功