搜索引擎-主题搜索引擎的信息抽取和索引的研究.pdf资源-CSDN文库

版权申诉

91 浏览量 2022-06-27 19:53:01 上传评论收藏 874KB PDF 举报

资源推荐

资源详情

资源评论

ABSTRACT

With the explosion of World Wide Web, “Information Overload” has become a

serious problem. To help people accurately get the piece of information what he wants

from the Web, information extraction from web pages is necessary. The program that

performs this task is called wrapper. The key requirements are that a wrapper can be

constructed rapidly, without much human intervention, and the wrapper should be

robust, adaptable to the change of web page, moreover, the wrapper should be as

general as possible, that is, it is independent on particular web site.

Many approaches have been proposed to ease wrapper generation. Almost all of

them use proprietary extraction languages. The languages are simple, hard to express

accurate or complex extraction pattern. Although through labled examples, extraction

rules can be induct automatically, they are not accurate, not robust or general.

We apply standard technologies of XML to web information extraction problem.

With standard XSLT, we can exploit strong and flexible features of the language to

construct simple, robust and general extraction rules. We have developed a platform to

ease wrapper construction.

The failure of extraction rules is mainly due to the failure of XPath expression.This

paper studies the optimization methods of extraction of extraction rules and put

forwards several improved location methods. Moreover ,the combination sreategy of

these methods is put forward to generate simple.these methods have been used in the

information extraction to get better precision.

Keywords: XSLT, Information Extraction, XML

III

1 绪论 ............................................................................................................... 1

1.1 选题背景和意义 ........................................................................................ 1

1.2 主题搜索引擎简介..................................................................................... 1

1.3 信息抽取技术 ............................................................................................ 3

1.3.1 信息抽取与信息检索 .............................................................................. 3

1.3.2 信息抽取与自动摘要 .............................................................................. 3

1.4 本文的研究内容 ........................................................................................ 3

1.5 本文的组织结构 ........................................................................................ 4

2 Web 信息抽取技术概述 ................................................................................... 5

2.1 Web 信息抽取技术分类 ............................................................................ 5

2.2 包装器概念（wrapper） ......................................................................... 5

2.3 wrapper 构建技术的分类 ......................................................................... 6

2.4 几种基于 HTML 的信息抽取系统............................................................... 8

2.4.1 W4F............................................................................................................ 8

2.4.2 XWRAP ..................................................................................................... 8

2.4.3 EXALG...................................................................................................... 9

2.4.4 Road Runner .............................................................................................. 9

2.4.5 国内的信息抽取研究 ............................................................................ 10

2.5 Web 信息抽取存在的问题 ...................................................................... 10

2.6 本章小结.................................................................................................. 11

3 Web 信息抽取的原理和方法.......................................................................... 12

3.1 XML 相关标准 .......................................................................................... 12

3.1.1 XML......................................................................................................... 12

3.1.2 XHTML ................................................................................................... 13

3.1.3 DOM ........................................................................................................ 14

3.1.4 XPath ....................................................................................................... 15

3.1.5 XSLT........................................................................................................ 15

3.1.6 用 Java 进行 XSLT 扩展........................................................................ 16

3.2 系统的设计目标与思路 ........................................................................... 16

3.2.1 系统的设计目标 .................................................................................... 16

3.2.2 系统设计的基本思路 ............................................................................ 16

3.2.3 XML 和 XSLT 在系统中的角色............................................................ 17

3.3 抽取系统的总体框架 ............................................................................... 18

3.4 系统中的知识库与数据库........................................................................ 19

3.4.1 抽取规则库 ............................................................................................ 19

3.4.2 抽取结果数据库和 Web 页面数据库 ................................................... 19

3.5 页面优化模块 .......................................................................................... 19

3.5.1 XHTML 页面转化 .................................................................................. 20

3.5.2 页面解析 ................................................................................................ 24

3.6 信息抽取模块 .......................................................................................... 24

3.6.1 规则学习的依据 .................................................................................... 24

3.6.2 规则学习的步骤 .................................................................................... 26

4 抽取规则的优化 .............................................................................................. 33

4.1 优化问题的提出 ...................................................................................... 33

4.2 改进的定位方法 ...................................................................................... 33

4.2.1 路径与内容结合方法 ............................................................................ 33

4.2.2 完全基于文本的方法 ............................................................................ 34

4.2.3 基于属性的方法 .................................................................................... 35

4.2.4 几种方法的比较 .................................................................................... 35

4.3 各种方法的组合 ...................................................................................... 36

4.4 优化的抽取规则 ...................................................................................... 37

5 倒排索引技术研究 .......................................................................................... 39

5.1 倒排索引概念 .......................................................................................... 39

5.2 中文分词技术 .......................................................................................... 39

6 结论 ............................................................................................................. 42

6.1 总结 ......................................................................................................... 42

6.2 下一步工作.............................................................................................. 42

致谢 ............................................................................................................... 44

参考文献.......................................................................................................... 45

附录 ............................................................................................................... 48

1 绪论

1.1 选题背景和意义

Internet 是计算机出现以来甚至是人类有史以来最伟大的创举，它改变了全

球通讯和信息资源共享的方式，它把各种各样的资源从经济、科技、教育到体

育、艺术联系在一起，构成了一个巨大的网络。其中 WWW(World Wide Web)

的发展最为迅速，己经发展成为拥有约上亿用户和几千万个站点、十几亿个网

页的巨大分布式信息空间

[1]

，而且这个数字仍以每 4 至 6 个月翻一番的速度迅

猛增加。WWW 将全世界不同地点的相关信息资源有机的编制在一起，它以超

级文本的方式向用户提供多媒体信息服务，用户只要操纵计算机的鼠标器，就

可以从全世界任何地方得到所需要的文本、图象、声音和影视信息。这些信息

目前为止是世界上最丰富和最密集的信息来源，在海量的、异构的信息资源中，

蕴藏着具有巨大潜在价值的知识。这些知识以及 Web 页面的访问和使用记录信

息为数据挖掘提供了丰富的资源。但它也为数据挖掘和知识发现提出巨大的挑

战，与传统的数据挖掘相比，Web 信息抽取有自身的特点。

首先，抽取的对象是海量的、异构的、分布的文档，属于传统的数据挖掘

的范畴。其次，Web 在逻辑上是一个由文档节点和超链接构成的图，因此 Web

抽取所得到的模板可能是关于 Web 内容的，也可能是关于 Web 结构的。再次，

由于 Web 文档是半结构化或无结构的，且缺乏机器理解的语义，而数据挖掘的

对象局限于数据库中的结构化数据，并利用关系表格等存储结构来发现知识，

因此传统的数据挖掘技术并不能直接的应用于 Web 信息抽取。

抽取技术随着需求的增加而不断丰富，近年来国内外涌现了多种信息抽取

方法，这些方法各有侧重地解决了上述 Web 信息抽取中面临的问题，总体上取

得了良好的效果，但是在某些方面存在不同程度的局限或缺陷。

为了更好的解决 Web 信息抽取面临的诸多问题和不足，有必要对 Web 信息

抽取问题作进一步研究。

1.2 主题搜索引擎简介

所谓主题搜索，是针对某一特定领域，某一特定人群或某一特定需求提供

的有一定价值的信息和相关服务。其特点就是专、精、深，且具有行业色彩。

它是与通用搜索引擎截然不同的引擎类型。主题搜索引擎专注具体、深入的纵

向服务，致力于某一特定领域内信息的全面和内容的深入，这个领域外的闲杂

信息不收录。

搜索领域有句名言：用户无法描述他要找什么，除非让他看到想找的东西。

微软研究院一名技术专家说：“75%的内容通用搜索引擎搜索不出来”

[3]

。而主题

搜索引擎的诞生则是为了更大程度地提高搜索的“查全率”和“查准率”。主题搜索

引擎通过对行业领域内的信息模型和用户模型结构化的搜集或再组织，提供更

多、更专业、个性化的行业相关服务。

图 1.1 主题搜索引擎各模块介绍

Fig 1.1 The introduction of the module of topic search engine

主题搜索引擎主要分为 3 个功能模块(图 1.1)，网页抓取模块(Web Spider)

是主题搜索引擎的第一步，该模块从互联网海量的信息里抓取与搜索引擎的主

题相关的网页，例如，设计一个摩托车行业的主题搜索引擎，就可以到摩托车

门户网站进行抓取。这一模块还包含对网页进行预处理，去除掉一些不符合主

题规范的网页，然后进行网页净化，使之符合抽取的规范

[5]

。

第二步是信息抽取和索引模块，该模块的主要目的是生成倒排索引，并且

存储到数据库中，便于查询模块中查全率和查准率的提高，该模块承前启后，

是一个主题搜索引擎中最重要的一环，最为关键的步骤就是对第一步得到的大

量网页进行信息抽取，从大量结构化和非结构化的数据中提取信息。然后对提

取的信息进行中文分词，建立倒排索引，生成索引文件，存储到数据库中。

第三步就是设计查询页面和查询的算法，使用户可以按照第二步得到的索

Internet

网页信息采

网页预处理

建立倒排索引

查询界面

Web 信息抽取

设计网页抓取程

序，抓取相关主

题网页

净化网页，使之

符合抽取规范

设计界面和检索

规则

中文分词技术，

索引建立规则

设计 wrapper 包

装器和抽取规

则，抽取主题相

关信息

网页抓取模

块

信息抽取和

索引模块

界面及检索

模块

剩余50页未读，继续阅读

评论收藏

内容反馈

版权申诉

programxh

粉丝: 17
资源: 1万+

搜索引擎-主题搜索引擎的信息抽取和索引的研究.pdf

搜索引擎-主题搜索引擎研究.pdf

搜索引擎-基于主题的搜索引擎研究.pdf

搜索引擎-搜索引擎主题相关性研究.pdf

搜索引擎-基于主题的搜索引擎的研究与实现.pdf

搜索引擎-主题搜索引擎的研究与实现.pdf

Access 2000数据库系统设计(PDF)---025

web搜索引擎最新源码和事例代码

Access 2000数据库系统设计(PDF)---002

Access 2000数据库系统设计(PDF)---018

搜索引擎-基于语义的主题搜索引擎研究.pdf

人工智能-搜索引擎-搜索引擎中索引技术研究与实现.pdf

搜索引擎-基于Lucene的主题搜索引擎研究.pdf

搜索引擎-基于主题精选算法的元搜索引擎的应用研究.pdf

搜索引擎-基于Kademlia的FTP搜索引擎索引技术的研究.pdf

Access 2000数据库系统设计(PDF)---003

Access 2000数据库系统设计(PDF)---011

Access 2000数据库系统设计(PDF)---020

Access 2000数据库系统设计(PDF)---009

Access 2000数据库系统设计(PDF)---015

人工智能-搜索引擎-主题搜索引擎聚类算法的研究.pdf

人工智能-搜索引擎-面向主题的元搜索引擎技术研究与系统实现.pdf

人工智能-搜索引擎-基于索引云的企业搜索引擎实现研究.pdf

人工智能-搜索引擎-搜索引擎信息控制权分配研究.pdf

人工智能-搜索引擎-金融主题垂直搜索引擎的研究与实现.pdf

Access 2000数据库系统设计(PDF)---012

Access 2000数据库系统设计(PDF)---027

Access 2000数据库系统设计(PDF)---026

Access 2000数据库系统设计(PDF)---029

Access 2000数据库系统设计(PDF)---001

最新资源