web前端-基于CSS选择器的Web信息抽取的研究与实现.pdf资源-CSDN文库

版权申诉

99 浏览量 2022-06-21 17:46:00 上传评论收藏 2.17MB PDF 举报

资源推荐

资源详情

资源评论

摘要

随着 Web2.0 的兴起和移动互联网出现的普及，互联网已经逐渐成为人们获取信息

的主要渠道。各类 UGC（User Generated Content）网站的流行，使得互联网上产生了大

量由用户产生的内容。但是随着 Web 数据的爆炸式增长，获取所需的 Web 信息变得更

加困难，Web 信息抽取技术的研究也随之展开。近年来，Web 信息抽取的方法不断被提

出，然而这些抽取方法在实现上各有侧重，在抽取的自动化程度和适用性等方面有很大

的提升空间。

本文研究并提出了一种基于 CSS 选择器的 Web 信息抽取方法，该方法在 MDR 算

法的基础上，结合了 CSS 的相关特性，有更广泛的适用性。并结合较新的 MVVM 设计

模式，以低耦合的方式实现了基于该方法 Web 信息抽取系统。抽取系统采用了用户标

记的形式来获取数据记录的特征属性。这一方式相较与传统的基于 DOM 的 Web 信息抽

取方法，在网页结构发生变化时，也能保证抽取的正确性和有效性。同时为了保证抽取

的完备性，设计了基于 CSS 选择器的抽取方法和 URL 比较法相结合的相似页面 URL

获取方法。经过抽取实验表明，抽取系统对于多页面的 Web 信息抽取也有较好的抽取

效果。基于 MVVM 设计模式开发的抽取系统有着更低的耦合性，这使得后续对抽取系

统进行扩展成为可能。本文最后使用该抽取系统对亚马逊网站的商品评论信息进行抽取

实验，证明了抽取方法和抽取系统设计的有效性。

关键词：Web 信息抽取 CSS 选择器 MDR 算法 MVVM

Abstract

With the rise of Web2.0 and the popularity of mobile Internet, the Internet has become

the main channel for people to obtain the information. Various types of UGC (User Generated

Content), website popularity, generated a lot of user-generated content on the Internet. But

with the explosion of Web data, accessing to Web information needed is becoming more and

more difficult. Web information extraction technology research has been expanded. In recent

years, Web information extraction methods have been proposed, but have different emphases

on these extraction methods in achieving in their degree of automation and applicability has

great room for improvement.

This study proposed a method for Web information extraction based on CSS selectors,

on the basis of the MDR, and combines the characteristics of CSS, have broader applicability.

And combined with a new MVVM design pattern in a loosely coupled manner to achieve a

Web information extraction system based on this method. Extraction system uses the user’s

input to obtain characteristics of a data record in a form of attributes. This approach compared

with the traditional methods of Web information extraction based on DOM, when the page

structure changes, can guarantee the validity and correctness of the extraction. In order to

ensure the completeness of extraction, design extraction methods based on CSS selectors, and

URL comparison method is similar to the page URL get method. After extraction experiments

showed that the extraction system for multiple pages of Web information extraction have

better extraction results. Extraction system of the MVVM design pattern based development

has lower coupling, which makes it possible for subsequent expansion of the extraction

system. And the extraction system was used on the Amazon product review information

extraction experiments to demonstrate the effectiveness of the extraction method and

extraction system.

Key words: Web Information Extraction; CSS Selector; MDR; MVVM

1 绪论

1.1 研究背景及意义

随着 Web2.0 的兴起和移动互联网的出现，互联网已经逐渐成为人们获取信息的主

要方式之一。各类 UGC（User Generated Content）网站日益流行的同时，互联网上产生

了大量由用户产生的内容，例如用户留言、商品评论等。Web 上的信息资源不断丰富、

信息扩散速度不断提升的同时，Web 信息过载、信息质量降低等问题也日益严重，用户

获取有效信息变得更加困难。

[1]

在互联网上，信息大多以 HTML 网页的形式呈现。HTML 文档本身是一种半结构

化（semi-structured）数据

[2]

，这种数据格式更适合用户去浏览，而不便于由机器直接读

取分析。此外，由于视觉美观和商业需求，现代的 Web 网页的 HTML 结构中包含了大

量与主题内容无关的信息，如网络广告、版权信息等。从分散在互联网中的半结构化的

HTML 中抽取结构化的有用信息是信息搜索（Information Search）、数据挖掘（Data

Mining）、机器翻译（Machine Transition）和文本摘要（Text Digest）等 Web 信息处理

的基础

[3]

。这些因素推动了 Web 信息抽取技术不断发展。随着 CSS、JavaScript 等互联

网新技术的出现和 MVC、MVVM 等开发模式的流行，网页的结构和形式在不断变化，

Web 信息抽取技术也必须随之进步以保证其对新网站适应性。

综合以上所述，对 Web 信息抽取的研究是有实际意义的。

1.2 研究现状

1.2.1 Web 信息抽取研究综述

信息抽取的概念早在上世纪 60 年代开始被学者提出，最早的研究是从自然语言文

本中提取结构化信息的相关技术

[4]

。随着在线和离线文本数量的几何级增长，信息抽取

的研究工作逐渐受到研究者的关注。消息理解系列会议（MUC，Message Understanding

Conference）召开以来，信息抽取技术相关的研究不断发展，现在已经成为了自然语言

处理领域的一个重要研究方向之一。而随着互联网的出现和普及，Web 信息抽取技术的

研究也开始受到关注并不断发展。Web 信息抽取（WIE，Web Information Extraction）

的概念通常被定义为：通过一定的抽取方法从网页中获取特定信息，将这些信息转化为

结构化的数据以供用户获取使用的过程

[5]

。目前网页大部分以 HTML 文档的形式呈现，

而 HTML 本身是一种半结构化数据，使得它更适合人类阅读而难以由机器直接进行归

纳分析。所以如何从网页中的半结构化的信息中识别出特定的内容，在此基础上运用工

具和方法进一步将这部分内容转化成结构化、语义化的数据格式提供给用户，正是 Web

信息抽取技术所要解决的问题。

早期最基本的 Web 信息抽取主要由包装器（wrapper）来实现网页数据的抽取，运

用包装器归纳系统来抽取信息首先需要生成对应的模板。在早期的包装器系统中，这一

步骤需要依靠人工逐一对网页进行标记来完成，如 Stalker

[6]

等，十分耗费人力且不易于

维护。AutoWrapper

[7]

等相对较新的包装器系统提出了半自动化的模板生成方式。这类

新系统的半自动化体现在其网页标记过程只需要人工对单一的样本网页进行标记，标记

完成后系统就可以根据用户标记过的样本网页来学习抽取模式。但在适应性上存在缺

陷，AutoWrapper 这类抽取系统只适用于已经淘汰的<table>布局网页。基于包装器的抽

取方法具有准确性高、适用性窄、可维护性差的特点。

Sun 等人

[8]

针对<table>布局的网站提出了以字符串统计为基础的抽取方法，该方法

通过过滤网页中<table>所在区域内的 HTML 标签得到只包含主题信息的字符串，然后

按照字符串进行排序，与某一阈值进行比较来进行网页信息的抽取。这类方法对于

<table>布局的网页的抽取有着较高的准确率，但当前的网页设计中已经不再使用<table>

标签进行布局。这类抽取方法有很大的局限性。

Wang 等人

[9]

提出了 DSE（data-rich section extration）算法。该算法基于页面内的出

链的方式找到需要抽取的网页。并提出了 URL 的相似性算法来筛除广告链接等无关链

接。该方法对于每个带抽取网页都需要重复进行处理，抽取效率较低。

RoadRunner

[10]

系统中提出了基于 DOM 树比较的算法。该方法通过处理 DOM 树之

间的不匹配来标记带抽取区域。但对于网页的规范化要求较高，而且没有提出网页预处

理方案。

剩余49页未读，继续阅读

评论收藏

内容反馈

版权申诉

programhh

粉丝: 8
资源: 3838

web前端-基于CSS选择器的Web信息抽取的研究与实现.pdf

论文研究-基于信息增益的Web人物关系抽取.pdf

基于规则的Web文本信息抽取技术的研究.pdf

基于标签路径和关键词特征的Web新闻抽取方法研究与实现.pdf

论文研究-基于规则归纳的信息抽取系统实现.pdf

论文研究-面向Deep Web基于页面分块的信息抽取对象模型 .pdf

web前端-仿射不变的CSS形状检索.pdf

web渗透系列教学下载共64份.zip

web前端-浙江省海岸带旅游资源CSS评价.pdf

web前端技术--css.pptx

基于深度学习的Web信息抽取模型研究与应用.pdf

论文研究-基于自动化信息抽取技术的垂直网络爬虫设计与实现 .pdf

基于XML的Web信息抽取研究与实现

论文研究-基于Ajax的网络信息抽取系统的设计与实现 .pdf

前端-CSS入门.pdf

Web前端HTML5 CSS3初学者零基础入门全套学习笔记.zip

资料-Web前端入门教程资料下载地址.txt

Web前端学习笔记：HTML5+CSS3+JavaScript.pdf

前端-web前端-模板-各行各业二十个模板4

HTML5及CSS3web前端开发技术习题答案解析.pdf

前端-web前端-模板-各行各业二十个模板3

HTML5与CSS3web前端开发技术习题答案.pdf

web前端学习,js,css.html.zip

web前端初级.pdf

web前端html+css+js实现学生信息管理系统

《Web前端设计基础——HTML5、CSS3、JavaScript》课后答案整理.pdf

编写高质量代码--Web前端开发修炼之道.pdf

【Web网页设计制作-毕业设计期末大作业】HTML、CSS、JavaScript前端网页项目源码H20.zip

最新资源