没有合适的资源?快使用搜索试试~ 我知道了~
web前端-基于CSS选择器的Web信息抽取的研究与实现.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 99 浏览量
2022-06-21
17:46:00
上传
评论
收藏 2.17MB PDF 举报
温馨提示
试读
50页
web前端-基于CSS选择器的Web信息抽取的研究与实现.pdf
资源推荐
资源详情
资源评论
I!
摘 要
随着 Web2.0 的兴起和移动互联网出现的普及,互联网已经逐渐成为人们获取信息
的主要渠道。各类 UGC(User Generated Content)网站的流行,使得互联网上产生了大
量由用户产生的内容。但是随着 Web 数据的爆炸式增长,获取所需的 Web 信息变得更
加困难,Web 信息抽取技术的研究也随之展开。近年来,Web 信息抽取的方法不断被提
出,然而这些抽取方法在实现上各有侧重,在抽取的自动化程度和适用性等方面有很大
的提升空间。
本文研究并提出了一种基于 CSS 选择器的 Web 信息抽取方法,该方法在 MDR 算
法的基础上,结合了 CSS 的相关特性,有更广泛的适用性。并结合较新的 MVVM 设计
模式,以低耦合的方式实现了基于该方法 Web 信息抽取系统。抽取系统采用了用户标
记的形式来获取数据记录的特征属性。这一方式相较与传统的基于 DOM 的 Web 信息抽
取方法,在网页结构发生变化时,也能保证抽取的正确性和有效性。同时为了保证抽取
的完备性,设计了基于 CSS 选择器的抽取方法和 URL 比较法相结合的相似页面 URL
获取方法。经过抽取实验表明,抽取系统对于多页面的 Web 信息抽取也有较好的抽取
效果。基于 MVVM 设计模式开发的抽取系统有着更低的耦合性,这使得后续对抽取系
统进行扩展成为可能。本文最后使用该抽取系统对亚马逊网站的商品评论信息进行抽取
实验,证明了抽取方法和抽取系统设计的有效性。
关键词:Web 信息抽取 CSS 选择器 MDR 算法 MVVM
I
I!
Abstract
With the rise of Web2.0 and the popularity of mobile Internet, the Internet has become
the main channel for people to obtain the information. Various types of UGC (User Generated
Content), website popularity, generated a lot of user-generated content on the Internet. But
with the explosion of Web data, accessing to Web information needed is becoming more and
more difficult. Web information extraction technology research has been expanded. In recent
years, Web information extraction methods have been proposed, but have different emphases
on these extraction methods in achieving in their degree of automation and applicability has
great room for improvement.
This study proposed a method for Web information extraction based on CSS selectors,
on the basis of the MDR, and combines the characteristics of CSS, have broader applicability.
And combined with a new MVVM design pattern in a loosely coupled manner to achieve a
Web information extraction system based on this method. Extraction system uses the user’s
input to obtain characteristics of a data record in a form of attributes. This approach compared
with the traditional methods of Web information extraction based on DOM, when the page
structure changes, can guarantee the validity and correctness of the extraction. In order to
ensure the completeness of extraction, design extraction methods based on CSS selectors, and
URL comparison method is similar to the page URL get method. After extraction experiments
showed that the extraction system for multiple pages of Web information extraction have
better extraction results. Extraction system of the MVVM design pattern based development
has lower coupling, which makes it possible for subsequent expansion of the extraction
system. And the extraction system was used on the Amazon product review information
extraction experiments to demonstrate the effectiveness of the extraction method and
extraction system.
Key words: Web Information Extraction; CSS Selector; MDR; MVVM
I
I
I!
目 录
摘 要 ...................................................... I!
Abstract ................................................... II!
1! 绪论 ..................................................... 1!
1.1! 研究背景及意义 ................................................... 1!
1.2 研究现状 ......................................................... 1!
1.3 本文的研究内容与结构 ............................................. 7!
2! 基于 CSS 选择器的 Web 信息抽取方法 ........................... 9!
2.1 抽取方法的主要概念 ............................................... 9!
2.2 MDR 抽取算法 .................................................... 14!
2.3 抽取方法的处理流程 .............................................. 18!
2.4 结合 URL 比较法获取相似页面 ...................................... 25!
3! 抽取系统的设计与实现 ..................................... 29!
3.1 系统的架构 ...................................................... 29!
3.2 系统开发框架的选取 .............................................. 32!
3.3 系统的实现 ...................................................... 35!
4! 亚马逊网站商品评论信息的抽取实验 .......................... 38!
4.1 抽取实验的操作步骤 .............................................. 38!
4.2 抽取实验的结果与系统评价 ........................................ 42!
5! 总结与展望 .............................................. 44!
5.1 总结 ........................................................... 44!
5.2 展望 ........................................................... 45!
致 谢 ..................................................... 46!
参考文献 .................................................... 47!
1!
1 绪论
1.1 研究背景及意义
随着 Web2.0 的兴起和移动互联网的出现,互联网已经逐渐成为人们获取信息的主
要方式之一。各类 UGC(User Generated Content)网站日益流行的同时,互联网上产生
了大量由用户产生的内容,例如用户留言、商品评论等。Web 上的信息资源不断丰富、
信息扩散速度不断提升的同时,Web 信息过载、信息质量降低等问题也日益严重,用户
获取有效信息变得更加困难。
[1]
在互联网上,信息大多以 HTML 网页的形式呈现。HTML 文档本身是一种半结构
化(semi-structured)数据
[2]
,这种数据格式更适合用户去浏览,而不便于由机器直接读
取分析。此外,由于视觉美观和商业需求,现代的 Web 网页的 HTML 结构中包含了大
量与主题内容无关的信息,如网络广告、版权信息等。从分散在互联网中的半结构化的
HTML 中抽取结构化的有用信息是信息搜索(Information Search)、数据挖掘(Data
Mining)、机器翻译(Machine Transition)和文本摘要(Text Digest)等 Web 信息处理
的基础
[3]
。这些因素推动了 Web 信息抽取技术不断发展。随着 CSS、JavaScript 等互联
网新技术的出现和 MVC、MVVM 等开发模式的流行,网页的结构和形式在不断变化,
Web 信息抽取技术也必须随之进步以保证其对新网站适应性。
综合以上所述,对 Web 信息抽取的研究是有实际意义的。
1.2 研究现状
1.2.1 Web 信息抽取研究综述
信息抽取的概念早在上世纪 60 年代开始被学者提出,最早的研究是从自然语言文
本中提取结构化信息的相关技术
[4]
。随着在线和离线文本数量的几何级增长,信息抽取
的研究工作逐渐受到研究者的关注。消息理解系列会议(MUC,Message Understanding
Conference)召开以来,信息抽取技术相关的研究不断发展,现在已经成为了自然语言
2!
处理领域的一个重要研究方向之一。而随着互联网的出现和普及,Web 信息抽取技术的
研究也开始受到关注并不断发展。Web 信息抽取(WIE,Web Information Extraction)
的概念通常被定义为:通过一定的抽取方法从网页中获取特定信息,将这些信息转化为
结构化的数据以供用户获取使用的过程
[5]
。目前网页大部分以 HTML 文档的形式呈现,
而 HTML 本身是一种半结构化数据,使得它更适合人类阅读而难以由机器直接进行归
纳分析。所以如何从网页中的半结构化的信息中识别出特定的内容,在此基础上运用工
具和方法进一步将这部分内容转化成结构化、语义化的数据格式提供给用户,正是 Web
信息抽取技术所要解决的问题。
早期最基本的 Web 信息抽取主要由包装器(wrapper)来实现网页数据的抽取,运
用包装器归纳系统来抽取信息首先需要生成对应的模板。在早期的包装器系统中,这一
步骤需要依靠人工逐一对网页进行标记来完成,如 Stalker
[6]
等,十分耗费人力且不易于
维护。AutoWrapper
[7]
等相对较新的包装器系统提出了半自动化的模板生成方式。这类
新系统的半自动化体现在其网页标记过程只需要人工对单一的样本网页进行标记,标记
完成后系统就可以根据用户标记过的样本网页来学习抽取模式。但在适应性上存在缺
陷,AutoWrapper 这类抽取系统只适用于已经淘汰的<table>布局网页。基于包装器的抽
取方法具有准确性高、适用性窄、可维护性差的特点。
Sun 等人
[8]
针对<table>布局的网站提出了以字符串统计为基础的抽取方法,该方法
通过过滤网页中<table>所在区域内的 HTML 标签得到只包含主题信息的字符串,然后
按照字符串进行排序,与某一阈值进行比较来进行网页信息的抽取。这类方法对于
<table>布局的网页的抽取有着较高的准确率,但当前的网页设计中已经不再使用<table>
标签进行布局。这类抽取方法有很大的局限性。
Wang 等人
[9]
提出了 DSE(data-rich section extration)算法。该算法基于页面内的出
链的方式找到需要抽取的网页。并提出了 URL 的相似性算法来筛除广告链接等无关链
接。该方法对于每个带抽取网页都需要重复进行处理,抽取效率较低。
RoadRunner
[10]
系统中提出了基于 DOM 树比较的算法。该方法通过处理 DOM 树之
间的不匹配来标记带抽取区域。但对于网页的规范化要求较高,而且没有提出网页预处
理方案。
剩余49页未读,继续阅读
资源评论
programhh
- 粉丝: 8
- 资源: 3838
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 学生成绩管理系统-C++版本
- 吉林大学离散数学2笔记.pdf
- 通道处理过程的模拟通常涉及对通道处理机制的理解与实现.txt
- Flume进阶-自定义拦截器jar包
- Dubins曲线算法讲解和在运动规划中的使用.pdf
- 上市公司-股票性质数据-工具变量(民企、国企、央企)2003-2022年.dta
- 上市公司-股票性质数据-工具变量(民企、国企、央企)2003-2022年.xlsx
- Reeds+Shepp曲线算法讲解和实现.pdf
- 毕业设计基于SpringBoot+MyBatisPlus+MySQL+Vue的外卖配送信息系统源代码+数据库
- 词向量(Word Embeddings)是自然语言处理(NLP)领域的一种重要技术.txt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功