一种基于扩展DOM树的Web数据自动抽取方法(2009年)资源-CSDN文库

工程技术

论文

需积分: 10 36 浏览量 2021-05-30 12:37:46 上传评论 1 收藏 168KB PDF 举报

资源推荐

资源详情

资源评论

第  卷第  期

应用科技

Ｖｏｌ 

 年  月ＡｐｐｌｉｅｄＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙＡｕｇ

ｄｏｉ ｊｉｓｓｎ Ｘ

一种基于扩展ＤＯＭ树的Ｗｅｂ数据自动抽取方法

陈远斌

哈尔滨工程大学网络信息中心黑龙江哈尔滨 

摘要Ｗｅｂ数据抽取是当前的一个研究热点目前还没有统一有效的抽取方法在此提出一种研究思路首先

将Ｗｅｂ页面的ＤＯＭ树进行扩展添加视觉特征和链接特征然后计算多个相似页面的扩展ＤＯＭ树中节点和

子树的新颖度接着由新颖度识别对象数据并且依据数据项角色抽取出数据最后将对象数据保存为ＸＭＬ文

档通过实验分析验证了这个方法具有较好的抽取效果

关键词Ｗｅｂ数据抽取扩展ＤＯＭ树新颖度

中图分类号ＴＮ文献标识码Ａ文章编号     

ＡｕｔｏｍａｔｉｃａｌｌｙｅｘｔｒａｃｔｉｎｇｗｅｂｄａｔａｂａｓｅｄｏｎｅｘｐａｎｄｅｄＤＯＭｔｒｅｅ

ＣＨＥＮＹｕａｎｂｉｎ

Ｎｅｔｗｏｒｋ＆ＩｎｆｏｒｍａｔｉｏｎＣｅｎｔｅｒ ＨａｒｂｉｎＥｎｇｉｎｅｅｒｉｎｇＵｎｉｖｅｒｓｉｔｙ Ｈａｒｂｉｎ  Ｃｈｉｎａ

Ａｂｓｔｒａｃｔ Ｗｅｂｄａｔａｅｘｔｒａｃｔｉｏｎｉｓａｈｏｔｓｐｏｔｏｆｒｅｓｅａｒｃｈｎｏｗａｄａｙｓ ｈｏｗｅｖｅｒ ｔｈｅｒｅｉｓｎｏｕｎｉｆｏｒｍａｎｄｅｆｆｅｃｔｉｖｅｅｘ

ｔｒａｃｔｉｏｎｍｅｔｈｏｄｕｐｔｏｎｏｗＴｈｉｓｐａｐｅｒｐｒｅｓｅｎｔｓａｒｅｓｅａｒｃｈｉｄｅａＡｔｆｉｒｓｔ ＷｅｂｐａｇｅＤＯＭｄｏｃｕｍｅｎｔｏｂｊｅｃｔｍｏｄｅｌ

ｔｒｅｅｗａｓｅｘｐａｎｄｅｄａｎｄａｄｄｅｄｗｉｔｈｖｉｓｕａｌｆｅａｔｕｒｅｓａｎｄｌｉｎｋｓｆｅａｔｕｒｅｓ ｔｈｅｎｔｈｅｎｏｄｅｓａｎｄｓｕｂｔｒｅｅｓ ｎｏｖｅｌｔｙｄｅｇｒｅｅ

ｏｆｓｏｍｅｓｉｍｉｌａｒｐａｇｅｓ ｅｘｐａｎｄｅｄＤＯＭｔｒｅｅｗｅｒｅｃａｌｃｕｌａｔｅｄ ａｎｄｔｈｅｎｔｈｅｏｂｊｅｃｔｄａｔａｗｅｒｅｉｄｅｎｔｉｆｉｅｄｉｎｔｈｅｌｉｇｈｔｏｆ

ｓｕｂｔｒｅｅｓ ｎｏｖｅｌｔｙａｎｄｄａｔａｗｅｒｅｅｘｔｒａｃｔｅｄａｃｃｏｒｄｉｎｇｔｏｔｈｅｒｏｌｅｏｆｄａｔａ ｆｉｎａｌｌｙｔｈｅｏｂｊｅｃｔｄａｔａｗｅｒｅｓａｖｅｄａｓＸＭＬ

ｄｏｃｕｍｅｎｔｓＴｈｅｅｘｐｅｒｉｍｅｎｔａｌａｎａｌｙｓｉｓｖａｌｉｄａｔｅｓｔｈａｔｔｈｉｓｍｅｔｈｏｄｈａｓｂｅｔｔｅｒｅｆｆｅｃｔｏｆｄａｔａｅｘｔｒａｃｔｉｏｎ

ＫｅｙｗｏｒｄｓＷｅｂｄａｔａｅｘｔｒａｃｔｉｏｎｅｘｐｅｎｄｅｄＤＯＭｔｒｅｅ  ｎｏｖｅｌｔｙｄｅｇｒｅｅ

收稿日期

作者简介陈远斌 男研究实习员主要研究方向数据库与知识库Ｅｍａｉｌｙｕａｎｂｉｎｈｒｂｅｕｅｄｕｃｎ

Ｗｅｂ数据抽取技术己经在数据库领域信息检

索领域引起广泛关注大部分的研究工作致力于

Ｗｅｂ页面搜索算法的研究ＨＴＭＬ包装器Ｗｒａｐｐｅｒ

的设计等

一些研究者基于ＸＭＬ结构化的特点提出将

ＨＴＭＬ转化为ＸＭＬ数据然后在ＸＭＬ数据中推导

数据抽取规则通常由包装器来完成从ＨＴＭＬ到

ＸＭＬ的转换 如ＷＦ



 Ｘｗｒａｐ



 ＲｏａｄＲｕｎｎｅｒ



等

许多研究者致力于面向网页内容的主题提取研

究目标是提取主题内容或兴趣区域Ｆｉｎｎ



将ＨＴ

ＭＬ文档用字符和标签表示在字符集中提取文字

Ｋａａｓｉｎｅｎ



提出ＤｅｓｋＣａｒｄ模型将网页分为多个

Ｃａｒｄ减少Ｃａｒｄ得到主题Ｂｕｙｕｋｋｏｋｔｅｎ



提出语义

块模型ＳＴＵ同样采用了网页分块的思想进行主

题发现

利用树结构来推导抽取规则是一种常用的办

法 例如基于树结构的Ｗｅｂ数据抽取方法

 

是将

一个页面按照语义块来构造树基于标记树的Ｗｅｂ

信息抽取技术



建立一种ＨＴＭＬ标记树然后映射

到一个半结构化语法树 通过归纳学习得到公共路

径这些方法研究对象格式固定且在推导时需要人

工指导当遇到页面结构发生变化时就显得能力不

足

提出基于树结构的Ｗｅｂ对象数据自动检测及

抽取通过自动化的计算树结构中节点和子树出现

频率进行数据抽取提高抽取的自动化程度抽取结

果输出为ＸＭＬ文档

基于扩展ＤＯＭ树的Ｗｅｂ数据抽取

网页特征分析

网页的结构特征包括标签特征视觉特征和链

接信息特征标签特征主要体现ＨＴＭＬ代码中分块

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

评论收藏

内容反馈

weixin_38637764

粉丝: 10
资源: 953

一种基于扩展DOM树的Web数据自动抽取方法 (2009年)

最新资源

一种基于扩展DOM树的Web数据自动抽取方法 (2009年)

基于DOM的Web信息自动抽取

一种基于树结构的Web数据自动抽取方法.pdf

一种基于模板的快速网页文本自动抽取算法* (2009年)

一种基于知识工程的DeepWeb信息抽取方法.pdf

基于DOM的WEB信息抽取方法研究

一种基于XML的Web信息抽取方法.pdf

基于单DOM树特征预分类的自适应Web信息抽取方法

一种基于分块的Web数据实体抽取方法

基于改进的网络蜘蛛算法抽取Web站点结构的方法 (2009年)

电信设备-一种基于网页聚类的Web信息自动抽取方法.zip

基于节点属性与正文内容的海量Web信息抽取方法

Deep+Web数据抽取关键技术研究

基于蚂蚁算法的Deep Web页面信息抽取方法研究

web前端-基于CSS选择器的Web信息抽取的研究与实现.pdf

基于DOM 的Web 信息提取

基于属性标签的Web数据挖掘.pdf

基于DOM树和视觉特征的网页信息自动抽取.txt

基于虚拟DOM的空间数据列表渲染方法研究与实现.pdf

基于HTMLParser的Web信息抽取系统的设计与实现

web 信息抽取

最新资源