第 卷第 期
应 用 科 技
Vol
年 月 AppliedScienceandTechnology Aug
doi jissn X
一 种 基 于 扩 展 DOM 树 的 Web 数 据 自 动 抽 取 方 法
陈远斌
哈尔滨工程大学 网络信息中心黑龙江 哈尔滨
摘要Web 数据抽取是当前的一个研究热点目前还没有统一有效的抽取方法在此提出一种研究思路首先
将 Web 页面的 DOM 树进行扩展添加视觉特征和链接特征然后计算多个相似页面的扩展 DOM 树中节点和
子树的新颖度接着由新颖度识别对象数据并且依据数据项角色抽取出数据最后将对象数据保存为 XML 文
档通过实验分析验证了这个方法具有较好的抽取效果
关键词Web 数据抽取扩展 DOM 树新颖度
中图分类号TN文献标识码A文章编号
Auto matically extracting web data based on expanded DOM tree
CHEN Yuanbin
Network & Information Center Harbin Engineering University Harbin China
Abstract Web data extraction is a hotspot of research nowadays however there is no uniform and effective ex
traction method up to nowThis paper presents a research ideaAt first Web page DOMdocument object model
tree was expanded and added with visual features and links features then the nodes and sub trees novelty degree
of some similar pages expanded DOM tree were calculated and then the object data were identified in the light of
sub trees novelty and data were extracted according to the role of data finally the object data were saved as XML
documentsThe experimental analysis validates that this method has better effect of data extraction
KeywordsWeb data extractionexpended DOM tree novelty degree
收稿日期
作者简介陈远斌 男研究实习员主要研究方向数据库与知识库Emailyuanbinhrbeueducn
Web 数据抽取技术己经在数据库领域信息检
索领域引起广泛关注大部分的研究工作致力于
Web 页面搜索算法的研究HTML 包装器Wrapper
的设计等
一些研究者基于 XML 结构化的特点提出将
HTML 转化为 XML 数据然后在 XML 数据中推导
数据抽取规则通常由包装器来完成从 HTML到
XML 的 转 换 如 WF
Xwrap
RoadRunner
等
许多研究者致力于面向网页内容的主题提取研
究目标是提取主题内容或兴趣区域Finn
将 HT
ML 文档用字符和标签表示在字符集中提取文字
Kaasinen
提出 DeskCard 模型将网页分为多个
Card减少 Card 得到主题Buyukkokten
提出语义
块模型STU同样采用了网页分块的思想进行主
题发现
利用树结构来推导抽取规则是一种常用的办
法 例如基于树结构的 Web 数据抽取方法
是将
一个页面按照语义块来构造树基于标记树的 Web
信息抽取技术
建立一种 HTML 标记树然后映射
到一个半结构化语法树 通过归纳学习得到公共路
径这些方法研究对象格式固定且在推导时需要人
工指导当遇到页面结构发生变化时就显得能力不
足
提出基于树结构的 Web 对象数据自动检测及
抽取通过自动化的计算树结构中节点和子树出现
频率进行数据抽取提高抽取的自动化程度抽取结
果输出为 XML 文档
基于扩展DOM 树的 Web数据抽取
网页特征分析
网页的结构特征包括标签特征视觉特征和链
接信息特征标签特征主要体现 HTML 代码中分块