书书书
第 35卷第 2期 计算机应用与软件 Vol35 No.2
2018年 2月 ComputerApplicationsandSoftware Feb.20
18
全局模式下的深网数据抽取与挖掘
姚晓鹏
1,2
高圣兴
3
薛君志
1
陆敏超
1
1
(上海申腾信息技术有限公司 上海 200040)
2
(上海市计算技术研究所 上海 200040)
3
(浙江工商大学统计与数学学院 浙江 杭州 310018)
收稿日期:2017-05-08。上海市临港地区智能制造产业专项(ZN2016020103)。姚晓鹏,硕士生,主研领域:数据科学与信息
技术。高圣兴,硕士生。薛君志,工程师。陆敏超,助理工程师。
摘 要 随着现代信息量的快速增长,深网作为网络数据载体包含了大量数据,因此,对深网数据抽取的研究
十分重要。提出一种全局模式下的数据抽取和挖掘的方法。该方法分析实际例子的属性,运用改进的贝叶斯信
念网络算法,确定相应的标签,构建一个动态的全局模式,接着抽取并识别结果页面中的数据;根据基于密度的离
群点来检测并剔除其中的无用信息;运用挖掘布尔关联规则频繁项集的算法进行关联挖掘,整合数据项。实验结
果表明,该方法相对于其他几种数据抽取方法,能准确、快速、有效地抽取数据,并且通过数据挖掘后得到数据项
间的关联性较大,无效信息更少。
关键词 深网 全局模式 数据抽取 数据挖掘
中图分类号 TP301.6 文献标识码 A DOI:10.3969/j.issn.1000386x.2018.02.016
DEEPWEBDATAEXTRACTIONANDMINING INGLOBALMODE
YaoXiaopeng
1,2
GaoShengxing
3
XueJunzhi
1
LuMinchao
1
1
(ShanghaiShenTengInformationTechnologyCo.,Ltd.,Shanghai200040,China)
2
(ShanghaiInstituteofComputingTechnology,Shanghai200040,China)
3
(SchoolofStatisticsandMathematics,ZhejiangGongshangUniversity,Hangzhou310018,Zhejiang,China)
Abstract Withtherapiddevelopmentofmoderninformation,deepwebasanetworkdatacarriercontainsalarge
amountofdata,soitisveryimportanttostudythedeepwebdataextraction.Inthispaper,amethodofdataextraction
andmininginglobalpatternwasproposed.Themethodanalyzedthepropertiesoftheactualexamples,usedthe
improvedBayesianbeliefnetworkalgorithm,determinedthecorrespondinglabels,andconstructedadynamicglobal
pattern.Itextractedandidentifiedthedataintheresultpage,detectedandremovedtheuselessinformationbasedonthe
densitybasedoutliers.Weusedthealgorithm ofminingthefrequentitemsetsofBooleanassociationrulestominethe
data.Experimentalresultsshowedthattheproposedmethodextracteddataaccurately,quicklyandeffectivelycompared
withothermethods,andthroughthedatamining,thedataitemhadstrongrelevanceandlessinvalidinformation.
Keywords Deepweb Globalschema Dataextraction Datamining
0 引 言
深网是相对于表层网络而言的,不能被传统的搜
索引擎索引到信息资源的,指的是互联网中可访问的
在线数据库。其内容存储在真正的数据库中,但这些
内容只有在递交查询后才会由 Web服务器动态生成
页面把结果返回给访问者的网站。
深网的研究目前主要分为两个方面:(1)深网的
规模、分布和结构的研究。美国 BrightPlanet公司,专
门从事数据整合和企业信息分析,开发了深网检索平
台工具 DQM。此外,还对深网的规模和相关性进行了
研究,并发布了调查白皮书。(2)深网信息搜索中的
关键技术的研究。目前主要的关键技术有 DeepWeb