没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
第 卷第 期
智能系统学报
Vol
年 月
CAAI Transactions on Intelligent Systems
Jun
融 合 粒 子 群 算 法 改 进 XML 数 据 智 能 清 洗 策 略
刘 波
杨路明
邓云龙
中南大学 信息学院湖南 长沙 中南大学 湘雅附三医院湖南 长沙
摘要针对 XML 数据质量问题以 XML 键为基础借助多模板隐马尔可夫模型信息抽取策略与粒子群算法构建新
的 XML 数据清洗方法为了提高 XML 相似性数据并行检测效率尝试利用波函数对粒子群算法进行相应优化对比
其他 XML 数据清洗算法一系列仿真实验表明改进的 XML 数据清洗方法不仅自适应学习功能强人工参与程度低
计算量小而且时间性能有 左右提升
关键词XML 键粒子群算法数据清洗隐马尔可夫模型
中图分类号TP 文献标识码A文章编号
An intelligence data cleaning strategy for XML
database using PSO
LIU Bo
YANG Luming
DENG Yunlong
College of Information Science and Engineering Centralsouth University Changsha China The rd Xiangya Hospi
talCentralsouth University Changsha China
AbstractTo improve XML data quality this paper proposes a new XML data cleaning method based on XML
keys the information drawout strategy of multiple templates the hidden Markov model HMM and particle
swarm optimization PSOTo improve parallel efficiency when detecting similar XML records a wave function is
employed to improve the PSO algorithmA series of simulations indicated that compared with other XML data
cleaning algorithms the improved XML data cleaning algorithm has a more powerful adaptive learning capability
requires less human interaction and reduces computational time by about
KeywordsXML key particle swarm optimization data cleaning hidden Markov model
收稿日期
基金项目湖南信息职业学院科技创新资助项目 湖
南省教育厅科研基金资助项目c
通讯作者刘波Emailltboyahoocomcn
目前 Web 上已经积累了大量的 XML 数据这
些参差不齐的数据形成了许多脏数据它们会阻
碍商业应用因此需要对它们进行挖掘清洗这是
提高数据质量的关键由于国外信息化程度较高对
数据清洗的需求较为迫切因此当前的研究大多集
中在国外
随着国内信息化的快速发展对数据
清洗的研究也逐步展开并取得了骄人的成果
当前数据清洗的研究主要集中如下 特殊域清
洗主要解决某类特定应用域的数据清洗这是目前
研究得较多的领域也是应用最成功的一类 与
特定应用领域无关的数据清洗主要集中在清洗重
复的记录如郑仕辉提出的基于 XML 相似重复记录
检测方法
和陈伟提出的 XML 相似重复数据的清
理方法
等 数据清洗框架如陆凤霞提出的开
放式数据清理框架
王桐提出的基于改进粒子群
优化的结构聚类方法
Richi Nayak 根据语义和上
下文相似性对 XML 文档进行分级智能聚类等操
作
数据分析工具如 RieraLedesma 与 Salazar
Gonzlez 针对数据数清洗时局部错误数据提出的分
枝切割算法
和启发式求解算法
等 ETL 工
具如 Lee 根据数据挖掘过程的学习环境提出的诊
断预测与合成模型
等但这些研究或多或少存
在不完备的地方主要表现如下 数据清洗的研
究主要集中在字符型数据上识别其他字段之间的
关系异常还不成熟实用还需探索更灵活的清洗手
段和更实用的清洗算法尽管检测重复记录受到
很大的关注采取了许多措施但遭遇海量数据时
耗时太多检测效率与检测精度并不令人满意
大多数数据清洗工具都是针对特定的领域其应用
受到一定的限制虽然特定领域的数据清洗仍是应
用的重点但较通用的清洗解决方案会受到越来越
多的关注 国产的数据清洗工具还很少其主要
是研究重复记录的清洗问题目前还很少研究关于
不完整数据错误数据的清洗问题 目前数据清
洗的研究主要集中在结构化数据上而 XML 的通用
性自描述性等特征使它在互联网上得到了广泛的
应用其相应的 Web 数据越来越多而对它的数据
管理研究却滞后
针对以上分析本文将以 XML 键为基础讨论构
建 XML 数据清洗的过程
基本定义与 XML 键的获取
定义 脏数据
指不符合数据仓库或上层
应用逻辑规格的数据清洗过程中识别脏数据后将
会丢弃或转换用 DirtyData 表示
定义 清洗检查指检测出干净数据或脏数据
的过程用条件函数 condData
boolean 表示cond
data true 表示数据项 data 验证为脏数据data
DirtyDataconddata false 表示数据项 data 验证
为干净数据dataCleanData
定义 数据清洗
指从各种原始数据中抽
取出 干 净 数据的过程 可 以 形 式化表 示 为 Data
CleanRawData
CleanData
定义 XML 文档树指一棵 XML 文档树被定
义为 T V chllabval V
r
其中 V 为 XML 文档
树 T 中的节点集合Vr 为根结点chl 表子节点的集
合val 表从集合 V 到 E S AE 为元素名称集
合 S 指代PCDATA A 属性名称集合的映射函
数
针对 XML 树 T 及其对应的架构一个 XML 关
键字就是一个对 Hp
p
p
n
其中 H 是一
个路径表达式 Paths T p
p
p
n
是一个简
单路径表达式的集合其约束关系如下取出任意
个节点 n
n
H 对应 个节点集合对
n
p
i
n
p
i
这 个集合分别是从 n
n
沿着路径 p
i
所到达的节点的集合
定义 XML 候选键约束指给定 DTD D
EAPRr 任 意 的 XML 文 档 树 T D
PathsT为文档树 T 上的路径集合 是 XML 函数
依赖 XML functional dependency FD 集 K 是
FD
XML
集
的候选键当且仅当
K 是 Paths T 中元素构成的集合
存在路径 PP使得
PP和 K 构成 Paths T 的一个划分
P
i
P
i
PK
P
i
P
j
P
j
Pp
x
p
xn
使得p
x
p
xn
K
P
j
K 的任何真子集都不满足 和
根据上述的定义及约束条件 给出一个求解
FD
XML
集
的候选键算法
输入一个 FD
XML
集
路径集 Paths T
输出
的一个候选健 K
Finding a Candidate Key for XML
PathsT
初始化 LP
左部路径集RP
右部路径
集DP
双部路径集EP
外部路径集
P
EP
if DP then K
LP return K
else K
LP 所有右部路径的左部 路
径 P
RP
所有右部路径出现过的 FD
XML
的
约束
while
do
for each每个 FD
XML
p
x
p
xn
p
y
p
ym
in
中
K
K p
x
p
xn
p
x
p
xn
p
y
p
ym
for each p
y
p
ym
的 FD
XML
in RP
K
K 的左部路径
for each p
y
p
ym
的 FD
XML
in LP
return K
例下面选用英文的 ACMSIGMOD 的 XML 数
据集进行举例分析
CMSIGMOD 数据集是由
卷 XML 格式的 ACMSIGMOD 论文组成的其文档结
构如图 a所示
为了减少单个键值的操作冲突一般选择相应
一组 XML 键构成相应集合如图 a 对应键组合
sigmodrecord
issues
issue
volumesigmodrecord
issues
issue
number sigmodrecord
issues
is
sue
articles
article
titlesigmodrecord
issues
issue
articles
article
authors
author
第 期刘波等融合粒子群算法改进 XML 数据智能清洗策略
剩余7页未读,继续阅读
资源评论
weixin_38704870
- 粉丝: 6
- 资源: 999
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AI生成PPT(免费+收费)总汇
- CCD卷绕检测机sw18可编辑全套技术资料100%好用.zip
- 基于FPGA的自适应滤波器FIR IIR滤波器LMS NLMS RLS算法 FxLMS 分数阶 本设计是在FPGA开发板上实现一个自适应滤波器,只需要输入于扰信号和期望信号(混合信号)即可得到滤波输
- 单机版RS485集中抄表软件,集中抄读645-2007协议的智能电表,645-1997的没有测试过,不清楚能不能抄,本地485有线集中抄表,配合485转网络可实现远程抄表
- 数据分析-62-亿欧企业榜单探索
- AR贴膜主机(sw12可编辑+工程图)全套技术资料100%好用.zip
- 数据分析-63-基于逻辑回归模型的医疗数据分析(拟合度差)
- 半龙门伺服双点电阻焊机sw19全套技术资料100%好用.zip
- 板材定位送料机sw18全套技术资料100%好用.zip
- 黑猫消费者投诉数据集,数据量大概43000条
- 板料翻面滚筒输送机sw19可编辑全套技术资料100%好用.zip
- 2023胡润百富榜-品牌榜数据集
- 半自动螺钉拧紧机step全套技术资料100%好用.zip
- 永磁同步电机磁链、损耗计算模型,基于有限元仿真数据
- 玻璃清洗机器人sw18全套技术资料100%好用.zip
- labview编写的数据回放软件,支持多曲线回放,支持曲线缩放,支持曲线打标签,支持曲线勾选可见不可见,支持点击曲线加粗显示,支持点击曲线显示当前曲线Y标尺,支持曲线配置,支持红蓝标尺,支持曲线时间轴
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功