没有合适的资源?快使用搜索试试~ 我知道了~
一种混合属性数据流聚类算法_杨春宇1
需积分: 0 0 下载量 48 浏览量
2022-08-04
13:13:36
上传
评论
收藏 438KB PDF 举报
温馨提示
试读
8页
研究背景数据流聚类的一个典型算法是 Guha 等提出的[ 5] .这种算法根据分治原理 , 利用有限的空间对数据流进行分层次的聚类 .Aggarw al 指出上
资源推荐
资源详情
资源评论
第 30 卷第 8 期
2007 年 8 月
计 算机 学报
CH IN ESE JOU RNA L OF COM P UT E RS
Vo l30 N o 8
A ug 2007
收稿日期 20070305 修改稿收到日期 20070604 杨春宇 1982 年生 博士研究生 研究兴趣包括数据挖掘 机器学习等 Em ail yang
chunyu mails t hu edu cn 周杰 1968 年生 教授 博士生导师 研究领域包括模式识别 信息融合 图像处理和计算机视觉
一种混合属性数据流聚类算法
杨春宇 周 杰
清华大学自动化系 北京 100084
摘要数据流聚类是数据流挖掘中的重要问题现实世界中的数据流往往同时具 有连续 属性和 标称属 性 但现
有算法局限于仅处理其中一种属性 而对另一种 采取简单舍 弃的办 法 目前还没有能在算法层次上进行混合属性
数据流聚类的算法文中提出了一种针对混合属性数据流 的聚类算法 建立了数据流到达的泊松过程模型用频 度
直方图对离散属性进行了描述给出了混合属性条 件下微 聚类生 成 更 新 合并和删除算法在公共数据集上的实
验表明 文中提出的算法具有鲁棒的性能
关键词数据挖掘数据流 聚类分析 混合属性泊松过程
中图法分类号 T P 311
A Heterogeneous Data Stream Clustering Algorithm
YANG ChunYu Z HO U Jie
Dep art ment o f Aut omation Tsingh ua Un iversit y Beij ing 100084
Abstract Data stream clusteri ng is an impo rtant issue i n dat a stream mining M any realw orld
dat a streams have bo th continuous at tributes and categ orical at tri butes w hich are usually called
het erogeneo us att ributes H ow ever mo st o f t he existing stream mining alg orit hms can manipu
la te o nly conti nuous at tributes or catego rical att ributes T o our best know ledge t here is no algo
ri thm desig ned t o manipulate heterog eneous attributes Simply omi tting ca tego rical or continuo us
att ributes may lose im portant info rm atio n about the data stream and decrease the mining quali ty
This paper propo ses a novel approach for clustering data stream w ith heterogeneous feat ure s and
the Poisson Arrival model of the da ta st ream and g ives the updating algo rithm of the parameter
of the pro cess Secondly it defines t he histo gram description of t he discre te att ributes in M icro
C luster and corresponding distance met ric Finally it pro po ses the f ramew o rk describing the gen
erati on evolut ion mergi ng and deletion o f the M icro Clusters and desig ns t he detailed algo
ri thms f or each procedure Ex perimental results on public data set s sho w that the pro posed algo
ri thm i s robust
Keywords data mining data st ream clustering hete ro geneous at tributes Poisso n process
1 引 言
近年来 随着计算机技术 通信技术以及网络技
术的飞速发展 许多领域中出现了连续到达持续增
长动态演化的数据 数据流 典型例子包括电信
呼叫数据股票交易数据网站访问日志 互联网通
信数据 搜索引擎数据大型零售企业销售数据等
等
12
文献 2 给出了一个描述性的数据流定义 数
据流是指实时 连续 有序的数据序列 其中元素的
出现顺序速率与时刻均不可控制
数据流管理与分析是数据挖掘研究领域的热点
资源评论
航知道
- 粉丝: 25
- 资源: 302
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功