没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
第 24 卷第 1 期
2010 年 3 月
上海工程技术大学学报
JOURNA L OF S HANGH AI UNIVE RSI TY OF ENGINEE RING SCIENC E
Vol 24 No 1
M ar2010
文章编号 1009 444X201001 0047 04
收稿日期 2010 03 01
作者简介 庄怡雯1983 女 在读硕士 研究方向为数据挖掘 Emai l zyw 0911 126 com
指导教师 曹奇英1960 男 教授 硕博导师 研究方向为普适计算 智能信息处理等 Em ailcaoqiying dhu edu cn
基于 Python 的聚类分析及其应用
庄怡雯 吴金桥 黄润才 曹奇英
东华大学 计算机科学与技术学院 上海 201620
摘要 在研究聚类基本原理及相应算法的基础上 着重分析了层次聚类算法和 kmeans 分割聚
类算法 并比较了这两种算法的特点 结合 Py thon 语言的特点 编写程序实现了 kmeans 聚类算
法在博客数据集上的聚类应用 给出了详细的聚类实验结果分析
关键词聚类分析 Py thon 语言 层次聚类 kmeans 聚类
中图分类号 T P 39 文献标志码A
PythonBased Cluster Analysis and Its Application
ZH UANG Yiw en W U Jinqiao H UANG Runcai CAO Q iying
C ollege of C om put er Science and T ech nology D onghua University S han ghai 201620 C hina
Abstract Based o n the research of t he principle and alg orit hm s o f cluster analy sis the analy sis o f the hi
e rarchcal cluster alg orit hm and kmeans partitional cluster algo rithm w ere focused Characterist ics of tw o
algo rithms w ere co mpared Combination of Py thon language kmeans clustering alg orit hm w as imple
ment ed in a blo g dat a set and a detailed analysi s of experimental clustering result w as given
Key wordscluster analy sis Py tho n lang uage hierarchical clustering kmeans clustering
聚类作为数据挖掘中的一项重要技术 常被用
于大数据量的信息挖掘 如零售商可以利用聚类算
法跟踪消费者的购买行为 并据此策划相应的市场
策略 聚类属于无监督学习方法 无监督学习算法
的特点 即它不是利用带有正确答案的样本数据进
行训练 而是在一组数据中找到某种结构 数据本
身并不是要找的答案聚类算法的主要目的就是采
集数据 然后从中找出不同的群组
1 聚类算法
聚类原理是将大量未知的数据集按数据的内
在相似性划分为多个类别 使类别内的数据相似度
较大 而类别间的数据相似度较小通常 聚类算法
所需的数据预处理是定义一组公共的数值型属性
然后 利用这些属性对数据项进行比较
1 1 聚类的基本要素
1 1 1 聚类有效性函数
1在聚类算法的不同阶段会得到不同的类别
划分结果 可以通过聚类有效性函数来判断多个划
分结果中哪个是有效的
2使用有效性函数作为算法 停止的判别条
件 当类别划分结果达到聚类有效性函数时 即可
停止算法运行
资源评论
- m0_379865462021-01-11这个不值得41
你过来啊丶
- 粉丝: 1
- 资源: 8
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功