没有合适的资源?快使用搜索试试~ 我知道了~
第9章rapidminer-k-means聚类.辨别分析v1.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
2 浏览量
2022-07-02
15:47:07
上传
评论
收藏 656KB DOCX 举报
。。。
资源推荐
资源详情
资源评论











第9章 K-Means 聚类、辨别分析
9.1 理解聚类分析
餐饮企业经常会碰到这样的问题:
1) 如何通过餐饮客户消费行为的测量,进一步评判餐饮客户的价值和对餐饮客户进
行细分,找到有价值的客户群和需关注的客户群?
2) 如何合理对菜品进行分析,以便区分哪些菜品畅销毛利又高,哪些菜品滞销毛利
又低?
餐饮企业遇到的这些问题,可以通过聚类分析解决。
9.1.1 常用聚类分析算法
与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组
的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在
无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根
据数据自身的距离或相似度将他们划分为若干组,划分的原则是组样本最小化而组间(外部)
距离最大化,如图 9-1 所示。
图 9-1 聚类分析建模原理
常用聚类方法见表 9-1。
表 9-1 常用聚类方法
类别
包括的主要算法

K-Means 算法(K-平均)、K-MEDOIDS 算法(K-中心点)、CLARANS
算法(基于选择的算法)
BIRCH 算法(平衡迭代规约和聚类)、CURE 算法(代表点聚类)、
CHAMELEON 算法(动态模型)
DBSCAN 算法(基于高密度连接区域)、DENCLUE 算法(密度分
布函数)、OPTICS 算法(对象排序识别)
基于密度的方法
STING 算法(统计信息网络)、CLIOUE 算法(聚类高维空间)、
WAVE-CLUSTER 算法(小波变换)
统计学方法、神经网络方法
基于网格的方法
基于模型的方法
常用聚类算法见表 9-2。
表 9-2 常用聚类分析算法
算法描述
K-均值聚类也叫快速聚类法,在最小化误差函数的基础上将数据划分为预定
的类数 K。该算法原理简单并便于处理大量数据。
K-均值算法对孤立点的敏感性,K-中心点算法不采用簇中对象的平均值作为
簇中心,而选用簇中离平均值最近的对象作为簇中心。
系统聚类也叫多层次聚类,分类的单位由高到低呈树形结构,且所处的位置越
系统聚类 低,其所包含的对象就越少,但这些对象间的共同特征越多。该聚类方法只适
合在小数据量的时候使用,数据量大的时候速度会非常慢。
9.1.2 K-Means 聚类算法
K-Means 算法是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数
据划分为预定的类数 K,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其
相似度就越大。
1. 算法过程
1) 从 N 个样本数据中随机选取 K 个对象作为初始的聚类中心;
2) 分别计算每个样本到各个聚类中心的距离,将对象分配到距离最近的聚类中;
3) 所有对象分配完成后,重新计算 K 个聚类的中心;
4) 与前一次计算得到的 K 个聚类中心比较,如果聚类中心发生变化,转 2),否则转
5);
5) 当质心不发生变化时停止并输出聚类结果。
聚类的结果可能依赖于初始聚类中心的随机选择,可能使得结果严重偏离全局最优分
类。实践中,为了得到较好的结果,通常以不同的初始聚类中心,多次运行 K-Means 算法。
在所有对象分配完成后,重新计算 K 个聚类的中心时,对于连续数据,聚类中心取该簇的
均值,但是当样本的某些属性是分类变量时,均值可能无定义,可以使用K-众数方法。

2. 数据类型与相似性的度量
(1) 连续属性
对于连续属性,要先对各属性值进行零-均值规,再进行距离的计算。K-Means 聚类算
法中,一般需要度量样本之间的距离、样本与簇之间的距离以及簇与簇之间的距离。
度量样本之间的相似性最常用的是欧几里得距离、曼哈顿距离和闵可夫斯基距离;样
( , )
本与簇之间的距离可以用样本到簇中心的距离
;簇与簇之间的距离可以用簇中心的
d e x
i
( , )
距离
。
d e e
i
j
用 个属性来表示 个样本的数据矩阵如下:
p
n
x
x
11
1
p
x
n1
x
n p
欧几里得距离
曼哈顿距离
d(i, j) (x x ) +(x x ) + +(x x )
(9-1)
(9-2)
2
2
2
i1
j1
i2
j2
ip
jp
d(i, j) |x x |+ |x x |+ +|x x |
i1
j1
i2
j2
ip
jp
闵可夫斯基距离
d(i, j) |(x x |) + (|x x |) + +(|x x |)
(9-3)
q
q
q
q
i1
j1
i2
j2
ip
jp
为正整数,
=1
时即为曼哈顿距离;q=2
时即为欧几里得距离。
q
q
(2) 文档数据
对于文档数据使用余弦相似性度量,先将文档数据整理成文档—词矩阵格式,如表 9-3。
表 9-3 文档—词矩阵
musi happ
coac
lost
win
team score
sad
…
c
8
1
3
y
7
16
14
h
6
7
5
文档一
文档二
文档三
14
1
9
2
13
6
8
3
7
0
4
7
10
4
8
…
…
…
两个文档之间的相似度的计算公式为:

i j
d(i, j) cos(i, j)
(9-4)
| i || j |
3. 目标函数
使用误差平方和 SSE 作为度量聚类质量的目标函数,对于两种不同的聚类结果,选择
误差平方和较小的分类结果。
连续属性的 SSE 计算公式为:
K
SSE
dist(e , x)
(9-5)
(9-6)
2
i
i1 xE
i
文档数据的 SSE 计算公式为:
K
SSE
cos(e , x)
2
i
i1 xE
i
簇
的聚类中心 计算公式为:
E
e
i
i
1
e
i
x
(9-7)
n
i
xE
i
表 9-4 符号表
符号
K
E
第 个簇
i
i
对象(样本)
x
簇 的聚类中心
E
i
n
i
第 个簇中样本的个数
i
下面结合具体案例来实现本节开始提出问题。
部分餐饮客户的消费行为特征数据如表 9-5。根据这些数据将客户分类成不同客户群,
并评价这些客户群的价值。
表 9-5 消费行为特征数据
R(最近一次消费时间间隔) F(消费频率)
M(消费总金额)
37
35
25
52
36
41
4
3
10
2
7
5
579
616
394
111
521
225
5
6
剩余15页未读,继续阅读
资源评论

是原来的你吗
- 粉丝: 3213
- 资源: 2万+

上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

会员权益专享
安全验证
文档复制为VIP权益,开通VIP直接复制
