5.3 使用 K-均值算法把表 5-3 中的 8 个点聚为 3 个簇,假设第一次迭代选择序号 1、序
号 4 和序号 7 当作初始点,请给出第一次执行后的 3 个聚类中心以及聚类最终的 3 个簇。
表 5-3 样本数据 1
序号
属性
1
属性
2
序号
属性
1
属性
2
l
2
10
5
7
5
2
2
5
6
6
4
3
8
4
7
1
2
4
5
8
8
4
9
解:
假设每个对象有 m 个属性,可以把一个对象视为 m 维空间的一个点,n 个对象就是 m 维空
间的 n 个点。
K-均值聚类方法目标函数:
2
1
||
i
k
i
i p C
E p m
,E 表示距离,p 是聚类对象,
i
m
是类
i
C
的各聚类对象的平均值,
| C |
i
pC
i
i
p
m
,其中|
i
C
|表示类
i
C
的聚类对象数目。
如:序号 1 和序号 2 的距离=
22
(2 2) (5 10) 25
。
k-means(n=8,k=3)主要步骤:
第一次迭代:假设第一次选择序号 1、序号 4 和序号 7,分别找到离三点最近的对象,并产
生三个簇{1}、{3,4,5,6,8}和{2,7},具体计算见下表:
需划分类的节点
假设选择类
距离
2
1
25
4
18
7
10(归类)
3
1
72
4
25(归类)
7
53
5
1
50
4
13(归类)
7
45
6
1
52
4
17(归类)
7
29
8
1
5
4
2(归类)
7
58
对于产生的簇分别计算平均值,得到平均值点(将属性值直接平均即可):
{1}->{2,10}
{3,4,5,6,8}->{6,6}
{2,7}->{1.5,3.5}