没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![m](https://img-home.csdnimg.cn/images/20210720083646.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083646.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083646.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083646.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/release/download_crawler_static/22673744/bg1.jpg)
K-means 聚类算法研究综述
摘要:总结评述了 K-means 聚类算法的研究现状,指出 K-means 聚类算法是一个 NP 难优化问题,无法获得全局最优。介绍
了 K-means 聚类算法的目标函数,算法流程,并列举了一个实例,指出了数据子集的数目 K,初始聚类中心选取,相似性
度量和距离矩阵为 K-means 聚类算法的 3 个基本参数。总结了 K-means 聚类算法存在的问题及其改进算法,指出了 K-means
聚类的进一步研究方向。
关键词:K-means 聚类算法;NP 难优化问题;数据子集的数目 K;初始聚类中心选取;相似性度量和距离矩阵
Review of K-means clustering algorithm
Abstract: K-means clustering algorithm is reviewed. K-means clustering algorithm is a NP hard optimal problem and global
optimal result cannot be reached. The goal, main steps and example of K-means clustering algorithm are introduced. K-means
algorithm requires three user-specified parameters: number of clusters K, cluster initialization, and distance metric.
Problems and improvement of K-means clustering algorithm are summarized then. Further study directions of K-means
clustering algorithm are pointed at last.
Key words: K-means clustering algorithm; NP hard optimal problem; number of clusters K; cluster initialization; distance metric
K-means 聚类算法是由Steinhaus 1955 年、Lloyed 1957
年、Ball & Hall 1965 年、McQueen 1967 年分别在各自的
不同的科学研究领域独立的提出。K-means 聚类算法被提出
来后,在不同的学科领域被广泛研究和应用,并发展出大量
不同的改进算法。虽然K-means 聚类算法被提出已经超过
距离判断准则,计算该类内各点到聚类中心
的距离平方
i
和
(1)
J(c )
x
2
k
i
k
x C
i
i
K
聚类目标是使各类总的距离平方和 (C)
J
(c ) 最
J
k
k1
小。
1
50 年了,但目前仍然是应用最广泛的划分聚类算法之一 。
[ ]
2
d x
2
K
K
K
n
J
(C)
J(c )
x
容易实施、简单、高效、成功的应用案例和经验是其仍然流
行的主要原因。
k
i
k
ki
i
k
k1
k1 x C
k1 i1
i
i
(2)
文中总结评述了K-means 聚类算法的研究现状,指出
K-means 聚类算法是一个NP 难优化问题,无法获得全局最
优。介绍了K-means 聚类算法的目标函数、算法流程,并
列举了一个实例,指出了数据子集的数目 K、初始聚类中
心选取、相似性度量和距离矩阵为K-means 聚类算法的3
个基本参数。总结了K-means 聚类算法存在的问题及其改
进算法,指出了K-means 聚类的进一步研究方向。
1 若
x c
,
显然,根据最小二乘
其中,d
i
i
0 若
x c
ki
i
i
法和拉格朗日原理,聚类中心
应该取为类别
c
类各数
k
k
据点的平均值。
K-means 聚类算法从一个初始的K 类别划分开始 ,然
后将各数据点指派到各个类别中,以减小总的距离平方和。
因为K-means 聚类算法中总的距离平方和随着类别个数K
n
时,
J
(C) 0)
1 经典 K-means 聚类算法简介
的增加而趋向于减小(当K
。因此,
1.1 K-means 聚类算法的目标函数
总的距离平方和只能在某个确定的类别个数K 下,取得最
小值。
对于给定的一个包含n 个 d 维数据点的数据集
X {x ,x ,,x ,,x }
,其中
R
,以及要生成
x
d
1
2
i
n
i
1.2 K-means 算法的算法流程
的数据子集的数目K,K-means 聚类算法将数据对象组织为
K-means 算法是一个反复迭代过程,目的是使聚类域中
c
K 个划分C {c ,i 1,2, K}。每个划分代表一个类
,
k
k
所有的样品到聚类中心距离的平方和J
(C)
最小,算法流程
每个类
c
有一个类别中心
。选取欧氏距离作为相似性和
k
i
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/6d4a39ec593a4e2fbcf3d53e4855e565_cqn2bd2b.jpg!1)
苦茶子12138
- 粉丝: 1w+
- 资源: 6万+
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)