K-means 分类器
1.1 题目的主要研究内容
(1)组的主要任务描述
学习 K-means 分类器的原理和算法流程;利用现有的任意公开数据集(自
己选取)实现分类器分类,并利用某种评价标准对分类结果进行分析评判。
(2)自己工作的主要描述
搜集资料,完成 PPT 的制作与演示
1.2 K-means 分类法背景与研究现状
(1)K-means 分类法背景
非监督分类是指人们事先对分类过程不施加任何的先验知识,而仅凭数据,
即自然聚类的特性,进行“盲目”的分类;其分类的结果只是对不同类别达到了
区分,但并不能确定类别的属性,虽然在非监督分类的结果中,我们不能知道所
分得的类别到底属于具体的哪一类,但是在非监督分类已经完成以后,往往我们
可以根据经验判断出每一个类别到底属于哪一类,或者有的时候,我们只需要利
用这个非监督分类的结果,而不用去管这个分类的每一类到底属于什么类别。对
于非监督分类,基本的方法就是 K-Means 分类法。
作为无监督聚类算法中的代表——K 均值聚类算法,该算法的主要作用是将
相似的样本自动归到一个类别中。所谓的监督算法,就是输入样本没有对应的输
出或标签。聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个
子集称为一个“簇”,聚类既能作为一个单独过程,用于找寻数据内在的分布结
构,也可作为分类等其他学习任务的前去过程。聚类算法也许是机器学习中“新
算法”出现最多、最快的领域,一个重要的原因是聚类不存在客观标准,给定数
据集总能从某个角度找到以往算法未覆盖的某种标准从而设计出新算法。
K-means 算法十分简单易懂而且非常有效,但是合理的确定 K 值和 K 个初始类
簇中心点对于聚类效果的好坏有很大的影响。
(2)K-means 分类器算法研究现状
评论0
最新资源