如果对你有帮助,请下载使用!
有关k-均值聚类算法的理解
1.K-均值聚类算法的历史:
聚类分析作为一种非监督学习方法,是机器学习领域中的一个重
要的研究方向,同时,聚类技术也是数据挖掘中进行数据处理的重要
分析工具和方法。1967 年MacQueen 首次提出了K 均值聚类算法
(K-means算法)。到目前为止用于科学和工业应用的诸多聚类算法
中一种极有影响的技术。它是聚类方法中一个基本的划分方法,常常
采用误差平方和准则函数作为聚类准则函数
迄今为止,很多聚类任务都选择该经典算法,K-means算法虽然
有能对大型数据集进行高效分类的优点,但K-means算法必须事先确
定类的数目k,而实际应用过程中,k 值是很难确定的,并且初始聚
类中心选择得不恰当会使算法迭代次数增加,并在获得一个局部最优
值时终止,因此在实际应用中有一定的局限性。
半监督学习是近年来机器学习领域的一个研究热点,已经出现了
很多半监督学习算法,在很多实际应用中,获取大量的无标号样本非
常容易,而获取有标签的样本通常需要出较大的代价。因而,相对大
量的无标签样本,有标签的样本通常会很少。传统的监督学习只能利
用少量的有标签样本学习,而无监督学习只利用无标签样本学习。半
监督学习的优越性则体现在能同时利用有标签样本和无标签样本学
习。
1