(8)可解释性:聚类的结果应该是可理解的、可解释的,以及可用的。
1.3 聚类应用
在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同
的客户群的特征。聚类分析是细分市场的有效工具,同时也可用于研究消费者行
为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。在生物上,
聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识。在
地理上,聚类能够帮助在地球中被观察的数据库商趋于的相似性。在保险行业上,
聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅
类型,价值,地理位置来鉴定一个城市的房产分组。在因特网应用上,聚类分析
被用来在网上进行文档归类来修复信息。在电子商务上,聚类分析在电子商务中
网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为
的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客
户,向客户提供更合适的服务。
2kmeans 算法
2.1 基本思想
划分聚类算法是根据给定的 个对象或者元组的数据集,构建 个划分聚类的
方法。每个划分即为一个聚簇,并且 。该方法将数据划分为 个组,每个组至少
有一个对象,每个对象必须属于而且只能属于一个组。 该方法的划分采用按照
给定的 个划分要求,先给出一个初始的划分,然后用迭代重定位技术,通过对
象在划分之间的移动来改进划分。
为达到划分的全局最优,划分的聚类可能会穷举所有可能的划分。但在实际操作
中,往往采用比较流行的 k-means 算法或者 k-median 算法。
2.2 算法步骤
k-means 算法最为简单,实现比较容易。每个簇都是使用对象的平均值来表示。
步骤一:将所有对象随机分配到 个非空的簇中。
步骤二:计算每个簇的平均值,并用该平均值代表相应的值。
步骤三:根据每个对象与各个簇中心的距离,分配给最近的簇。
步骤四:转到步骤二,重新计算每个簇的平均值。这个过程不断重复直到满足某
个准则函数或者终止条件。终止(收敛)条件可以是以下任何一个:没有(或者