sas与聚类分析.pdf资源-CSDN文库

版权申诉

23 浏览量 2022-11-13 18:06:23 上传评论收藏 923KB PDF 举报

资源推荐

资源详情

资源评论

1 聚类分析介绍

1.1 基本概念

聚类就是一种寻找数据之间一种内在结构的技术。聚类把全体数据实例组织

成一些相似组，而这些相似组被称作聚类。处于相同聚类中的数据实例彼此相同，

处于不同聚类中的实例彼此不同。聚类技术通常又被称为无监督学习，因为与监

督学习不同，在聚类中那些表示数据类别的分类或者分组信息是没有的。

通过上述表述，我们可以把聚类定义为将数据集中在某些方面具有相似性的

数据成员进行分类组织的过程。因此，聚类就是一些数据实例的集合，这个集合

中的元素彼此相似，但是它们都与其他聚类中的元素不同。在聚类的相关文献中，

一个数据实例有时又被称为对象，因为现实世界中的一个对象可以用数据实例来

描述。同时，它有时也被称作数据点（Data Point），因为我们可以用维空间

的一个点来表示数据实例，其中表示数据的属性个数。下图显示了一个二维数

据集聚类过程，从该图中可以清楚地看到数据聚类过程。虽然通过目测可以十分

清晰地发现隐藏在二维或者三维的数据集中的聚类，但是随着数据集维数的不断

增加，就很难通过目测来观察甚至是不可能。

1.2 算法概述

目前在存在大量的聚类算法，算法的选择取决于数据的类型、聚类的目的和

具体应用。大体上，主要的聚类算法分为几大类。

(8)可解释性：聚类的结果应该是可理解的、可解释的，以及可用的。

1.3 聚类应用

在商业上，聚类分析被用来发现不同的客户群，并且通过购买模式刻画不同

的客户群的特征。聚类分析是细分市场的有效工具，同时也可用于研究消费者行

为，寻找新的潜在市场、选择实验的市场，并作为多元分析的预处理。在生物上，

聚类分析被用来动植物分类和对基因进行分类，获取对种群固有结构的认识。在

地理上，聚类能够帮助在地球中被观察的数据库商趋于的相似性。在保险行业上，

聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组，同时根据住宅

类型，价值，地理位置来鉴定一个城市的房产分组。在因特网应用上，聚类分析

被用来在网上进行文档归类来修复信息。在电子商务上，聚类分析在电子商务中

网站建设数据挖掘中也是很重要的一个方面，通过分组聚类出具有相似浏览行为

的客户，并分析客户的共同特征，可以更好的帮助电子商务的用户了解自己的客

户，向客户提供更合适的服务。

2kmeans 算法

2.1 基本思想

划分聚类算法是根据给定的个对象或者元组的数据集，构建个划分聚类的

方法。每个划分即为一个聚簇，并且。该方法将数据划分为个组，每个组至少

有一个对象，每个对象必须属于而且只能属于一个组。该方法的划分采用按照

给定的个划分要求，先给出一个初始的划分，然后用迭代重定位技术，通过对

象在划分之间的移动来改进划分。

为达到划分的全局最优，划分的聚类可能会穷举所有可能的划分。但在实际操作

中，往往采用比较流行的 k-means 算法或者 k-median 算法。

2.2 算法步骤

k-means 算法最为简单，实现比较容易。每个簇都是使用对象的平均值来表示。

步骤一：将所有对象随机分配到个非空的簇中。

步骤二：计算每个簇的平均值，并用该平均值代表相应的值。

步骤三：根据每个对象与各个簇中心的距离，分配给最近的簇。

步骤四：转到步骤二，重新计算每个簇的平均值。这个过程不断重复直到满足某

个准则函数或者终止条件。终止（收敛）条件可以是以下任何一个：没有（或者

剩余18页未读，继续阅读

内容反馈

版权申诉

G11176593

粉丝: 6702
资源: 3万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip