聚类分析中的k-means算法资源-CSDN文库

5星 · 超过95%的资源需积分: 11 162 浏览量 2011-03-16 15:36:08 上传评论收藏 174KB DOC 举报

资源推荐

资源详情

资源评论

聚类分析法

百科名片

聚类分析法是理想的多变量统计技术，主要有分层聚类法和迭代聚类法。聚类

分析也称群分析、点群分析，是研究分类的一种多元统计方法。

目录

概述

方法

概述

方法

展开

编辑本段

概述

　　例如，我们可以根据各个银行网点的储蓄量、人力资源状况、营业面积、

特色功能、网点级别、所处功能区域等因素情况，将网点分为几个等级，再

比较各银行之间不同等级网点数量对比状况。

　　1、基本思想：我们所研究的样品（网点）或指标（变量）之间存在程

度不同的相似性（亲疏关系——以样品间距离衡量）。于是根据一批样品的

多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，

以这些统计量为划分类型的依据。把一些相似程度较大的样品（或指标）聚

合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另

一类，直到把所有的样品（或指标）聚合完毕，这就是分类的基本思想。在

聚类分析中，通常我们将根据分类对象的不同分为 Q 型聚类分析和 R 型聚类

分析两大类。

　　R 型聚类分析是对变量进行分类处理，Q 型聚类分析是对样本进行分类

处理。

　　R 型聚类分析的主要作用是： 1、不但可以了解个别变量之间的关系的

亲疏程度，而且可以了解各个变量组合之间的亲疏程度。

　　2、根据变量的分类结果以及它们之间的关系，可以选择主要变量进行

回归分析或 Q 型聚类分析。

　　Q 型聚类分析的优点是： 1、可以综合利用多个变量的信息对样本进行

分类； 2、分类结果是直观的，聚类谱系图非常清楚地表现其数值分类结果；

3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。

　　为了进行聚类分析，首先我们需要定义样品间的距离。常见的距离有：

① 绝对值距离 ② 欧氏距离 ③ 明科夫斯基距离 ④ 切比雪夫距离

在地理上

　　聚类能够帮助在地球中被观察的数据库商趋于的相似性

在保险行业上

　　聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组，同时

根据住宅类型，价值，地理位置来鉴定一个城市的房产分组

在因特网应用上

　　聚类分析被用来在网上进行文档归类来修复信息

在电子商务上

　　聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面，通

过分组聚类出具有相似浏览行为的客户，并分析客户的共同特征，可以更好

的帮助电子商务的用户了解自己的客户，向客户提供更合适的服务。

编辑本段

主要步骤

　　1. 数据预处理，

　　2. 为衡量数据点间的相似度定义一个距离函数，

　　3. 聚类或分组，

　　4. 评估输出。

　　数据预处理包括选择数量，类型和特征的标度，它依靠特征选择和特征

抽取，特征选择选择重要的特征，特征抽取把输入的特征转化为一个新的显

著特征，它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类，

数据预处理还包括将孤立点移出数据，孤立点是不依附于一般数据行为或模

型的数据，因此孤立点经常会导致有偏差的聚类结果，因此为了得到正确的

聚类，我们必须将它们剔除。

　　既然相类似性是定义一个类的基础，那么不同数据之间在同一个特征空

间相似度的衡量对于聚类步骤是很重要的，由于特征类型和特征标度的多样

性，距离度量必须谨慎，它经常依赖于应用，例如，通常通过定义在特征空

间的距离度量来评估不同对象的相异性，很多距离度都应用在一些不同的领

域，一个简单的距离度量，如 Euclidean 距离，经常被用作反映不同数据间

的相异性，一些有关相似性的度量，例如 PMC 和 SMC，能够被用来特征化

不同数据的概念相似性，在图像聚类上，子图图像的误差更正能够被用来衡

量两个图形的相似性。

　　将数据对象分到不同的类中是一个很重要的步骤，数据基于不同的方法

被分到不同的类中，划分方法和层次方法是聚类分析的两个主要方法，划分

方法一般从初始划分和最优化一个聚类标准开始。Crisp Clustering，它的

每一个数据都属于单独的类；Fuzzy Clustering，它的每个数据可能在任何

一个类中，Crisp Clustering 和 Fuzzy Clusterin 是划分方法的两个主要

技术，划分方法聚类是基于某个标准产生一个嵌套的划分系列，它可以度量

剩余16页未读，继续阅读

内容反馈

SUNTANGLE

2018-10-24

感谢分享，可以直接使用。

liguangming146

粉丝: 1
资源: 2

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip