没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
聚类分析法
百科名片
聚类分析法是理想的多变量统计技术,主要有分层聚类法和迭代聚类法。 聚类
分析也称群分析、点群分析,是研究分类的一种多元统计方法。
目录
概述
方法
概述
方法
展开
编辑本段
概述
例如,我们可以根据各个银行网点的储蓄量、人力资源状况、营业面积、
特色功能、网点级别、所处功能区域等因素情况,将网点分为几个等级,再
比较各银行之间不同等级网点数量对比状况。
1、基本思想:我们所研究的样品(网点)或指标(变量)之间存在程
度不同的相似性(亲疏关系——以样品间距离衡量)。于是根据一批样品的
多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,
以这些统计量为划分类型的依据。把一些相似程度较大的样品(或指标)聚
合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另
一类,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。 在
聚类分析中,通常我们将根据分类对象的不同分为 Q 型聚类分析和 R 型聚类
分析两大类。
R 型聚类分析是对变量进行分类处理,Q 型聚类分析是对样本进行分类
处理。
R 型聚类分析的主要作用是: 1、不但可以了解个别变量之间的关系的
亲疏程度,而且可以了解各个变量组合之间的亲疏程度。
2、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行
回归分析或 Q 型聚类分析。
Q 型聚类分析的优点是: 1、可以综合利用多个变量的信息对样本进行
分类; 2、分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;
3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。
为了进行聚类分析,首先我们需要定义样品间的距离。 常见的距离有 :
① 绝对值距离 ② 欧氏距离 ③ 明科夫斯基距离 ④ 切比雪夫距离
编辑本段
方法
聚类的几种方法:
(1)直接聚类法
先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出
一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个
也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。
每一次归并,都划去该对象所在的列与列序相同的行。经过 m-1 次就可以把
全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。
(2)最短距离聚类法
:最短距离聚类法,是在原来的 m×m 距离矩阵的非对角元素中找出 ,
把分类对象 Gp 和 Gq 归并为一新类 Gr,然后按计算公式 计算原来各类与新
类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距
离矩阵中选出最小者 dij,把 Gi 和 Gj 归并成新类;再计算各类与新类的距离,
这样一直下去,直至各分类对象被归为一类为止。
(3)最远距离聚类法
最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离
时采用的公式不同。最远距离聚类法所用的是最远距离来衡量样本之间的距
离。
聚类分析
英文名称:
cluster analysis
定义 1:
按照某种距离算法对数据点分类。
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分
析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集
数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和
经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用
作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
目录
概念
主要应用
主要步骤
聚类分析算法
概念
主要应用
主要步骤
聚类分析算法
展开
编辑本段
概念
聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中
的对象有很大的相似性,而不同簇间的对象有很大的相异性。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传
统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有
序样品聚类、有重叠聚类和模糊聚类等。采用 k-均值、k-中心点等算法的聚
类分析工具已被加入到许多著名的统计分析软件包中,如 SPSS、SAS 等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习
过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,
需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标
记。聚类是观察式学习,而不是示例式的学习。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类
能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集
中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分
类和定性归纳算法)的预处理步骤。
编辑本段
主要应用
在商业上
聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户
群的特征。
聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找
新的潜在市场、选择实验的市场,并作为多元分析
的预处理。
在生物上
聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的
认识
在地理上
聚类能够帮助在地球中被观察的数据库商趋于的相似性
在保险行业上
聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时
根据住宅类型,价值,地理位置来鉴定一个城市的房产分组
在因特网应用上
聚类分析被用来在网上进行文档归类来修复信息
在电子商务上
聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通
过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好
的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。
编辑本段
主要步骤
1. 数据预处理,
2. 为衡量数据点间的相似度定义一个距离函数,
3. 聚类或分组,
4. 评估输出。
数据预处理包括选择数量,类型和特征的标度,它依靠特征选择和特征
抽取,特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显
著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类,
数据预处理还包括将孤立点移出数据,孤立点是不依附于一般数据行为或模
型的数据,因此孤立点经常会导致有偏差的聚类结果,因此为了得到正确的
聚类,我们必须将它们剔除。
既然相类似性是定义一个类的基础,那么不同数据之间在同一个特征空
间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样
性,距离度量必须谨慎,它经常依赖于应用,例如,通常通过定义在特征空
间的距离度量来评估不同对象的相异性,很多距离度都应用在一些不同的领
域,一个简单的距离度量,如 Euclidean 距离,经常被用作反映不同数据间
的相异性,一些有关相似性的度量,例如 PMC 和 SMC,能够被用来特征化
不同数据的概念相似性,在图像聚类上,子图图像的误差更正能够被用来衡
量两个图形的相似性。
将数据对象分到不同的类中是一个很重要的步骤,数据基于不同的方法
被分到不同的类中,划分方法和层次方法是聚类分析的两个主要方法,划分
方法一般从初始划分和最优化一个聚类标准开始。Crisp Clustering,它的
每一个数据都属于单独的类;Fuzzy Clustering,它的每个数据可能在任何
一个类中,Crisp Clustering 和 Fuzzy Clusterin 是划分方法的两个主要
技术,划分方法聚类是基于某个标准产生一个嵌套的划分系列,它可以度量
剩余16页未读,继续阅读
资源评论
- SUNTANGLE2018-10-24感谢分享,可以直接使用。
liguangming146
- 粉丝: 1
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功