没有合适的资源?快使用搜索试试~ 我知道了~
MATLAB统计工具箱在聚类分析中的应用 (2).pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 153 浏览量
2022-11-12
09:44:04
上传
评论
收藏 370KB PDF 举报
温馨提示
试读
14页
。。。
资源推荐
资源详情
资源评论
MATLAB 统计工具箱在聚类分析中的应用
MATLAB 统计工具箱提供给人们一个强有力的统计分析工具,是目前国际
上流行的科学计算软件,具有强大的矩阵计算和数据可视化能力,可实现数据计
算、图形处理、自动处理和信息处理等多种功能;同时,随着经济社会的飞速发
展,大数据时代已经悄然来临,海量的数据分类、处理工作显得尤为繁杂,而聚
类分析在解决这一繁杂工作的过程中起着不可替代的作用。那么采取何种办法对
样本点进行聚类,才能使得大量的样本按照各自特性进行合理分类,也是一个值
得探究的问题。在 MATLAB 统计工具箱中提供了许多聚类分析工具,k-means
聚类就是其中一种,也叫 k 均值聚类,本文主要探讨 k-means 聚类方法,并将其
运用于实例分析。
关键词, matlab 统计工具箱,聚类分析,k-means 聚类
1.1 问题背景
聚类分析(Cluster Analysis),是将一组研究对象分为相对同质的群组的
统计分析技术,又称群分析或分类分析,通俗易懂的来说,它是根据“物以
类聚”的道理,对某些指标或样品进行分类的一种多元统计分析方法。也就
是说,它们以大量的样品为讨论对象,在没有任何模式依循或可供参考的条
件下,要求能够合理地按照各自的特性或属性来进行合理的分类,是在没有
先验知识的情况下进行的。也就是说聚类与分类的不同在于,聚类所要求划
分的类是未知的,是将数据分类到不同的类或者簇这样的一个过程,所以在
同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。从
统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。
当今社会正处于大数据时代,在商业方面,聚类分析是细分市场的有效
工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,
并作为多元分析的预处理 ;在经济领域,其可以帮助市场分析人员从客户数
据库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征;对住
宅区进行聚类,确定自动提款机 ATM 的安放位置;对股票市场板块分析,找
出最具活力的板块龙头股;还可用于企业信用等级分类等方面。在生物学领
1
域,其可推到动、植物的分类;也可对基因分类,获得对种群的认识;在数
据挖掘领域,其可作为其他数学算法的预处理步骤,获得数据分布状况,集
中对特定的类做进一步的研究;同时在保险行业、地理及因特网等方面有着
巨大的作用。
传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类
法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算
法的聚类分析工具已被加入到许多著名的统计分析软件包中,如 SPSS、
MATLAB 等。本文着重介绍 MATLAB 统计工具箱在聚类分析中的应用。
利用 MATLAB 统计工具箱中的 k-means 进行聚类分析,首先进行数据
预处理,为衡量数据点间的相似度定义一个距离函数,再聚类或分组,评估
输出。可应用于诸多方面,为人们的生产生活带来方便。
1.2 本文主要工作
2
首先建立聚类分析模型,1)找到数据集合中变量两两之间的相似性和非相似性,
用 pdist 函数计算变量之间的距离;2)用 linkage 函数定义变量之间的连接;3)
用 cophenetic 函数评价聚类信息;4)用 cluster 函数创建聚类。然后通过模型对
模拟数据及实际数据进行分析、聚类,最终通过计算错误率,对模型进行评价。
2.模型综述
2.1 用 k-means 做聚类分析的算法解释
设 被 聚 类 对 象 的样 本总 数 为
n
, 样 本 维 数 为
m
, 即 有 可 测 数 据 样本集
X {x
1
, x
2
x
n
}
,其中
x
i
(x
i1
, x
i2
x
im
)
T
,i=1,2……n
则定义数据样本
x
i
和
x
j
之间的欧几里得距离
d
ij
2
(x x )
ik jk
(i 1,2n, j i 1?n)
)
k 1
m
为了可视化,这里使用二维空间,一组模拟数据如图 2.1 所示:
图 2.1 模拟数据散点图
3
剩余13页未读,继续阅读
资源评论
xxpr_ybgg
- 粉丝: 6559
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 运算放大器基础.pdf
- 本仓库包含我们队伍2019年数模美赛题目A、我们的代码及论文
- 基于JavaWeb图书管理系统课程设计软件源码+数据库+实验报告
- 基于Selenium的Java爬虫实战(内含谷歌浏览器Chrom和Chromedriver版本122.0.6172.0)
- WesternDigital-SSD-Dashboard-v4.2.2.5
- 计算机视觉,课后习题部分解答(章毓晋)
- “推荐系统”相关资源推荐
- 软件工程期末复习笔记 快速冲刺
- 毕业设计基于Spring Boot的健身房管理系统源码+数据库+使用文档(高分项目)
- 基于Selenium的Java爬虫实战(内含谷歌浏览器Chrom和Chromedriver版本122.0.6170.3)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功