没有合适的资源?快使用搜索试试~ 我知道了~
第六章 聚类分析.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 117 浏览量
2022-06-06
20:15:26
上传
评论
收藏 542KB PDF 举报
温馨提示
试读
44页
第六章 聚类分析.pdf
资源推荐
资源详情
资源评论
数据挖掘第六章 聚类分析
聚类(
)是一个将数据集划分为若干组(
)或类(
)的
过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象
是不相似的。相似或不相似的描述是基于数据描述属性的取值来确定的。通常就
是利用(各对象间)距离来进行表示的。许多领域,包括数据挖掘、统计学和机
器学习都有聚类研究和应用。
本章将要介绍对大量数据进行聚类分析的有关方法;同时也还将介绍如何根
据数据对象的属性来计算各数据对象之间的距离(不同)。有关的聚类方法(类
型)主要有:划分类方法、分层类方法、基于密度类方法、基于网格类方法和基
于模型类方法。此外本章的最后将要介绍利用聚类方法进行异常数据(
)
检测的有关内容。
将一组(
)物理的或抽象的对象,根据它们之间的相似程度,分为若干
组(
);其中相似的对象构成一组,这一过程就称为聚类过程(
)。
一个聚类(
)就是由彼此相似的一组对象所构成的集合;不同聚类中对象
是不相似的。就 是从 给 定的数 据集 中搜 索数 据 项(
)之间所存在的有 价值
联系。在许多应用,一个聚类中所有对象常常被当作一个对象来进行处理或分析
等操作。
聚类分析是人类活动中的一个重要内容。早在儿童时期,一个人就是通过不
断完善潜意识中的分类模式,来学会识别不同物体,如:狗和猫,或动物和植物
等。聚类分析已被应用到许多领域,其中包括:模式识别、数据分析、图像处理
和市场分析等。通过聚类,人可以辨认出空旷和拥挤的区域,进而发现整个的分
布模式,以及数据属性之间所存在有价值的相关关系。
聚类分析的典型应用主要包括,在商业方面,聚类分析可以帮助市场人员发
现顾客群中所存在的不同特征的组群;并可以利用购买模式来描述这些不同特征
的顾客组群。在生物方面,聚类分析可以用来获取动物或植物所存在的层次结构
(
),以及根据基因功能对其进行分类以获得对人群中所固有的结构更
深入的了解。聚类还可以从地球观测数据库中帮助识别具有相似的土地使用情况
的区域。此外还可以帮助分类识别互联网上的文档以便进行信息发现。作为数据
挖掘的一项功能,聚类分析还可以作为一个单独使用的工具,来帮助分析数据的
数据挖掘第六章 聚类分析
分布、了解各数据类的特征、确定所感兴趣的数据类以便作进一步分析。当然聚
类分析也可以作为其它算法(诸如:分类和定性归纳算法)的预处理步骤。
数据聚类分析是一个正在蓬勃发展的领域。聚类分析所涉及的领域包括:数
据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学等。由于各应用
数据库所包含的数据量越来越大,聚类分析已成为数据挖掘研究中一个非常活跃
的研究课题。
作为统计学的一个分支,聚类分析已有多年的研究历史,这些研究主要集中
在基于距离的聚类分析方面。许多统计软件包,诸如:
-
、
和
,
都包含基于
-均值、
-中心等其它许多聚类分析工具。
在机器学习中,聚类分析属于一种无(教师)监督的学习方法。与分类学习
不同,无(教师)监督学习不依靠事先确定的数据类别,以及标有数据类别的学
习训练样本集合。正因为如此,聚类分析又是一种通过观察学习方法(
),而不是示例学习(
)。在概念聚类方法中,仅当
一组对象可以由一个概念所描述时,这些对象方才能构成一个类。这与基于几何
距离表示相似程度并进行聚类的传统聚类方法有所不同。概念聚类方法主要包含
两部分内容:(
)发现适当的类;(
)根据每个类形成相应的特征描述,与在分
类学习中的方法类似。无论如何最大程度地实现类中对象相似度最大,类间对象
相似度最小是聚类分析的基本指导思想。
在数据挖掘中,大多数工作都集中在发现能够有效、高 效地对大数据库进行
聚类分析的方法上。相关的研究课题包括:聚类方法的可扩展性、复杂形状和复
杂数据类型的聚类分析的有效高效性、高维聚类技术,以 及 混合数值属性与符号
属性数据库中的聚类分析方法等。
聚类分析是一个富有挑战的研究领域,有关每一个应用都提出了一个自己独
特的要求。以下就是对数据挖掘中的聚类分析的一些典型要求。
(
)可扩展性。许多聚类算法在小数据集(少于
个数据对象)时可以
工作很好;但一个大数据库可能会包含数以百万的对象。利用采样方法进行聚类
分析可能得到一个有偏差的结果,这时就需要可扩展的聚类分析算法。
(
)处理不同类型属性的能力。许多算法是针对基于区间的数值属性而设
计的。但是有些应用需要对其它类型数据,如:二值类型、符号类型、顺序类型,
或这些数据类型的组合。
(
)发现任意形状的聚类。许多聚类算法是根据欧氏距离和
距
离来进行聚类的。基于这类距离的聚类方法一般只能发现具有类似大小和密度的
圆形或球状聚类。而实际上一个聚类是可以具有任意形状的,因此设计出能够发
现任意形状类集的聚类算法是非常重要的。
数据挖掘第六章 聚类分析
(
)需要(由用户)决定的输入参数最少。许多聚类算法需要用户输入聚
类分析中所需要的一些参数(如:期望所获聚类的个数)。而聚类结果通常都与
输入参数密切相关;而这些参数常常也很难决定,特别是包含高维对象的数据集。
这不仅构成了用户的负担;也使得聚类质量难以控制。
(
)处理噪声数据的能力。大多数现实世界的数据库均包含异常数据、不
明数据、数据丢失和噪声数据,有些聚类算法对这样的数据非常敏感并会导致获
得质量较差的数据。
(
)对输入记录顺序不敏感。一些聚类算法对输入数据的顺序敏感,也就
是不同的数据输入顺序会导致获得非常不同的结果。因此设计对输入数据顺序不
敏感的聚类算法也是非常重要的。
(
)高维问题。一个数据库或一个数据仓库或许包含若干维或属性。许多
聚类算法在处理低维数据时(仅包含二到三个维)时表现很好。人 的视觉也可以
帮助判断多至三维的数据聚类分析质量。然而设计对高维空间中的数据对象,特
别是对高维空间稀疏和怪异分布的数据对象,能进行较好聚类分析的聚类算法已
成为聚类研究中的一项挑战。
(
!
)基于约束的聚类。现实世界中的应用可能需要在各种约束之下进行聚
类分析。假设需要在一个城市中确定一些新加油站的位置,就 需要考虑诸如:城
市中的河流、高 速路,以 及 每个区域的客户需求等约束情况下居民住地的聚类分
析。设计能够发现满足特定约束条件且具有较好聚类质量的聚类算法也是一个重
要聚类研究任务。
(
"
)可解释性和可用。用户往往希望聚类结果是可理解的、可解释的,以
及可用的。这就需要聚类分析要与特定的解释和应用联系在一起。因此研究一个
应用的目标是如何影响聚类方法选择也是非常重要的。
了解上述的需求后,下面按照聚类分析的工作过程进行介绍。首先不同数据
类型对聚类方法的影响;然后就介绍聚类分析的常用分类;并详细讲解其中的每
一个聚类方法,包括:划分方法、层次方法、基于密度方法、基于网格方法和基
于模型方法。此外还要介绍在高维空间和异常数据分析中的相关聚类算法。
本节将主要介绍聚类分析中常见的数据类型,以及在聚类分析之前时如何对
它们进行预处理的。假设一个要进行聚类分析的数据集包含
个对象,这些对象
可以是人、房屋、文件等。基于内存的聚类算法通常都采用以下两种数据结构:
(
((
(
)数据矩阵
)数据矩阵)数据矩阵
)数据矩阵
数据挖掘第六章 聚类分析
数据矩阵是一个对象-属性结构。它是由
个对象组成,如:人;这些对象
是利用
个属性来进行描述的,如:年龄、高度、重量等。数据矩阵采用关系表
形式或
×
矩阵来表示,如式(
#
)所示。
!!
!!!!!
!!
!!!!!
!!
(
#
)
(
((
(
)差异矩阵
)差异矩阵)差异矩阵
)差异矩阵
差异矩阵是一个对象-对象结构。它存放所有
个对象彼此之间所形成的差
异。它一般采用
×
矩阵来表示,如式(
#
)所示。
$%&$%&
$%&$%&
$%&
!!
!!!!"
(
#
)
其中
$%&
表示对象
和对象
之间的差异(或不相似程度)。通常
$%&
为
一个非负数;当对象
和对象
非常相似或彼此“接近”时,该数值接近
;该
数值越大,就表示对象
和对象
越不相似。由于有
$%&$%&
=
且
$%&
=
,
因此就有式(
#
)所示矩阵。本节都是基于差异计算进行讨论的。
数据矩阵通常又称为是双模式矩阵;而 差异矩阵则称为是单模式矩阵。因 为
前者行和列分别表示不同的实体;而后者行和列则表示的是同一实体。许多聚类
算法都是基于差异矩阵进行聚类分析的。如果数据是以数据矩阵形式给出的,那
么就首先需要转换为差异矩阵,方可利用聚类算法进行处理。
以下将要讨论如何对采用间隔数值(
'(
)属性、二值属性、符号
属性、顺序属性和比例属性(
'(
),或 者这些属性的组合进行处理,以
计算出对象之间的差异值。利用数据差异值就可以对对象进行聚类分析了。
本小节将要介绍间隔数值属性和它的标准化过程。然后介绍根据这一属性计
算对象之间差异值(不相似程度)的具体计算方法。这些计算方法包括:欧氏距
离计算方法、
距离计算方法和
)*)
距离计算方法。
间隔数值属性就是基本呈直线比例的连续测量值。典型的间隔数值有:重量、
高度和温度等。
数据挖掘第六章 聚类分析
所采用的测量单位可能会对聚类分析产生影响。例如:将测量单位(对于高
度属性)从米变为英尺,或(对于重量属性)从公斤变为英磅,都会导致不同的
聚类结构。通常采用一个较小的单位表示一个属性会使得属性的取值范围变大,
因此对聚类结构就有较大的影响。为帮助避免对属性测量单位的依赖,就 需要对
数据进行标准化。所 谓标准化测量就是给所有属性相同的权值。这一做法在没有
任何背景知识情况下是非常有用的。而在一些应用中,用户会有意识地赋予某些
属性更大权值以突出其重要性。例如:在对候选篮球选手进行聚类分析时,可能
就会给身高属性赋予更大的权值。
为了实现标准化测量,一种方法就是将初始测量值转换为无单位变量。给定
一个属性(变量)
,可以利用以下计算公式对其进行标准化:
(
((
(
)计算绝对偏差均值
)计算绝对偏差均值)计算绝对偏差均值
)计算绝对偏差均值
+$++++&+
−++−+−= #
(
#
)
其中
%%%
!
是变量
的
个测量值;
为变量
的均值 ,也就是
,$&
+++= #
。
(
((
(
)计算标准化测量(
)计算标准化测量()计算标准化测量(
)计算标准化测量(
−
分值)
分值)分值)
分值)
−
=
(
#
)
其中绝对偏差均值
要比标准偏差
σ
更为鲁棒(对含有噪声数据而言)。在
计算绝对偏差均值时,对均值的偏差
++
−
没有进行平方运算,因此异常数
据的作用被降低;还有一些关于针对分散数据更鲁棒的处理方法,如:中间值绝
对偏差方法 。但是利用 绝对偏差均值的好处就是:异 常数 据(
)的
−
分
值不会变得太小,从而使得异常数据仍是可识别的。
在一些特定应用中,标准化方法或许有用,但不一定有用,因此只能由用户
决定是否或如何使用标准化方法。标准化方法在第二章预处理方法中的规格化处
理方法也有详细介绍。
在标准化之后,或在无需标准化的特定应用中,由间隔数值所描述对象之间
的差异(或相似)程度可以通过计算相应两个对象之间距离来确定。最常用的距
离计算公式就是欧氏距离(
-((
),具体公式内容如下:
$+++++&+$%&
−++−+−= #
(
#
)
其中
$%%%&
!=
;
$%%%&
!=
;它们分别表示一个
−
维数据
对象。
另一个常用的距离计算方法就是
距离,它的具体计算公式定义如
剩余43页未读,继续阅读
资源评论
智慧安全方案
- 粉丝: 3650
- 资源: 59万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于SHT25温湿度传感器、FREERTOS、STM32F103C8T6、LCD1602温湿度采集显示系统proteus仿真设计
- C# 屏幕放大取色器 随时随地获取屏幕像素颜色
- 下载安装这个软件.apk
- 【数据集详细解释及案例分析】数据集详细解释及案例分析
- 基于SHT71温湿度传感器、STM32F103C8T6、LCD1602温湿度采集显示系统proteus仿真设计
- 基于TH02温湿度传感器、STM32F103C8T6、LCD1602、FREERTOS的温湿度采集系统proteus仿真设计
- 【TCP-IP协议详细解释及案例分析】TCP-IP协议详细解释及案例分析
- 一文搞懂 LSTM(长短期记忆网络).rar
- 【autosar简介及基本案例解析】autosar简介及基本案例解析
- java模拟斗地主洗牌发牌
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功