聚类是一个将数据集划分为若干组或簇的过程,使得同一类的数据对象之间 的
相似度较高,而不同类的数据对象之间的相似度较低。 聚类问题的关键是把相 似的
事物聚集在一起。
数据挖掘中聚类算法的应用
1. 在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群, 并
且用不同的购买模式来刻画不同的消费群体的特征。
2. 在生物学上,聚类能用于帮助推导植物和动物的种类,基因和蛋白质的分
类,获得对种群中固定结构的认识。
3. 聚类在地球观测数据中相似地区的确定,根据房屋的类型、价值和位置对 一
个城市中房屋的分类发挥作用。
4. 聚类也能用来对 web 上的文档进行分类,以发现有用的信息。聚类分析能 作
为一种独立的工具来获得数据分布的情况,观察每个簇的特点,并对某些特定 的节
点进一步分析。
此外,聚类还可以作为其他方法的预处理步骤。 在数据挖掘领域,研究工作
已经集中在为大型数据库的有效和实际的聚类分析寻找适当的方法。
聚类的一般步骤的细节如下:
(1) 特征选择。
(2) 相似性度量。
(3) 聚类算法。
(4) 结果验证。
(5) 结果判定。
尸”亡
+ fMnK
类:
CUKE. ROCK. CHAMELEON
尊;去 层次方
鬥分裂聚类:
BIRCH
K-MEAXS
划分方法」
K-XIEDOIDS
传统聚类方法
大型数据库划分方
JiCLARAXS
基于密度的方法
DRSCAN* OPTICS> DENCLUE
基于阖格的方法
STING. W^-eCluster. CLIQUE
统计学方法:
COBWTB
油经网络
方法:
SCM
基于模型的方法
聚类
基于约束的方法:
COD
基于模糊的藥类方法:
FCM
基于粒度的聚类方法
E
不成熟
i
新聚类算法■:
量子聚类:
Qf
核聚类
iFC
出肆比:迭代谱聚类:
PM
、
SM
、
SLH. Mcut
讪 >路谱聚类:
KJW
、
MS
*■
图
3-1
聚类方袪的分类示意图卡
下面给出六条关于聚类的主要标准:
(1) 处理大的数据集的能力。