-------------
聚类方法在规划分区中的应用——以模糊聚类为例
摘要
关键词
引言
1. 聚类分析
聚类分析可以看做是一种非监督的分类方法,在分类时只依赖对象自身所具有的属性来
区分对象之间的相似程度。将总体中的个体分类以发现数据中的结构,希望一个类中的个体
彼此接近或相似,而与其它类中的个体相异,这样就可以对划分出来的每一类进行深入的分
析从而概括出每一类的特点。
[1]
利用聚类结果,我们能够提取数据集中隐藏的信息,对未来
数据进行预测和分类。
目前聚类算法主要分为层次化聚类方法,划分式聚类方法,基于密度的聚类方法,基于
网格的聚类方法,基于核的聚类算法,基于谱的聚类方法,基于模型的聚类方法,基于遗传
算法的聚类方法,基于 SVM 的聚类方法,基于神经网络的聚类方法等等
[2]
。
通常聚类分析算法一般包含四个部分:(1)特征获取与选择;(2)计算相似度;(3)分
组;(4)聚类结果展示;(5)聚类结果评价。相似度一般用距离函数表示,包括形态、语义、
状态、密度、时间等产生的差距,用来度量模式之间的相似程度。常见的距离函数有欧式距
离,马氏距离,夹角余弦距离,Pearson 相关系数,Tanimoto 测度等。在进行聚类分析时
一般根据应用的场合来设计不同的距离函数,目前还没有一个可以通用的距离函数
[2]
。
2. 各种聚类方法
1.1 层次聚类方法
层次聚类算法又称为树聚类算法或系统聚类算法,层次的方法按数据分层建立簇,形成
一棵以簇为节点的树。这种算法的基本思路是首先将所有对象看成独立的个体类,通过计算
类间的距离来选择最小距离的两个类合并成一个新类,再重新计算新类和其它类之间的距离,
选择最小距离的两个类合并,依次迭代合并直到没有合并为止。有基于聚集和基于分割的聚
类两种,分别是基于数据的最小距离和最大距离原理。
-------------