C语言实现的ISODATA算法资源-CSDN文库

共14个文件

pdb：2个

doc：1个

dsp：1个

5星 · 超过95%的资源需积分: 15 54 浏览量 2009-08-09 08:09:59 上传评论 1 收藏 557KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

MyIsodata.rar （14个子文件）

folder

MyIsodata

ISODATA算法汇报文档.doc 461KB

MyIsodata.ncb 57KB

folder

Debug

MyIsodata.pch 197KB

MyIsodata.exe 232KB

vc60.pdb 52KB

vc60.idb 33KB

MyIsodata.ilk 330KB

MyIsodata.pdb 561KB

MyIsodata.obj 29KB

MyIsodata.dsw 526B

MyIsodata.dsp 3KB

MyIsodata.plg 765B

MyIsodata.opt 48KB

MyIsodata.c 11KB

ISODATA 算法汇报文档

ISODATA 算法汇报文档

一．算法介绍

1.背景

ISODATA(迭代自组织数据分析算法)来自模糊数学领域,是统计模式识别

中非监督动态聚类算法的一种。

在许多科学实验、经济管理和日常生活中，往往需要对某些指标（或

事物）按一定的标准（相似的程度、亲疏关系等）进行分类处理。例如，

根据生物的某些形态对其进行分类，图像识别中对图形的分类等。这种对

客观事物按一定要求和规律进行分类的数学方法主要就是聚类分析法，聚

类分析是数理统计中研究“物以类聚”的一种多元分析方法，而模糊聚类分析

法是通过数学工具根据事物的某些模糊性质进行定量地确定、合理地分型

划类的数学方法。

2、算法基本思想

J . C. Bezdek 在普通分类基础上, 利用模糊集合的概念提出了模糊分类问

题。认为被分类对象集合X 中的样本x [i] 以一定的隶属度属于某一类,即所

有的样本都分别以不同的隶属度属于某一类。因此,每一类就被认为是样本

集X 上的一个模糊子集,于是,每一种这样的分类结果所对应的分类矩阵,就是

一个模糊矩阵。ISODA TA 聚类方法预先确定样本应该分成几类,从先给出的

一个初始分类出发,根据目标函数, 用数学迭代计算的方法反复修改模糊矩阵,

直到合理为止。

3、算法基本原理

设有限样本集（论域） X={ X1,X2,…Xn } ，每一个样本有 s 个指标，

Xj=( xj1,xj2,…xjs) ,j=1,2,…n.

及样本的特征矩阵：

欲把它分为 c 类（2<c<n）,则 n 个样本划分为 c 类的模糊分类矩阵为：

其满足三个条件：（i=1,2,…c;j=1,2,…n）

1

ISODATA 算法汇报文档

定义 c 个聚类中心向量聚类中心 V={ V1,V2,…Vc }.其中 Vi=( vi1,vi2,…

vis },i=1,2,…c.

第i 类的中心vi 即人为假想的理想样本,它对应的s个指标值是该类样本

所对应的指标值的平均值:

定义矩阵U = [ uij ]c ×n的全体构成样本集X 分成c 类的软划分空间:

其中, uij 表示第j 个样本Xj 隶属于第i 类的隶属度。构造目标泛函:

其中: ‖x j - vi ‖2 表示第j 个样本与第i 类中心之间欧氏距离的平方; J m

(U ,V ) 表示所有待聚类样本与所属类的聚类中心之间距离的平方和。

为了确定最佳分类结果,就是寻求最佳划分矩阵U 和对应的聚类中心V ,使J m

(U ,V ) 达到极小,即J m( U3, V3 ) = min { J m ( U , V ) , U ∈Mf c } 。Dunn 证明了求

上述泛函的极小值的问题可解,Bezdek 给出了当m ≥1 且xk ≠vi 时迭代算法。

4.具体算法步骤

(1) 给定控制参数

K:预期的聚类中心数目。

θn :每一聚类中最少的样本数目,如果少于此数就不能作为一个独立的聚类。

2

ISODATA 算法汇报文档

θs:一个聚类域中样本距离分布的标准差(阈值) 。

θc:两个聚类中心之间的最小距离,如果小于此数,两个聚类合并。

L :每次迭代允许合并的最大聚类对数目。

I :允许的最多迭代次数。

给定n 个文档集合D = { d1 , d2 , ⋯, dn} , 令J = 1 (迭代次数) , 预选c 个起始聚

合中心, Zj ( J ) ,j = 1 ,2 ⋯, c 。

(2) 计算每个样本与聚合中心距离: D( xk ,Zj ( J ) ) 。若:D ( xk , Zj ( J ) ) = min

j =1 ,2 ⋯, c.{ D( xk , Zj ( J ) ) , k =1 ,2 , ⋯, n} ,则: xk ∈wi 。把全部样本划分到c

个聚合中去,且nj 表示各子集Xj 中的样本数目。

(3) 判断:若nj < θn , j = 1 ,2 ⋯, c 则舍去子集Xj , c = c - 1 ,返回(2) 。

(4) 计算修改聚合中心: ,j = 1 ,3 , ⋯c 。

(5) 计算类内距离平均值Dj :

(6) 计算类内总平均距离D(全部样本对其相应聚类中心的总平均距离) :

(7) 判别分裂、合并及迭代运算等步骤。

a1 如迭代运算次数已达I 次,即最后一次迭代,置θc = 0 ,跳到(1) ,运算结束。

b1 如c F K2 ,即聚类中心的数目等于或不到规定值的一半,则转(8) ,将已有的

聚类分裂。

c1 如迭代运算的次数是偶数, 或c E 2 K, 则不进行分裂,跳到(11) , 若不符合

上述2 个条件, 则进入(8) ,进行分裂处理。

(8) 计算每个聚合的标准偏差向量:

式中: xi ——x 的第i 个分量;

Zji ——Zj 的第 i 个分量;

d ——维数。

(9) 求出每个聚合的最大标准偏差分量σjmax :

3

内容反馈

城江再歌山

2014-05-13

虽然下载分有点多，但资料还是挺不错的。
xuyuanye19881214

2013-10-30

资料比较完整谢谢！！
兔子先生-_-

2013-12-28

可以允许，有文档，程序简单清晰，研究一下就能看的明白
weiling23

2012-12-20

可以运行，不错
小羚羊Lyn

2013-11-20

挺不错的，就是不是我需要的

前往

页

rainy269

粉丝: 5
资源: 8

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip