模式识别实验报告；K均值算法和模糊C均值算法.zip资源-CSDN文库

共8个文件

py：4个

txt：3个

pdf：1个

版权申诉

83 浏览量 2024-01-12 21:42:21 上传评论收藏 310KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

模式识别实验报告；K 均值算法和模糊 C 均值算法.zip （8个子文件）

sonar.txt 86KB

模式识别实验报告；K 均值算法和模糊 C 均值算法.pdf 289KB

sonar_FCM.py 4KB

Iris_FCM.py 4KB

sonar_kmeans.py 5KB

a.txt 0B

iris.txt 4KB

Iris_kmeans.py 6KB

实验三：K 均值算法和模糊 C 均值算法

1 问题描述

编程实现 K‐means 算法和 FCM 算法，并对比两者的性能，要求：

1. 查阅无监督聚类的评价标准有哪些，选择其中一个标准作为后续试验的验证指标。

2. 在 sonar 和 Iris 数据上分别验证两种聚类算法。

2 数据集说明

2.1 Iris 数据集

Iris 数据集中包含了 3 类鸢尾花特征数据。每一类分别有 50 个样本，每条样本有 4 个维度的特征数

据（花萼长度，花萼宽度，花瓣长度，花瓣宽度）。

2.2 Sonar 数据集

Sonar 数据集，通过声纳从不同角度返回的强度来预测目标是岩石还是矿井，其中 R 类代表岩石，M

类代表矿井。共有 208 个样本，60 个维度，2 个类别。

3 K 均值算法

3.1 算法原理

K 均值聚类算法是应用最广泛的基于划分的聚类算法之一，适用于处理大样本数据。它是一种典型的

基于相似性度量的方法, 目标是根据输入参数 K 将数据集划分为 K 簇。由于初始值、相似度、聚类均值

计算策略的不同，因而有很多种 K 均值算法的变种。在数据分布接近球体的情况下，K 均值算法具有较

好的聚类效果。

算法目标：使得各个数据与其对应聚类中心点的误差平方和最小。

J =

x∈C

∥x − m

∥

式中，J

为第 i 类聚类的目标函数，k 为聚类个数，x 是划分到类 C

的样本。

, …, m

是类 C

, …, C

的质心。

x∈C

3.2 算法流程

Step 1:

初始化：随机选择

个样本点，并将其视为各聚类的初始中心

…

, m

；

Step 2: 按照最小距离法则逐个将样本 x 划分到以聚类中心 m

, …, m

为代表的 k 个类 C

, …, C

中；

Step 3: 计算聚类准则函数 J，重新计算 k 个类的聚类中心 m

, …, m

；

Step 4: 重复 Step2 和 Step3 直到聚类中心 m

, …, m

无改变或目标函数 J 不减小。

4 模糊 C 均值算法

4.1 算法原理

K 均值算法属于硬聚类算法，它把数据点划分到确切的某一聚类中。而在模糊聚类亦称软聚类中，数

据点则可能归属于不止一个聚类中，并且这些聚类与数据点通过一个成员水平 (实际上类似于模糊集合中

隶属度的概念) 联系起来。成员水平显示了数据点与某一聚类之间的联系很密切。模糊聚类就是计算这些

成员水平，按照成员水平来决定数据点属于哪一个或哪些聚类的过程。模糊 C 均值算法 (Fuzzy C-Means，

FCM) 是模糊聚类算法中使用最广泛的算法之一。

FCM 的目标函数是把 m 个样本分为 c 个模糊集合，并给出聚类中心，使得代价函数的值最小。我们

构建一个隶属矩阵 U，其中 u

表示第 i 条样本对于第 j 个模糊集合的隶属度。FCM 进行归一化约束后，

样本数据属于所有类的隶属度的总和应该等于 1，即：

j=1

= 1

FCM 的目标函数定义为：

J (U, z

, . . . z

) =

j=1

i=1

其中，z

为第 j 个模糊集合的聚类中心；d

表示第 i 条样本与第 j 个聚类中心间的欧式距离；α 为

柔性参数。

我们需要让目标函数达到最小，此时的必要条件为：

J (U, z

, . . . , z

, λ

, . . . λ

) =

j=1

i=1





j=1

− 1





我们对输入参量进行求导，从而得到目标函数达到最小值的条件：

i=1

k=1





α−1

4.2 算法流程

Step 1: 初始化隶属矩阵 U；

Step 2: 根据隶属矩阵 U，计算各个聚类中心 m

(s)

；

Step 3: 计算代价函数 J，重新计算 c 个类的聚类中心 m

(s+1)

；

Step 4: 更新隶属矩阵 U；

Step 5: 重复 Step3 和 Step4 直到聚类中心



(s)

− m

(s+1)



< ε；

输出：将样本点划分为隶属度最大的那一类。

5 无监督聚类的评价标准

在无监督学习中，数据没有标签。聚类之后，只能得到聚类的结果，并不知道结果是否正确，因此我

们无法判断其准确率。对此，我们需要引入评价无监督聚类结果的好坏的评价指标。查阅相关资料，常用

的有六种评价指标。

5.1 纯度 (Purity)

纯度：代表正确聚类的类别数占总类别数地比例。其计算公式如下：

purity(Ω, C) =

max

|ω

∩ C

其中 N 代表总类别数，w

代表第 k 个聚类，C 代表类别集合，C

表示第 j 类。其结算结果必然在

[0,1] 之间，完全错误时其值为 0，完全正确时其值为 1。

5.2 熵 (Entropy)

对于一个聚类 i, 首先计算 P

，P

指的是聚类 i 中的成员属于类 j 的概率

其中 m

是在聚类 i 中所有成员地个数，m

是聚类 i 中成员属于 j 类的个数。

每个聚类的熵可以表示为

= −

j=1

log 2P

其中 L 是类的个数。

整个聚类划分的熵为

e =

i=1

其中 K 是聚类的数目，m 是整个聚类划分所涉及到的成员个数。

划分的熵越小，说明聚类效果越好。

5.3 标准化互信息 (NMI)

互信息用于衡量两个信息之间的相关性，对于两个随机变量 X 和 Y，互信息的公式如下

I(X; Y ) =

y ∈Y

x∈X

p(x, y) log



p(x, y)

p(x)p(y)



理论上，互信息的值越大越好，可是其取值范围是没有上边界的。为了更好的比较不同聚类结果，提

出了标准化互信息的概念，公式如下

U(X, Y ) = 2R = 2

I(X; Y )

H(X) + H(Y )

将互信息的值归一化到 0 和 1 之间，称作标准化互信息。标准化互信息的值越接近 1，聚类效果越好。

5.4 调整互信息 (AMI)

调整互信息的公式如下

AMI =

MI − E[MI]

mean(H(U ), H(V )) − E[MI]

其中 E 表示期望值，对应的公式如下

E[MI(U, V )] =

|U|

i=1

|V |

j=1

min(a

)

=(a

j−N

)

log



N · n



! (N − a

)! (N − b

N!n

! (a

− n

)! (b

− n

)! (N − a

− b

+ n

互信息和归一化互信息的值都会受到聚类的类别数 K 的影响，而 AMI 则不会受到干扰，取值范围为

[-1,1]，数值越大，两种聚类结果越接近。

5.5 兰德指数 (AMI)

兰德指数公式如下

RI = (a + b)/ (C

)

其中 C 表示实际类别信息，K 表示聚类结果，a 表示在 C 与 K 中都是同类别的元素对数，b 表示在

C 与 K 中都是不同类别的元素对数。RI 的取值为 [0,1]，值越大表示聚类结果与真实情况越吻合。

5.6 调整兰德指数 (ARI)

调整兰德指数的公式如下

ARI =

RI − E[RI]

max(RI) − E[RI]

ARI 的取值范围为 [-1,1]，数值越大，聚类效果越好。

实验结果

本实验选取纯度作为验证指标。

6.1 k 均值聚类

6.1.1 Iris 数据集

本次实验设定 k 值为 3，通过随机选取任意 3 个样本作为初始聚类中心，之后进行迭代。由于 k 均值

聚类算法的结果受初始聚类中心位置的影响较大，因此，本实验采取了进行 10 次实验，求取平均值，计

算出最后的结果：平均迭代次数为 6.8，平均聚类纯度为 86.73%。

为了进一步可视化聚类的效果，本实验选取了花瓣长度和花瓣宽度两个特征，作真实类别和预测类别

的散点图，如下图所示：

(a) 花瓣长度和花瓣宽度特征之间的散点图（真实数据） (b) 花瓣长度和花瓣宽度特征之间的散点图（预测数据）

图 1: 花瓣长度和花瓣宽度特征之间的散点对比图

右图中的黑色“x”代表聚类中心。从图中可以发现，类别一的数据几乎完全聚类成功，类别二和类

别三的样本则较难聚类，特别在两者的交界处，聚类效果较差。对比真实数据可以发现，类别二和类别三

的数据较为混杂，这增大了 k 均值聚类的难度。

从图中还可以看见，类别二的聚类中心旁边出现了其它类别的样本，这是由于聚类时采用的是四个维

度的特征，而在此处仅选取了两个维度特征，因此出现这种现象。

评论收藏

内容反馈

版权申诉

手把手教你学AI

粉丝: 8191
资源: 4649

模式识别实验报告；K 均值算法和模糊 C 均值算法.zip

模糊C均值聚类算法（Fuzzy C-Means , FCM）matlab实现.zip

C均值算法.zip_C均值_fcm算法 _图像分割_数据挖掘_模糊C均值

cluster.zip_K均值聚类算法_模糊C均值_模糊聚类_聚类_聚类分类算法

matlab算法代码K均值聚类算法.zip

三种c均值聚类对比.zip

ksuanfa.zip_K._K均值_K均值算法

FCM.m.zip_fcm_模糊C均值_模糊C均值算法_模糊c聚类_聚类 模糊

层次聚类算法,模糊C均值 层次聚类算法,matlab源码.zip.zip

FCM+Knn.zip_fuzzy c-means_k-fcm 聚类方法_数据划分_模糊C均值Iris_模糊聚类

c均值.zip_C均值_C均值算法_c均值分类

一个用VC++开发的采用模糊C均值聚类算法..zip

matlab粒子群基于K均值聚类模式分类聚类算法.zip

非监督分类K均值算法.zip

K均值聚类.zip_K均值_k均值聚类_数据 聚类_聚类_聚类分析算法

FCM.zip_C均值_C均值算法_Fuzzy C Means_fcm算法；模糊C均值；MATLAB程序_fuzzy c-mea

基于K-means(K均值)聚类算法的图像特征分割研究-含Matlab代码.zip

Matlab C-均值动态聚类算法.zip

k均值、合并聚类和DBSCAN聚类算法对鸢尾花数据集聚类代码.zip

相关实用应用程序（Windows可用）

李飞飞自传 我看见的世界 The World I see

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

智联招聘：2024年大学生就业力调研报告.pdf

4个亲测好用的ChatGPT4渠道

2024年俄罗斯陶瓷餐具市场机会及渠道调研报告Sample.pdf

第十九届研电赛-技术论文模板

学术海报模板+论文科研+研究生

最新资源

FCM.m.zip_fcm_模糊C均值_模糊C均值算法_模糊c聚类_聚类模糊

层次聚类算法,模糊C均值层次聚类算法,matlab源码.zip.zip

K均值聚类.zip_K均值_k均值聚类_数据聚类_聚类_聚类分析算法

李飞飞自传我看见的世界 The World I see