Kmeans和FCM算法.pdf_fcm算法和kmeans资源-CSDN文库

模式识别

需积分: 50 156 浏览量 2021-01-17 12:08:59 上传评论 1 收藏 658KB PDF 举报

资源详情

资源评论

资源推荐

Kmeans 和 FCM 算法

摘要

无监督机器学习作为现在一种主流的机器学习算法，在机器学习领域扮演者

举足轻重的角色，由于大数据时代的数据量太多，而标注始终是一个巨大的问题，

目前最准确的标注方式依然是人工标注，所以采集有标签的数据十分困难且代价

太大，而无监督学习就是为了处理这一类无标签的数据产生的算法。

对于大多数的数据处理，首先要做的就是分类任务，而对于无标签的数据集

来说，我们事先并不知道其具体的类别数，所以只能试探性的选择类数，然后根

据纯度，熵等判据来决定是否未为合适的分类，本文主要采用的是纯度这一度量

指标来作为判据。

Kmeans 算法作为应用最广泛的基于划分的聚类算法之一，适用于处理大样

本数据。是一种典型的基于相似性度量的方法，目标是根据输入参数 K 将数据集

划分为 K 类。由于初始值，相似度，聚类均值计算策略的不同，因而有很多种 K

均值算法的变种。在数据接近球形分布的时候，K 均值算法具有较好的聚类效果。

K 均值算法属于硬聚类算法，它把数据点划分到确切的某一聚类中。而模糊

聚类则是软聚类，数据点可能归属于不止一个聚类，并且这些聚类与数据点通过

一个成员水平联系起来。成员水平显示了数据点与某一聚类之间联系很密切。模

糊聚类就是计算这些成员水平，按照成员水平来决定数据点属于哪一个或哪些聚

类的过程。

本文主要采用 K 均值算法和 FCM 算法对 Iris 和 Sonar 数据集进行分类，由于

这两个数据集是有标签的，所以 K 值是确定的，本文主要针对其他的一些因素来

改变算法，分析其分类效果的异同。

根据求解结果我们可知，在分类 Sonar 数据集时，准确率非常低，这是因为

Sonar 数据集的分布比较集中，并不是适合于 kmeans 分类的球形数据，所以算

法不能很好的对其进行分类。

最后，Kmeans 作为使用最为广泛的聚类算法，其在图像分割领域内也有应

用，我们都知道，图像在计算机中实际为一个数值矩阵，而其在颜色比较相近的

地方，其值也大致相同，而图像一般不会出现图片的情况，突变只会发生在物体

的边缘位置，由此，针对一些颜色比较单一且边缘划分明显的图片，我们使用聚

类算法可以很好的将我们所需要的图片信息提取出来，达到图像分割的目的。

关键词：Kmeans，FCM，图像分割

3.3 兰德指数

 

  







其中 C 表示实际类别信息，K 表示聚类结果，a 表示在 C 与 K 中都是同类别的元素对

数，b 表示在 C 与 K 中都是不同类别的元素对数。RI 的取值为[0,1]，值越大表示聚类结果与

真实情况越吻合。

RI 越大表示聚类效果准确性越高同时每个类内的纯度越高。为了实现“在聚类结果随机

产生的情况下，指标应该接近零”，调整兰德系数（Adjusted rand index）被提出，它具有更

高的区分度：

 

  󰇟󰇠



󰇛



󰇜

 󰇟󰇠

ARI 取值范围为[−1,1]，值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲，

ARI 衡量的是两个数据分布的吻合程度。

3.4 互信息

互信息指的是两个随机变量之间的关联程度如下公式计算:

四、Kmeans 算法

4.1 原理概述

K 均值聚类算法是应用最广泛的基于划分的聚类算法之一，适用于处理大样本数据。

它是一种典型的基于相似性度量的方法,目标是根据输入参数 K 将数据集划分为 K 簇。由

于初始值、相似度、聚类均值计算策略的不同，因而有很多种 K 均值算法的变种。在数

据分布接近球体的情况下，K 均值算法具有较好的聚类效果。

(1)选取 K 个初始聚类中心,



󰇛󰇜，



󰇛󰇜，…，



󰇛󰇜，其中括号内的序号为寻找聚类中

心的迭代运算的次序号。聚类中心的向量值可任意设定，例如，可选开始的 K 个模式样本

的向量值作为初始聚类中心。

(2）根据最小距离标准将要分类的模式样本 X={x}分配给 K 个簇中心中的某一个





󰇛󰇜，则 x 与各聚类中心的最小距离





󰇛󰇜  󰇝  



   󰇞

则   



󰇛󰇜，其中 t 表示迭代次数，



表示第 j 个聚类簇，囚此其聚类中心是



。

(3）计算各个聚类中心的新的向量值，



󰇛  󰇜，  ，， ，，并计算各聚类簇

中样本数据的均值向量:

剩余21页未读，继续阅读

评论收藏

内容反馈

ZJH01080108

粉丝: 153
资源: 16

Kmeans 和 FCM 算法.pdf

评论0

最新资源

Kmeans 和 FCM 算法.pdf

评论0

基于用户评分Kmeans聚类的协同过滤推荐算法实现.pdf

数据挖掘技术在图情领域的应用研究——基于KMeans聚类算法.pdf

Kmeans聚类算法入门.pdf

matlab实现Kmeans聚类算法.pdf

GA遗传算法-Kmeans-FCM-matlab

K-means算法的Matlab实现以及Iris数据集

09-提交-无监督-kmeans实现图像分割.pdf

云计算平台上的Canopy-Kmeans并行聚类算法研究.pdf

博客中Kmeans以及FCM算法数据（免积分）

毕业设计源码-基于Spark的Kmeans聚类算法优化.zip

K-Means聚类算法java实现.pdf

kmeans分析.R.r

(完整版)matlab实现Kmeans聚类算法.pdf

Matlab中Kmeans函数的使用.pdf

论文研究-基于MapReduce的Canopy-Kmeans改进算法.pdf

大数据经典算法Kmeans讲解优品文档.ppt

Kmeans聚类分析基础.pdf

06聚类算法Kmeans资料与代码.7z

ChatGPT教程（终极版）最全整理

基于Python+pytorch的图像处理+附完整代码图像处理，能够轻松实现图像的读取、显示、裁剪等还有机器学习等操作

hugging face的models-openai-clip-vit-large-patch14文件夹

神经网络回归预测--气温数据集

XGBoost+LightGBM+LSTM-光伏发电量预测

Mathwork+Matlab+编程手册

yolov8调用zed相机实现三维测距（版本一）

基于CNN卷积神经网络花朵花卉识别系统GUI界面.zip代码119

Stable-Diffusion WEBUI 简体中文语言包（2023.05.30更新）

时间序列预测模型实战案例(Xgboost)(Python)(机器学习)包括时间序列预测和时间序列分类，点击即可运行！

亚博K210模型训练部署

最新资源