没有合适的资源？快使用搜索试试~ 我知道了~

文库首页安全技术网络安全机器学习-聚类算法1

机器学习-聚类算法1

机器学习

聚类

需积分: 0 5 下载量 190 浏览量 2022-08-03 19:45:56 上传评论收藏 979KB PDF 举报

温馨提示

试读

23页

介绍几种K-Means改进的算法。K-Means++算法在聚类中心的初始化过程中的基本原则是使得初始的聚类中心之间的相互距离尽可能远，这样可以避免出现上述的问题

资源详情

资源评论

参考：

基础聚类 https://www.jianshu.com/p/8890ccdfaf6c

其他聚类 https://www.jianshu.com/p/8890ccdfaf6c

基础聚类

这里将介绍无监督学习算法，也就是聚类算法。在无监督学习中，目标属性是不存在的，也就是所说

的不存在“y”值，我们是根据内部存在的数据特征，划分不同的类别，使得类别内的数据比较相

似。

我们对数据进行聚类的思想不同可以设计不同的聚类算法，本章主要谈论三种聚类思想以及该聚类思

想下的三种聚类算法。

“距离”

•

K-Means算法

•

几种优化K-Means算法

•

密度聚类

•

本章主要涉及到的知识点有：

算法思想：“物以类聚，人以群分”

本节首先通过聚类算法的基本思想，引出样本相似度这个概念，并且介绍几种基本的样本相识度方

法。

如何将数据划分不同类别

通过计算样本之间的相识度，将相识度大的划分为一个类别。衡量样本之间的相识度的大小的方式有

下面几种：

闵可夫斯基距离

（Minkowski距离）也就是前面提到的范式距离

当p=1时为曼哈顿距离，公式如下（以二维空间为例）：

机器学习-聚类算法

2021

年

月

日

11:20

分区计算机专业课的第

页

当p=2时，为欧几里得距离，公式如下：

当p=为无穷大时候，为切比雪夫距离，公式如下：

一般情况下用欧几里得距离比较多，当数据量出现扁平化时候，一般用切夫雪比距离。

夹角余弦相识度

假设两个样本有2个特征，

则这两个样本的夹角余弦相似度公式如下：

最常见的应用就是计算文本相似度。将两个文本根据他们词，建立两个向量，计算这两个向量的余弦

值，就可以知道两个文本在统计学方法中他们的相似度情况。实践证明，这是一个非常有效的方法。

杰卡德相似系数（Jaccard）

适用于样本只有（0,1）的情况，又叫二元相似性，计算公式如下：

将杰卡德相似性度量应用到基于物品的协同过滤系统中，并建立起相应的评价分析方法。与传统相

似性度量方法相比，杰卡德方法完善了余弦相似性只考虑用户评分而忽略了其他信息量的弊端，特别

适合于应用到稀疏度过高的数据。

类别的定义：簇

前面我们讲到把数据划分为不同类别，机器学习给这个类别定义一个新的名字—簇。

q 每个簇至少包含一个对象

q 每个对象属于且仅属于一个簇

q 将上述条件的k个簇成为一个合理的聚类划分

将具有M个样本的数据换分为k个簇，必然k<=M。簇满足以下条件：

对于给定的类别数目k,首先给定初始划分,通过迭代改变样本和簇的隶属关系,使的每次处理后得到的

划分方式比上一次的好(总的数据集之间的距离和变小了）。

下面介绍一种最常用的一种最基本的算法—K-Means算法

K-Means算法

分区计算机专业课的第

页

K-Means算法

K- means算法,也称为K-平均或者K-均值,是一种使用广泛的最基础的聚类算法,一般作为掌握聚类算

法的第一个算法。

K-Means构建步骤

K-Means算法过程

根据构建K-Means算法步骤用图表示出来结果如图所示：

原始数据集有N个样本，人为给定两个中心点。

分别计算每个样本到两个中心点之间的距离，可选欧几里得距离，计算公式用9.1所提到的公式

如下所示：

把样本分为了两个簇，计算每个簇中样本点的均值为新的中心点。计算公式如下：

重复以上步骤，知道达到前面所说中止条件。

我们用语言和公式来还原上述图解的过程：

分区计算机专业课的第

页

重复以上步骤，知道达到前面所说中止条件。

K-Means的损失函数

我们的目的就是使得最终得到的中心点使得，每个样本到中心点和最小，每个样本到中心点距离公式

为：

为了使损失函数最小，求偏导可以得到中心点的更新公式为：

K-Means算法遇到的问题

K- means算法在迭代的过程中使用所有点的均值作为新的质点(中心点),如果簇中存在异常点,将

导致均值偏差比较严重。

例如：

一个簇中有2、4、6、8、100五个数据,那么新的质点为24,显然这个质点离绝大多数点都比较

远;在当前情况下,使用中位数6可能比使用均值的想法更好,

使用中位数的聚类方式叫做K-

Mediods聚类(K中值聚类)

初值敏感

K- means算法是初值敏感的,选择不同的初始值可能导致不同的簇划分规则。

为了避免这种敏感性导致的最终结果异常性,可以采用初始化多套初始节点构造不同的分类规则,

然后选择最优的构造规则。

又或者改变初始值的选择。这样通过改进的K-Means算法，将在下面进行一一介绍。

下面给出一个初始值敏感的直观例子。给定一定的数据点如图9.3所示，我们明显等看到可以划

分为四个区域：

假如我们随机给定的中心点A,B,C,D如图9.3所示：

根据上面我们掌握的K-Means算法原理，发现有两个问题会很大影响K-Means算法。

分区计算机专业课的第

页

剩余22页未读，继续阅读

评论收藏

内容反馈

机器学习-聚类算法1

评论0

最新资源

机器学习-聚类算法1

评论0

最新资源

相关推荐

机器学习大作业-机器学习分类-回归-聚类算法项目源码（共八次高分作业项目）.zip

机器学习算法原理-聚类算法_V3.pdf

机器学习-聚类

实验五 K-Means聚类算法.ipynb

第八节-聚类算法实验分析（第一章: 机器学习算法精进及其案例应用(课程笔记) ）

无监督学习-kmeans聚类算法及手动实现jupyter代码.ipynb

机器学习课程作业-基于matlab实现K-means聚类算法并应用于压缩图像(matlab完整源码).zip

K-means聚类算法.pptx

机器学习-聚类.ppt

python实现机器学习K-means聚类算法.zip

人工智能-机器学习-聚类算法-FCM模糊聚类-Python算法实现

鸢尾花IRIS数据集-聚类分析机器学习

工具系列：PyCaret 介绍-聚类算法案例.ipynb

（带注释）基于K-means聚类算法的图像区域分割.zip

K-均值聚类算法研究

机器学习 聚类算法

机器学习聚类算法包括训练数据

Python机器学习实验-聚类-sklearn模块中的KMeans算法

java实现聚类算法，Kmeans

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

现代永磁同步电机控制原理及MATLAB仿真__袁雷编著1

全面的安全基线核查清单

OpenVAS离线资源

机器学习聚类算法