【免费】机器学习与深度学习面试系列十一（聚类和EM）1资源-CSDN文库

需积分: 0 90 浏览量更新于2022-08-03 1 收藏 939KB PDF 举报

机器学习与深度学习面试系列中，聚类是一个重要的主题，涉及无监督学习方法，用于将数据点分组，使得同一组内的数据具有相似性，而不同组之间则差异较大。聚类算法通常不依赖于预先标记的数据，而是通过数据自身的特性进行分析。 1. **层次聚类** 分为自下而上和自上而下两种方式。自下而上（凝聚型）从单个数据点开始，逐步合并最相似的类，直到满足停止条件（如类的数量或相似性阈值）。自上而下（分裂型）则相反，从所有数据点构成一个大类开始，逐渐分裂成小类。常用的距离度量有类间最短距离、最长距离、类中心距离和类平均距离等。 2. **基于划分的聚类** 以K-means算法为代表，需要预先设定聚类数量K。算法流程包括选择初始质心，将数据分配到最近的质心所属的类，然后更新质心为类内点的平均值，不断迭代直至质心不再改变。K-means算法的关键是选择合适的K值，常使用手肘法来判断最佳K值。 3. **基于密度的聚类** 如DBSCAN，不依赖于预先设定的类数量，而是根据数据点的密度来识别簇。高密度区域被视为聚类，低密度区域作为噪声或连接簇的边界。 4. **基于网格的聚类** 通过将数据空间划分为网格，计算每个网格的密度，然后根据预设阈值合并高密度网格形成聚类。这种方法在处理速度上有优势，但对数据维度敏感，且易受网格大小和阈值设置影响。 5. **基于模型的聚类** 包括概率模型（如高斯混合模型GMM）和神经网络（如自组织映射SOM）。GMM假设数据由多个高斯分布混合生成，每个数据点属于某一类的概率可计算。 K-means算法的损失函数，也称为畸变函数，是所有数据点与其所在类质心之间距离平方和的总和。选择K值时，可以通过手肘法则，观察不同K值对应的损失函数曲线，拐点处的K值通常被认为是最佳选择。K-means算法对初始质心的选择敏感，可能只找到局部最优解，且易受噪声点影响。因此，数据通常需要进行归一化处理以消除不同维度的影响，提高聚类质量。此外，K-means算法不适用于形状不规则或大小差异悬殊的簇。

机

器

学

习

与

深

度

学

习

⾯

试

系

列

⼗

⼀（

聚

类

和

）

什么

是

聚

类

？

常

⻅

的

聚

类

算

法

包

括

哪

些

？

聚

类

是

⼀

种

机

器

学

习

技

术

，

它

涉

及

到

数据

点

的

分

组

。

给

定

⼀

组

数据

点

，

我

们

可

以使

⽤

聚

类

算

法

将

每

个

数据

点

划分

为

⼀个

特

定

的

组

。

理

论

上，

同

⼀

组

中

的

数据

点

应

该

具

有

相

似

的

属

性

和

或

特

征

，

⽽

不

同

组

中

的

数据

点

应

该

具

有

⾼

度

不

同

的

属

性

和

或

特

征

。

聚

类

是

⼀

种

⽆

监督

学

习

的

⽅

法

，

是

许

多

领

域

中

常

⽤

的

统

计

数据

分

析

技

术

。

层

次

聚

类

。

进

⼀

步

地

看

，

⼜

有

⾃

下

⽽

上

和

⾃

上

⽽

下，

其

中

前

者

最

开

始

时

每

个

样本

⾃

成

⼀

类

，

之

后

将

最

相

似

的

两

类

合

并

称

为

⼀个

新

的

类

，

重

复

直

到

满

⾜

停

⽌

条

件

，

这

⾥

的

停

⽌

条

件

可

能

是

类

的

个

数

，

也

可

能

是

相

似

性

阈

值

等等

，

⾃

上

⽽

下

则

相

反

，

最

开

始

时

将

所

有样本

都

分

为

⼀

类

，

迭

代

地

将

类

拆

分

，

直

到

满

⾜

类

似

的

停

⽌

条

件

。

层

次

聚

类

中

合

并

类

或拆

分

类

⼀

般

是根

据

类

间

距

离

，

类

似

LDA

中

所

说

的

“

类

间间

距

最

⼤

”

，

衡

量

不

同

类

之

间

的

距

离

在

不

同

的

距

离

测

度

之

上

还

有

很

多

种

应

⽤

⽅

法

，

⽐

如

类

间

最

短

距

离

、

最

⻓

距

离

、

类

中

⼼

距

离

、

类

平

均

距

离

。

基

于

划分

的

聚

类

。

简

单

说

就

是

对

于

⼀

堆

待

聚

类

的

数据

点

，

先

确

定

最

后

期望

聚

成

⼏

类

，

然

后

挑

选

⼏

个

点

作为

初

始

中

⼼

点

，

根

据

预

定

的

启发

式

的

⽅

法

做

迭

代

，

直

到

达

到

我

们

的

停

⽌

条

件

。

例

如

：

mea

算

法

。

基

于

密

度

的

聚

类

。

这

个

类

型

则

是

为了

处

理

以

密

度

为

特

征

的

类

⽽

设计

的

算

法

，

例

如

：

DBSCAN

。

基

于

⽹

格

的

聚

类

。

这

类

算

法

将

整

个

数据

空

间

划分

为

⽹

格

单

元

，

将

数据

对

象

集

映

射

到

⽹

格

单

元

中

，

然

后

计

算

每

个

单

元

的

密

度

，

将

满

⾜

预

设

阈

值

的

⽹

格

合

并

组

成

类

。

可

想

⽽

知

，

这

种

⽅

法

虽

然

简

单

处

理

速

度快

，

但

对

数据

维

数

极

为

敏

感

，

⽽

且

对

⽹

格

⼤

⼩

阈

值

等

参

数

也

很

敏

感

。

基

于

模

型

的

聚

类

。

进

⼀

步

地

看

，

主

要

有

基

于

概

率

模

型

的

和

基

于

神

经⽹络

的

；

前

者

主

要

是

认

为

每

⼀

类

数据

属

于

⼀个

概

率

分

布

，

样本

集

合

是

由

混

合

概

率

分

布

⽣

成

的

，

其

中

每

⼀个

数据

点

不

再

是

⼀

定属

于

某

⼀

类

，

⽽

是

以

概

率

的

形式

来

看

，

典

型

的

是

⾼

斯

混

合

模

型

（

uss

，

GMM

）

；

基

于

神

经⽹络

例

如

⾃

组织

映

射

神

经⽹络

（

elf

，

SOM

）

。

下

⾯

内

容

主

要

包

括

算

法

和

GMM

。

(

均

值

)

算

法

是

怎

样

的

？

是最普

及

的

聚

类

算

法

，

算

法

接

受

⼀个

未标

记

的

数据

集

，

然

后

将

数据

聚

类

成

不

同

的

组

。

是

⼀个

迭

代

算

法

，

假

设

我

们

想

要

将

数据

聚

类

成

个

组

，

其

⽅

法

为

•

⾸

先

选

择

个

随

机

的

点

，

称

为

聚

类

中

⼼

（

ust

ntro

）；

•

对

于

数据

集

中

的

每

⼀个

数据

，

按

照

到

个

中

⼼

点

的

距

离

，

将

其

与

距

离

最

近

的

中

⼼

点

关

联

起

来

，与

同

⼀个

中

⼼

点

关

联

的

所

有

点

聚

成

⼀

类

。

•

计

算

每

⼀个

组

的

平

均

值

，

将

该

组

所

关

联

的

中

⼼

点

移

动到

平

均

值

的

位

置

。

•

重

复

步

骤

，

直

⾄

中

⼼

点

不

再

变

化

。

下载后可阅读完整内容，剩余5页未读，立即下载

资源推荐

资源评论

鸣泣的海猫

粉丝: 25
资源: 292

机器学习与深度学习面试系列十一（聚类和EM）1

机器学习（聚类十一）——不同聚类算法在不同数据分布情况下的聚类效果

【机器学习 】EM原理和K-mean聚类

机器学习系列-强填EM算法在理论与工程之间的鸿沟（上）.rar

机器学习系列-强填EM算法在理论与工程之间的鸿沟（下）.rar

matlab分时代码-flymatlib:FlyEMMatlab机器学习库，用于EM重建的深度学习方法

机器学习入门与实战(scikit-learn和Keras)课件—聚类.pdf

基于深度学习的梯度聚类SSD算法参数选择.pdf

emalgorithmusedtocluster.rar_EM matlab 聚类_EM 聚类_EM聚类算法_二维数据聚类_聚类

基于深度学习的聚类关键技术研究

爬虫+机器学习聚类分析

清华出品 机器学习技术课程 统计学习方法第二版系列课程 第9章 EM算法 共48页.pptx

线性回归, 逻辑回归, 神经网络, 贝叶斯判别器, EM算法, 聚类方法, 降维方法, 半监督学习, 强化学习和深度强化学习

KMeans_EM_SmartphoneClustering:带有GUI的机器学习KMeans和EM算法可将相似的智能手机聚类

机器学习系列-强填EM算法在理论与工程之间的鸿沟（下）.pdf

机器学习系列-强填EM算法在理论与工程之间的鸿沟（上）.pdf

Python-L2C聚类学习深度学习聚类

机器学习算法与应用大作业-基于预处理的小麦品种的分类和聚类源码.zip

人工智能-项目实践-机器学习-基于预处理的小麦品种的分类和聚类

python大数据分析与机器学习商业案例实战_新闻聚类分群模型_编程实例课程教程.pdf

Python数据分析与机器学习-聚类实践

EM_Introduction.rar_EM_EM算法_EM聚类_EM聚类算法

山东大学数据科学实验四-----机器学习：聚类和回归

Python人工智能课程 AI算法课程 Python机器学习与深度学习 7.聚类 共88页.pdf

机器学习聚类课题报告-11组1

基于无监督深度学习的声发射信号聚类分析.pdf

【机器学习项目实战】Python实现聚类(Kmeans)分析客户分组

基于深度学习的文本分类聚类工具源码+项目说明.zip

机器学习聚类算法包括训练数据

最新资源

【机器学习】EM原理和K-mean聚类

清华出品机器学习技术课程统计学习方法第二版系列课程第9章 EM算法共48页.pptx

Python人工智能课程 AI算法课程 Python机器学习与深度学习 7.聚类共88页.pdf