DENCLUE：基于密度分布函数的聚类.pdf资源-CSDN文库

版权申诉

41 浏览量 2022-07-10 13:19:27 上传评论收藏 239KB PDF 举报

资源推荐

资源详情

资源评论

DENCLUE基于密度分布函数的聚类

本文摘选自数据挖掘: 概念与技术(原书第 3 版).

Jiawei Han, Micheline Kamber, Jian Pei 著; 范明, 孟小峰译. 机械工业出版社

摘要在 DBSCAN 和 OPTICS 中，密度通过统计被半径参数 ε 定义的邻域中的对象个数来计

算。这种密度估计对所使用的半径值非常敏感。为了解决这一问题，可以使用核密度估计。

DENCLUE 使用高斯核估计基于给定的待聚类的对象集密度。DENCLUE 有一些优点。它可以视

为多种著名的聚类方法(如单连接方法和 DBSCAN)的一般化。此外，DENCLUE 是抗噪声的。

关键词DENCLUEu密度分布函数u聚类

密度估计是基于密度的聚类方法的核心问题。 DENCLUE(DENsity-based CLUstEring，基于密度的聚

类)是一种基于一组密度分布函数的聚类算法。我们先给出密度估计的一些背景知识，然后介绍

DENCLUE 算法。

在概率统计中，密度估计是根据一系列观测数据集来估计不可观测的概率密度函数。在基于密度聚

类的背景下，不可观测的概率密度函数是待分析的所有可能的对象的总体的真实分布。观测数据集被看

做取自该总体的一个随机样本。

在 DBSCAN 和 OPTICS 中，密度通过统计被半径参数 ε 定义的邻域中的对象个数来计算。这种密度

估计对所使用的半径值非常敏感。例如，在图 1 中，随着半径的稍微增加，密度显著改变。

图 1 DBSCAN 和 OPTICS 中密度估计的微妙变化。邻域半径从 ε

1

稍增加到 ε

2

导致高得多的密度

为了解决这一问题，可以使用核密度估计(kernel density estimation)，它是一种源自统计学的非参数密

度估计方法。核密度估计的一般思想是简单的。我们把每个观测对象都看做周围区域中高概率密度的一

个指示器。一个点上的概率密度依赖于从该点到观测对象的距离。

设 x

1

，…，x

n

是随机变量 f 的独立的、等分布样本。概率密度函数的近似核密度为

(1)

其中，K()是核，h 是用作光滑参数的带宽。核(kernel)可以看做一个函数，对其邻域中的样本点的影响建

模。从技术上讲，核 K()是一个非负的实数值可积函数，满足两个要求

∫

−∞

+∞

K (u )du=1

，并且对于所

有的 u 值，K(-u)=K(u)。经常使用的核是均值为 0，方差为 1 的标准高斯函数

(2)

1 / 2

DENCLUE基于密度分布函数的聚类

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

内容反馈

版权申诉

努力搬砖的小王

粉丝: 16
资源: 7706

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip