DENCLUE基于密度分布函数的聚类
本文摘选自数据挖掘: 概念与技术(原书第 3 版).
Jiawei Han, Micheline Kamber, Jian Pei 著; 范明, 孟小峰译. 机械工业出版社
摘要在 DBSCAN 和 OPTICS 中,密度通过统计被半径参数 ε 定义的邻域中的对象个数来计
算。这种密度估计对所使用的半径值非常敏感。为了解决这一问题,可以使用核密度估计。
DENCLUE 使用高斯核估计基于给定的待聚类的对象集密度。DENCLUE 有一些优点。它可以视
为多种著名的聚类方法(如单连接方法和 DBSCAN)的一般化。此外,DENCLUE 是抗噪声的。
关键词DENCLUEu密度分布函数u聚类
密度估计是基于密度的聚类方法的核心问题。 DENCLUE(DENsity-based CLUstEring,基于密度的聚
类)是一种基于一组 密 度 分布函数 的 聚类算法。 我们先给出密 度估计的 一 些 背景知识 , 然 后介绍
DENCLUE 算法。
在概率统计中,密度估计是根据一系列观测数据集来估计不可观测的概率密度函数。在基于密度聚
类的背景下,不可观测的概率密度函数是待分析的所有可能的对象的总体的真实分布。观测数据集被看
做取自该总体的一个随机样本。
在 DBSCAN 和 OPTICS 中,密度通过统计被半径参数 ε 定义的邻域中的对象个数来计算。这种密度
估计对所使用的半径值非常敏感。例如,在图 1 中,随着半径的稍微增加,密度显著改变。
图 1 DBSCAN 和 OPTICS 中密度估计的微妙变化。邻域半径从 ε
1
稍增加到 ε
2
导致高得多的密度
为了解决这一问题,可以使用核密度估计(kernel density estimation),它是一种源自统计学的非参数密
度估计方法。核密度估计的一般思想是简单的。我们把每个观测对象都看做周围区域中高概率密度的一
个指示器。一个点上的概率密度依赖于从该点到观测对象的距离。
设 x
1
,…,x
n
是随机变量 f 的独立的、等分布样本。概率密度函数的近似核密度为
(1)
其中,K()是核,h 是用作光滑参数的带宽。核(kernel)可以看做一个函数,对其邻域中的样本点的影响建
模。从技术上讲,核 K()是一个非负的实数值可积函数,满足两个要求