DBSCAN 聚类
一、概述
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的
聚类算法,簇集的划定完全由样本的聚集程度决定。聚集程度不足以构成簇落的那些样本视
为噪声点,因此 DBSCAN 聚类的方式也可以用于异常点的检测。
二、算法原理
1.基本原理
算法的关键在于样本的‘聚集程度’,这个程度的刻画可以由聚集半径和最小聚集数两个
参数来描述。如果一个样本聚集半径领域内的样本数达到了最小聚集数,那么它所在区域就
是密集的,就可以围绕该样本生成簇落,这样的样本被称为核心点。如果一个样本在某个核
心点的聚集半径领域内,但其本身又不是核心点,则被称为边界点;既不是核心点也不是边
界点的样本即为噪声点。其中,最小聚集数通常由经验指定,一般是数据维数+1 或者数据
维数的 2 倍。
通俗地讲,核心点就是构成一个簇落的核心成员;边界点就是构成一个簇落的非核心成
员,它们分布于簇落的边界区域;噪声点是无法归属在任何一个簇集的游离的异常样本。如
图所示。
对于聚成的簇集,这里有三个相关的概念:密度直达,密度可达,密度相连。
密度直达:对一个核心点 p,它的聚集半径领域内的有点 q,那么称 p 到 q 密度直达。
密度直达不具有对称性。