30号作业.zip_AEH_CFSFDP_密度峰值_密度峰值聚类资源-CSDN文库

共9个文件

txt：8个

docx：1个

版权申诉

密度峰值

密度峰值聚类

22 浏览量 2022-07-14 05:42:55 上传评论收藏 667KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

30号作业.zip （9个子文件）

30号作业

实验报告和算法源码.docx 636KB

测试数据文档

3.txt 5KB

7.txt 5KB

2.txt 4KB

6.txt 9KB

4.txt 3KB

5.txt 58KB

1.txt 10KB

8.txt 4KB

算法设计与分析实验报告

学号：12018002065 姓名：田维安

一、实验内容（问题）

实现密度峰值的聚类算法，作为不同于经典聚类算法 K-means 是

通过指定聚类中心，再通过迭代的方式更新聚类中心的方式，论文所

提出的先新聚类算法的基本思想非常新颖，因为经典算法 K-means，

由于每个点都指被指派到距离最近的聚类中心，所以导致其不能检测

非球面类别的数据分布，而且 K-means 在指定聚类中心方面，对于一

些问题的处理较为复杂。而且，根据查资料了解到的 DBSCAN

（density-based spatial clusering of applications with noise）对于任意形

状分布的进行聚类，但是必须指定一个密度阀值，从而去除低于此密

度阀值的噪音点。而论文中方法，给出了 CFDP 算法（clustering by fast

search and find of density peaks）的这样的假设:聚类中心周围都是密

度比其低的点，同时这些点距离该聚类中心的距离相比于其他聚类中

心来说是最近的。实现的问题，也就是基于这两个假设来识别和查找

聚类中心来实现这个算法的过程。

开发平台，先通过原文中作者给出的 matleb 算法的实例程序，

了解作者的算法思路，然后通过查找资料使用 pyhton 实现

开发平台：matleb，PyCharm。编程语言：MATLEB M 语言 Python

语言

二、算法描述

文中的聚类算法的主要思想，在于对聚类中心的描述上，文中认

为聚类中心同时应该具有两个非常突出的特点：

一：本身的点的密度大，也就是说这个点的密度被均不超过它密度的

邻居点所包围

二：与其他密度的更大的数据点之间的距离更远

文中针对这两个特点，来识别聚类中心，通过一系列数学上的描

述，并对识别出聚类中心之后如何将其他的数据点进行归类以及如何

处理异常点等问题，来阐述算法的设计思路。

关于对于这个算法的计算流程：

1.计算局部密度

首先对于每一个数据点，要计算两个量：点的局部密度和该点到具有

更高局部密度的点的距离，而这两个值都取决于数据点间的距离

文中的关于计算数据点的局部密度的方法为 Cut-off kernal，公式为

其中函数

参数 dc>0 为截断距离，需由用户事先指定，文中对于 dc 的确定，

文中作者给出的选择为平均每个点的邻居局密度为数据总数的

1%-2%，根据找到的很多资料，以及对于下载的实验数据，针对不一

样得情况，还需要进行调整。

2.计算距离

文中的距离定位为

对于非局部密度最大点，计算距离δi 实际上分两个部分

一：找到所有局部密度比 i 点高的点

二：在这些点中找到距离 i 点最近的那个点 j，i 和 j 的距离就是δi

的值

对于局部密度最大点，δi 实际上是该点和其他所有点距离值得

最大值。

3.找出聚类中心

根据文中的例子

图 1.算法在二维空间的展示

图一中的简单实例展示了算法的核心思想。图一的第一张图中展

示例展示了算法的核心思想，也是设计和实现这个算法的基础。通过

观察可以发现点 1 和点 10 的局部的密度最大，故将其作为类族中心。

图 B 展示了对于每一个点函数的图示（局部密度为横轴，距离为纵

轴），称其为决策图。点 9 和点 10 的局部密度值相似，但距离值却

有很大差别：点 9 属于点 1 的类族，其它几个有更高的局部密度的点

距离其很近，然而点 10 的有更高密度的最近邻属于其它的类族。所

以，可以看到，只有具有高局部密度和相对较高的距离的点才是类族

中心。而因为点 26，27，28 则是孤立的，所以具有相对较高的距离

值和低局部密度值，它们可以被看作是单个点做成的类族，也就是异

常点。

根据图 1 的左边图点的分布数据点按照密度降序排列。不同的

颜色代表不同的类族。类族中心找到后，剩余的每个点被归属到它的

有更高密度的最近邻所属类族。这也就是这个算法的最大的优点之一，

类族的分配只需一步即可完成，不像其他的经典聚类算法

（K-Means）要对目标函数进行迭代优化。

4.剩余点的类别指派

当聚类中心确定之后，剩余的点的类别标签指定按照以下原则：

一：首先规定：当前点的类别标签（也就是属于哪个聚类中心）和高

于当前点密度的最近的点的标签一致。

二：根据上面的规定对所有点的类别进行了指定。如下图所示，编号

表示密度高低，“1”表示密度最高，以此类推。“1”和“2”均为

聚类中心,”3”号点的类别标签应该为与距离其最近的密度高于其的

点一致，因此“3”号点属于聚类中心 1，由于距离“4”号点最近的

密度比其高的点为“3”号点，因此其类别标签与”3“号相同，也为

聚类中心 1，以此类推。

评论收藏

内容反馈

版权申诉

weixin_42651887

粉丝: 79
资源: 1万+

30号作业.zip_AEH_CFSFDP_密度峰值_密度峰值聚类

密度峰值聚类.zip

algorithm in paper.zip_密度峰值聚类算法_密度聚类_密度聚类方法

k-means,DB-SCAN,基于密度峰值的聚类算法的matlab简单实践。.zip

k-means,DB-SCAN,基于密度峰值的聚类算法的matlab简单实践.zip

CFSFDP_密度聚类_密度峰值_matlab_CFSFDP.zip

aeh_1129_商业银行客户开发流程.pptx

监控技术及课程设计-第三次作业.doc

aeh_广州城市规划设计院《管理沟通》课程.ppt

小额贷款公司申请资料aeh.docx

CFSFDP_密度聚类_密度峰值_matlab_CFSFDP_源码.zip

CFSFDP_密度聚类_密度峰值_matlab_CFSFDP

clusteringEvaluation.zip_Density Peaks聚类_density peaks_密度峰值_密度峰值

mainDensityClust.m副本.zip_beautyk3r_密度峰值_密度峰值 聚类_密度峰值聚类

DensityCluster.zip_-baijiahao_密度图_密度峰值算法_密度聚类_聚类 Python

金蝶K3报错补丁错误代码430(1AEH) Source KISEBSGLVouch

如何看人不走眼结构化面试技巧（PPT55页）aeh.pptx

用于控制空调的脚本，例如使用 HiSense 模块_python_代码_下载

AEH课件（为什么要多于11个字）

AEH复习笔记（为什么要多于11个字）

clustering by find od density peaks.zip_density peaks_密度峰值 聚类_密度

AEH随堂笔记（为什么要多于11个字）

AirCon:用于控制空调的脚本，例如带有HiSense模块的脚本

vmware 11下载及OS X unlocker 2.0.3

QT，JPEG解码源代码（已完成）

QT，jpeg解码project（未完成）

AEH-Producition

轻松制作自己的电子书

单片机原理发生器课程设计.doc

最新资源

mainDensityClust.m副本.zip_beautyk3r_密度峰值_密度峰值聚类_密度峰值聚类

clustering by find od density peaks.zip_density peaks_密度峰值聚类_密度