论文研究-高维分类属性的子空间聚类算法.pdf资源-CSDN文库

分类属性

需积分: 14 104 浏览量 2019-08-15 15:38:14 上传评论 1 收藏 394KB PDF 举报

资源详情

资源评论

http://www.paper.edu.cn

- 1 -

高维分类属性的子空间聚类算法

王新艳

大连理工大学软件学院，大连(116620)

E-mail：xinyan20001@163.com

摘要：高维分类数据的处理一直是数据挖掘研究所面临的巨大挑战。传统聚类算法主要针

对低维连续性数据的聚类，难以处理高维分类属性数据集。本文提出了一种处理高维分类数

据集的子空间聚类算法(FPSUB)。它利用 FP-Tree 结构存储数据集的所有信息，将聚类问题

转化为寻找属性值的频繁模式问题，得到的频繁模式即候选子空间，然后基于这些子空间进

行聚类。本文利用该算法在真实数据集上进行了实验，实验结果表明，该算法比其他算法具

有更高的准确度。

关键词：分类属性；子空间聚类；频繁模式；FP-树

中图分类号：TP311

1. 引言

聚类作为数据挖掘的一个重要领域，已经被广泛探讨与研究。之前对分类数据的工作主

要关注于二进制或事务型的数据集

[1,2]

，或将高维分类数据集进行压缩的架构

[3]

，或利用超图

对聚类项集进行分离

[4]

。传统聚类算法并不适用于日益庞大的高维分类数据集，这是因为传

统的距离测量方式不再适用于分类数据，并且在高维数据空间上，对象之间的距离变得几乎

等同。从而研究者针对高维分类数据提出了许多聚类算法

[5-9]

。

Ganti V 等针对传统聚类算法只能处理连续性数据，并且未能给定分类属性数据集的聚

类定义等问题，采用分类数据集的摘要信息进行聚类的思想，提出了 CACTUS

[5]

算法。Barbara

D 等针对大多数对分类属性数据集进行聚类的算法过多依赖于距离矩阵使用的问题，基于

“相似簇比相异簇具有更小的熵值”的思想，提出了 COOLCAT

[6]

算法，是一种增量的启发式

算法。Andritsos P 等同样针对传统聚类算法只能处理连续性数据的问题，采用基于信息瓶颈

框架的一种最近信息理论，提出了 LIMBO

[7]

聚类算法，是一种可伸缩的层次性的分类聚类

算法。Guha S 等针对传统聚类算法利用数据点间距离表示对象相似性的理论不适用于二进

制和分类数据集的问题，采用基于两条记录之间链接的数目来衡量记录之间的相似度，链接

表示了与该记录足够相似的记录数目的思想，提出了 ROCK

[8]

算法，它是一种凝聚的层次聚

类算法。该算法的时间复杂度是立方级的，不适合处理大型数据集。Darshit Parmar 等针对

聚类过程中出现的不确定性问题，利用模糊集合理论的思想，提出了 MMR

[9]

算法，从而实

现对分类数据集的聚类。

但是这些算法均从全维数据空间对数据进行分析，算法的可伸缩性较差，通过广泛的研

究证明，在分类数据集，尤其是高维分类数据集中，有很多聚类结果在全维属性空间中可能

是不相似的，但在属性子集空间中，它们却具有很高的相似性，然而这些聚类算法都不能发

现隐含在属性子集上的聚类结果，从而提出了子空间聚类算法。

Agrawal R 等人首先在 CLIQUE

[10]

中提出子空间聚类算法的思想,随后在

[11-13]

中也提到

了几个子空间聚类算法。算法 CLIQUE

[10]

依赖于有序的密集区域，将连续性数据进行离散

化，然而分类数据不存在这样的序列。算法 DOC

[11]

，PROCLUS

[12]

，ORCLUS

[13]

需要进行

数值计算（如中值，均值，方差等），也不适用于分类数据集。这些算法仅能处理连续性数

据，却不能处理分类数据集，将它们用于处理分类数据会有几个很难克服的问题。

本课题得到国家自然科学基金项目(70671016)、国家自然科学基金项目(60673066)的资助。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余9页未读，立即下载

评论收藏

内容反馈

论文研究-高维分类属性的子空间聚类算法 .pdf

评论0

最新资源

论文研究-高维分类属性的子空间聚类算法 .pdf

评论0

最新资源

相关推荐

高维数据子空间聚类算法研究.pdf

高维数据子空间聚类算法研究

论文研究-基于方差权重矩阵模型的高维数据子空间聚类算法.pdf

论文研究-一种改进的SUBCLU高维子空间聚类算法.pdf

一种基于相似维的高维子空间聚类算法.pdf

论文研究-基于k最相似聚类的子空间聚类算法 .pdf

论文研究-一种基于信息熵的子空间聚类算法.pdf

论文研究-基于子空间聚类的高维数据可视分析方法综述.pdf

采用属性聚类的高维子空间聚类算法_牛琨

论文研究-结合最近邻与闭模式子空间聚类方法.pdf

面向高维特征故障数据的进化软子空间聚类算法.pdf

论文研究-二元数据子空间聚类算法的初始化研究.pdf

一种基于网格方法的高维数据流子空间聚类算法

一种基于海量高维数据的软子空间聚类改进算法

一种基于相似维的高维子空间聚类算法.docx

面向高维特征故障数据的进化软子空间聚类算法.docx

论文研究-一种可信子空间标志方法.pdf

论文研究-基于Nystr?m谱聚类的词典学习.pdf

论文研究-子空间聚类在入侵特征选择中的应用.pdf

第一讲：python网络爬虫基础知识

Python基于机器学习实现的股票价格预测、股票预测源码+数据集，机器学习大作业

身份证前6位对应的省市区代码（超详细）

【Python实战】-Python+Opencv是实现车牌自动识别（源码+数据+字符匹配模板）

抖音用户浏览行为数据集

基于在线教学平台的数据挖掘与学习行为分析超星集团数据集

两阶段鲁棒优化/综合能源系统/需求响应/微电网/多目标优化/优化调度matlab-yalmip-cplex/gurobi文章复现

regress函数实例代码

SPSS中介效应分析插件（Process和mediate插件）

Fragstats V4.2 软件计算景观指数的参数文件示例