http://www.paper.edu.cn
一种面向混合属性数据流的半监督加权聚类方法
陈新泉
上饶师范学院数学与计算机系
chenxqscut@126.com
摘 要:为解决无限的混合属性数据流在有限内存空间里的加权聚类分析问题,给出了一种
加权聚类及演化分析框架。该框架是以小样本决策树分类器作为加权聚类分析的基础。为及
时记录聚类簇的必要信息,给出了混合属性数据流的聚类特征向量组定义。为及时更新混合
属性数据流的特征权重向量,给出了一种面向混合属性数据流的特征权重优化方法。最后对
混合属性数据流的加权聚类及演化分析作了必要的讨论,它对于框架的具体实现是有重要意
义的。
关键词:有序属性;无序类别属性;混合属性;聚类特征结构;特征权重演化
中图分类号:TP181
1 引言
在聚类分析中,有一个经常使用的很重要的概念-相似性度量或距离度量。
许多聚类算法往往未能考虑不同的维度对聚类的形成具有不同的重要性,为了简
化处理,通常将各维的特征权重设为 1 来参与聚类过程中的相似性计算。在数据
挖掘领域,考虑到各维对聚类的形成具有不同的作用并提出一些在聚类分析过程
中同时获取到特征权重的研究有:Joshua Zhexue Huang等
[1]
的WKMeans算法,
Wang X.Z.等
[2]
的改进的FCM聚类算法,王丽娟等
[3]
提出的CF-WFCM算法,陈新
泉
[4]
提出的特征加权的模糊C聚类算法。投影聚类和子空间聚类也考虑到特征在
聚类分析中起不同大小的作用。关于投影聚类较早的研究有Aggarwal C等提出一
种高维数据流的投影聚类框架
[5]
,C. C. Aggarwal等的快速投影聚类算法
[6]
,高维
空间的推广投影聚类算法
[7]
,Gabriela Moise等的健壮的投影聚类方法
[8]
。
关于子空间聚类较早的研究有R. Agrawal等的高维空间的自动子空间聚类
算法
[9]
。
为解决实际课题中大量存在的无类别标号海量数据集的分类和聚类,与领域
专家来进行类别标识的高代价这对矛盾,近年来提出了半监督学习这个概念和方
法。半监督学习是机器学习中的一个重要分支,它的兴起是有其实际应用背景及
广泛需求的。所以通常采用的策略是建立具有类别标号的小样本数据集来构造分
类器,而大量的无类别标号的海量数据集来作聚类分析,两者结合起来为后续的
数据挖掘提供信息服务。关于半监督聚类较早的研究有S. Basu等提出的基于种子
的半监督聚类算法
[10]
,对等约束半监督聚类
[11]
,基于搜索和相似度的半监督聚
类方法
[12]
。
- 1 -
评论0
最新资源