第 36 卷第 5 期
Sep.
2010
west University for Nationalitie
___________________________________________________________________
___________________________
收稿日期:2010-06-18
作者简介:蔡利平(1973- ), 女, 四川南充人, 西南民族大学校园网络管理中心(CNMC)工程师, 计算机应用专业硕士, 主要研究方
向: 知识发现及网络数据处理.
基金项目:四川省科技厅项目资金资助, 作者为项目主持人, 项目编号: 2008ZR0162.
文章编号: 1003-2843(2010)05-0841-03
高维数据上的自适应谱聚类降维方法研究
蔡利平
1
, 周绪川
2
(1. 西南民族大学校园网络管理中心; 2. 西南民族大学计算机科学与技术学院, 四川成都 610041)
摘 要:本文从数据挖掘的角度, 研究高维数据的有效聚类分析技术, 针对高维科学数据提出一种基于子空间的自适应
谱聚类方法, 该方法通过采用谱分析技术将高维数据投影到低维空间, 仿真结果表明, 得到了很好的检测效果.
关键字:高维数据; 子空间; 谱聚类; 投影
中图分类号: TP311.13 文献标识码: A
1 前言
数据挖掘是知识发现的一种重要工具, 它的目的是发现隐含在大量数据中有价值的模式信息. 现实世界中
所面临的数据, 特别是科学领域的应用中, 大部分都是高维的, 高维数据具有不同于低维数据的特殊性质, 导致
很多常规算法失效或算法效率很低, 无法广泛运用和推广. 高维数据的挖掘问题已经在数据挖掘领域引起了的
广泛关注, 并且多年来一直是研究热点. 在高维数据挖掘的应用中一直存在着两个重要的关键问题, 分别是由
稀疏数据引起的挖掘性能问题和高维空间中距离函数失效引起的挖掘效果问题. 例如, 当少量数据点均匀分布
在高维空间中时, 任意两点之间的距离和随机抽取两个点之间的距离均近似相等. 如果以 d 表示高维数据的维
数, dist 为距离函数, dist
max
和 dist
min
分别代表高维数据集中任意两点之间的最大距离和最小距离, 则有
[1]
:
max min
min
d
dist dist
dist
(1)
当维数越来越高时, 最大距离和最小距离之间的差距概率趋于 0. 此时传统的距离定义无法对高维数据点
之间的相对位置进行量化描述, 进而最近邻的概念也就不复存在, 聚类也就失去了意义, 最终导致无法定义异
常. 为了解决这个问题, 研究者们提出了两类解决方案, 一类方法致力于重新设计高维空间中的距离函数以适
应各种应用的需要;另一类将高维数据挖掘投影到低维空间然后采用传统技术进行分析. 本文主要研究基于子
空间投影的高维数据聚类技术, 通过采用谱分析技术将高维数据投影到低维空间, 提高挖掘效率.
2 投影聚类技术
投影聚类技术主要研究如何用较少的维数表示高维数据原有特征. 通过高维数据子空间投影表示, 能够获
得更为稳定的聚类效果, 同时删去多余的或不相干的信息, 便于发现高维数据中的固有模式. 具体来说基于投