基于区分链表的属性约简改进算法
摘 要 属性约简是粗糙集理论中核心内容之一,本文首先分析了区分矩阵的
特性,给出经典的区分矩阵算法。然后,鉴于区分矩阵存在的空间复杂度高的缺
点,提出一种基于区分链表的属性约简改进算法,将对象数为n 的区分矩阵大小由
n(n-1)/2 至少压缩到|U/R|*(|U/R|-1)/2,降低了算法的空间复杂度,更适用于
大数据量的情况。
关键词 粗糙集;区分矩阵;属性约简;区分线性表
1 引言
粗糙集(Rough Set ,RS) 理论是 Z.Pawlak 提出的一种处理不一致、不
完整数据和不精确知识表达等各种不完备信息的数学理论
[1]
。其中属性约简是粗
糙集理论中核心内容之一,现已证明是典型的 NP 难题
[2,3]
。所谓属性约简是指在
保证信息系统分类能力或决策能力不变的条件下,删除属性集中的冗余属性。属性
约简在分类学习及分类数据挖掘中具有重要的作用,目前国内外学术界在属性约简
方面已经做了大量研究,并得到了许多有效的算法
[4~6]
。文献[4] 深入分析了算
法低效性的根源,给出了高效的约简算法;文献[5]给出了基于信息论的方法;文
献[6]利用正区域的启发式信息给出了两种属性相对约简算法;其中应用较多的是
基于华沙大学数学家 Skowron 提出差别矩阵
[7]
以及在此基础上的一些改进
[9~11]
,
由于这种基于区分矩阵方法易于解释和计算核属性,同时也便于约简,该方法为属
性约简算法提供了一种很好的思路。然而,基于区分矩阵的属性约简算法对对象数
为 n 的区分矩阵大小为 n(n-1)/2,不适用于大数据量的情况,所以本文给出了一
种改进算法,将空间复杂度至少压缩到|U/R|*(|U/R|-1)/2,该算法大大降低了
算法的空间复杂度,适用于大数据量的情况。
2 基本概念
定义 1
[2]
:设 U 为一个有限的非空论域,R 为 U 上的等价关系。等价关系
R 把集合 U 划分为多个互不相交的子集,每一个子集称为一个等价类,用[x]
R
表
示, [x]
R
={y∈U|
xRy
},其中 x∈U,x∈y 称为关于 R 的等价关系,论域 U 上的
所有等价类的集合用 U/ R 来表示。
定义 2
[2]
:令 R 为一族等价关系,r R,如果 IND(R)= IND(R-{
r
}),则
称 r 为 R 中不必要的;否则 r 为 R 中必要的
[2]
,若 R 中任意一个等价关系 r 都是
必要的,则称 R 是独立的,否则称 R 是依赖的。