第
39
卷第
3
期
2010
年
5
月
电子科技大学学报
Joumal
ofUniversity
ofElectronic
Science
and
Technology
ofChina
于兴趣度含正负项目的关联规则挖掘方法
张玉芳
1
,熊忠阳
2
,彭燕
3
,刘君
1
Vo
l.
39 No
.3
May2010
(1.重庆大学计算机学院重庆沙坪坝区
4ω030;
2.
重庆大学电气工程博士后流动站
重庆沙坪坝区
400030;
3.
华为深圳|技术有限公司
广东深圳
518129)
【摘要】项目的引入使得挖掘出的频繁项集成倍增加,同时生成的关联规则数量更加庞大,引入兴趣皮来约束从频繁项
集中提取关联规则的数量.分析现有的兴趣皮模型,从中选择了一种适合于含iE.负项目的关联规则挖掘的兴趣度方法,并且
提出了直信度的一个性质,描述了含正负项目的频繁项集挖掘关联规则的算法,并对矛盾关联规则进行了分析.实验结果表
明,该算法是有效和可行的.
关键词关联规则,置信度;兴趣皮;负项目
中图分类号
TP311
文献标识码
A
doi:
10
.3
969/j.i
ssn.l00l-0548.2010.03.018
Association Rule Mining Method
ßased
on Interest
Measure with Positive
and
Negative Items
ZHANG
Yu_fang
1
, XIONG Zhong-yang
2
, PENG
Yan
3
, and LIU Jun
1
(1.
College
of
Computer
Scienc
晴.
Chongqing
University
Shapingba
Chongqing
400030;
2.
Post-Doctori
aI
Research
Station
ofElec
位
ic
aI
Engineerin
g.
Chongqing
University
Shapingba
Chongqing
400030;
3.
Huawei
Technologies
Co..
Ltd.
Shenzhen
Guangdong
51
g
129)
Abstract Negative item brings the increase
of
企
equent
items and makes association rules doubled. Interest
measure
is
adopted to restrict the amoun
t.
By analyzing current interest measure models, the deviation-based
interest measure
is
chosen and the confidence
proper
句,
is
presented.
An
association rule mining
algori
也m
based on
interest measure with positive and negative items
is
described. And the analysis
of
conflict association rules
is
given. The experimental results indicate the given algorithm
is
efficient and feasible.
Key words association rule; confidence
me
臼
ure;
interest
me
出
ure;
negative item
现有的关联规则挖掘算法普遍采用"支持度
置信度"的评价标准,但有时"支持度"和"置信
度"都很高的强关联规则却没有应用价值。如何评
价强关联规则,以剪切没有应用价值的规则,引起
了人们的关注。有些学者在"支持度"和"置信度"
的框架下,引入"兴趣度"修剪无用的规则,即避
免生成"干扰性"的关联规则。
由于引入了负项目,使得挖掘出的频繁项集成
倍增加,由此生成的关联规则数量更加庞大
[l]
,其
中可能存在矛盾、元余的关联规则,所以更有必要
为含正负项目的关联规则引入"兴趣度"这一评价
参数,作为对无价值规则的修剪工具。
关联规则挖掘算法主要考虑置信度和支持度指
标,存在一定的局限性。如果人们仍把支持度作为
最初项集产生的主要决定因素,把最小支持度设得
收稿日期:
2008-11-12;
修回日期:
2009-09-03
足够低,就可能产生一些对用户不具有实际应用价
值甚至具有误导性的规则:把最小支持度设得过高,
就有可能丢失对用户有价值的规则。为了避免生成
令人产生"错觉"的关联规则,可引入兴趣度进一
步约束挖掘出的关联规则。
1
兴趣度的相关介绍
1.1
几种兴趣度
兴趣度是表征用户对规则关注程度的度量,是
用户对挖掘出的知识的新颖性、可用性和可理解性
的综合考虑。不同挖掘任务和应用环境,用户对所
挖掘出的规则的关注程度不同。
1.1.1
基于模板的兴趣度模型
文献
[2]
等定义了模板的概念。模板描述的是一
组规则,用于限定哪些属性可以出现在规则前件,
哪些出现在规则后件。如果一条规则匹配一个包含
基金项目
s
教育部留学回国人员启动基金{教外司留
[2007]
11
08-10):
中国博士后科学基金
(2007042071
1)
作者简介
z
张玉芳
(1965-
).女,博士,副教授,主要从事数据挖掘方面的研究.