2001-11-6 数据挖掘:概念和技术 1
数据挖掘 :
概念和技术
— Chapter 6 —
© 张晓辉
xiaohui@fudan.edu
复旦大学 (国际)数据库研究中心
2001-11-6 数据挖掘:概念和技术 2
第 6 章:从大数据库中挖掘关联
规则
关联规则挖掘
从交易数据库中挖掘一维的布尔形关联规则
从交易数据库中挖掘多层次关联规则
在交易数据库和数据仓库中挖掘多维关联规则
从关联挖掘到相关性分析
基于约束的关联挖掘
小结
2001-11-6 数据挖掘:概念和技术 3
什么是关联挖掘 ?
关联规则挖掘:
在交易数据、关系数据或其他信息载体中,查找存在于项
目集合或对象集合之间的频繁模式、关联、相关性、或因
果结构。
应用:
购物篮分析、交叉销售、产品目录设计 、 loss-leader
analysis 、聚集、分类等。
举例:
规则形式: “ Body ead [support, condence]”.
buys(x, “diapers”) buys(x, “beers”) [0.5%,
60%]
major(x, “CS”) ^ takes(x, “DB”) grade(x, “A”)
[1%, 75%]
2001-11-6 数据挖掘:概念和技术 4
关联规则:基本概念
给定 : (1) 交易数据库 (2) 每笔交易是:一个项目列表 ( 消
费者一次购买活动中购买的商品 )
查找 : 所有描述一个项目集合与其他项目集合相关性的规则
E.g., 98% of people who purchase tires and auto
accessories also get automotive services done
应用
*
护理用品
( 商店应该怎样提高护理用品的销售? )
家用电器 *
( 其他商品的库存有什么影响 ?)
在产品直销中使用附加邮寄
Detecting “ping-pong”ing of patients, faulty
“collisions”
2001-11-6 数据挖掘:概念和技术 5
规则度量:支持度与可信度
查找所有的规则 X & Y
Z 具
有最小支持度和可信度
支持度 , s, 一次交易中包含
{X 、 Y 、 Z} 的可能性
可信度 , c, 包含 {X 、 Y} 的
交易中也包含
Z
的条件概率
交易
ID
购买的商品
2000 A,B,C
1000 A,C
4000 A,D
5000 B,E,F
设最小支持度为
50%,
最小可信
度为
50%,
则可得到
A
C (50%, 66.6%)
C
A (50%, 100%)
买尿布的客
户
二者都买
的客户
买啤酒的客户
- 1
- 2
- 3
前往页