没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘课件:第9章 关联规则.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 191 浏览量
2022-07-12
19:06:15
上传
评论
收藏 1.33MB PDF 举报
温馨提示
试读
15页
数据挖掘课件:第9章 关联规则.pdf
资源推荐
资源详情
资源评论
1
第第99章章 关联规则关联规则
9.1 认识关联分析
9.2 关联规则核心算法
9.3 多级关联规则与多维关联规则
94
序列模式挖掘
P2
《数据仓库与数据挖掘》
9
.
4
序列模式挖掘
9.5 关联规则度量
9.6 关联规则新进展
主要参考文献
9.19.1认识关联分析认识关联分析
P3
《数据仓库与数据挖掘》
若两个或多个变量的取值之间存在某种规律性,就称为关联。
关联规则是寻找在同一个事件中出现的不同项的相关性,比如在一次购买
活动中所买不同商品的相关性。
关联规则是形式如下的一种规则,“在购买计算机的顾客中,有30%的人
也同时购买了打印机”。
关联分析即利用关联规则进行数据挖掘。
从大量的商务事务记录中发现潜在的关联关系,可以帮助人们作出正确的
商务决策。
啤酒和尿布问题啤酒和尿布问题
反映一个事件和其他事件之间依赖或关联的
知识。如果两项或多项属性之间存在关联,
那么其中一项的属性值就可以依据其他属性
值进行预测。
在美国
一
些年轻的父亲下班后经常要到超
P4
《数据仓库与数据挖掘》
在美国
,
些年轻的父亲下班后经常要到超
市去买婴儿尿布,超市也因此发现了一个规
律,在购买婴儿尿布的年轻父亲们中,有
30%~40%的人同时要买一些啤酒。超市随后
调整了货架的摆放,把尿布和啤酒放在一起
,明显增加了销售额。
购物篮问题购物篮问题
通过发现顾客放入购物篮中的不同
商品之间的联系,分析顾客的购买
习惯:
• 哪些物品经常被顾客购买?
• 同一次购买中,哪些商品经常会被一
起购买?
• 一般用户的购买过程中是否存在一定
的购买时间序列?
P5
《数据仓库与数据挖掘》
此类关联分析在零售业,如超市等
得到广泛应用,企业可以获得产品
间的关联,或者产品类别和购买这
些类别的产品的顾客的统计信息之
间的关联规则。
• 关联分析又称购物篮分析,在销售配
货、商店商品的陈列设计、超市购物
路线设计、产品定价和促销等方面得
到广泛应用。
什么是关联规则挖掘什么是关联规则挖掘
关联规则挖掘
• 在交易数据、关系数据或其他信息载体中,查找存在于
项目集合或对象集合之间的频繁模式、关联结构。
应用:
• 购物篮分析、交叉销售、产品目录设计等。
规则形式举例
P6
《数据仓库与数据挖掘》
规则形式举例
:
• Head Body[support, confidence]
• buys(x,“计算机”)buys(x,“打印机”) [50%, 60%]
• 在同时购买计算机与打印机的顾客占总顾客数的50%,购
买计算机的顾客中,有60%的人也同时购买了打印机。
关联规则形式化定义关联规则形式化定义
项目(Item)
• 定义1:集合I={i1,i2,…,im}为标识符的集合,其中m为正整数,i
k
(k=1,2,…,m)称为项目。
• 项目是一个从具体问题中抽象出的一个概念。在超市的关联规则挖
掘问题中,项目表示各种商品,如面包、牛奶等。
事务(Transaction)
• 由于在超市的关联规则挖掘中并不关心顾客购买的商品数量和价格
等
,
因此顾客的
一
次购物可以用该顾客所购买的所有商品的名称来
P7
《数据仓库与数据挖掘》
等
,
因此顾客的 次购物可以用该顾客所购买的所有商品的名称来
表示,称为事务,所有事务的集合构成关联规则挖掘的数据集,称
为事务数据库。
• 定义2:关联规则挖掘的数据库记为D,事务数据库D中的每个元组称
为事务。一个事务T是I中项目的集合,通常都有一个事务号与之对
应,记为TID。
• 事务仅包含其涉及到的项目,而不包含项目的具体信息。在超级市
场的关联规则挖掘问题中事务是顾客一次购物所购买的商品,但事
务中并不包含这些商品的具体信息,如商品的数量、价格等。
2
关联规则形式化定义(续)关联规则形式化定义(续)
项集(Itemset)
• 定义3:项集是由I中项目构成的集合。若项集包含的项目数
为k,则称此项集k-项集(k-itemset) 。
• 定义4:任意的项集X和事务T若满足:XكT,那么称事务T包含
项集X,或事务T支持项集X。
• 在超市的关联规则挖掘问题中项集可以看成一个或多个商品
的集合。若某顾客一次购买所对应的事务T包含项集X,就说
该顾客在这次购物中购买了项集
X
中的所有商品
P8
《数据仓库与数据挖掘》
该顾客在这次购物中购买了项集
X
中的所有商品
。
项集支持度(Support)
• 定义5:如果事务数据库
D
中有
s
%的事务包含项集
X
,则称项集
X
的支持度为
s
%,项集
X
的支持度记为
support
(
X
)。
频繁项集(Frequent Itemset)
• 定义6:如果项集的支持度超过用户给定的最小支持度阈值
Minsupport,就称该项集是频繁项集(或Large Itemset);
否则称为非频繁项集。
关联规则形式化定义(续)关联规则形式化定义(续)
关联规则(Association Rule)
• 定义7:所有形如X ֜Y 蕴涵式的称为关联规则,这里
XؿI, YؿI,并且X∩Y=Φ。
关联规则挖掘就是寻找:有趣的关联规则(强规则)
• 关联规则是有趣的,如果它满足最小支持度阈值与最小置
信度阈值,并称之为强规则。
P9
《数据仓库与数据挖掘》
• 关联规则R:XY的支持度与置信度
• 规则
R
的支持度(Support)为:
support
(
X
Y
)=
support
(
X
Y
)
实际上,支持度是一个概率
P
(
X
Y
)。
• 规则
R
的置信度(Confidence)为
confidence
(
X
Y
)=
support
(
X
Y
)/
support
(
X
)
实际上,置信度是一个条件概率
P
(
Y
|
X
)。
confidence and supportconfidence and support
Itemset X={i
1
, …, i
k
}
Find all the rules
X
֜
Y
with minimal
confidence and support
Customer
Customer
bbth
Support Support ,,
s,s,
probabilityprobability that a that a
transaction contains Xtransaction contains XYY
support(Xsupport(X֜֜Y)=Y)=同时包含项目集同时包含项目集XX和和YY的事务的事务
数数//总事务数总事务数
SupportSupport用于描述有用性。用于描述有用性。
confidenceconfidence
,,
c,c,
conditional probabilityconditional probability
P10
《数据仓库与数据挖掘》
buys diaper
b
u
y
s
b
o
th
Customer
buys beer
confidenceconfidence
,
,
c,c,
conditional
probabilityconditional
probability
that a transaction having X also that a transaction having X also
contains contains YY..
confidence(Xconfidence(X֜֜Y)=Y)=同时购买商品同时购买商品XX和和YY的事的事
务数务数//购买商品购买商品XX的事务数的事务数
ConfidenceConfidence用于描述确定性用于描述确定性,,
即即””值得信赖的程度值得信赖的程度””””可靠性可靠性””
关联规则挖掘的一个实例关联规则挖掘的一个实例
Min. support 50%
Min. confidence 50%
Transaction-id Items bought
10 A, B, C
20 A, C
30 A, D
40 B, E, F
Frequent pattern Support
{A} 75%
{B}
50%
P11
《数据仓库与数据挖掘》
For rule A C:
• support = support({A}{C}) = 50%
• confidence = support({A}{C})/support({A}) = 66.6%
{B}
50%
{C} 50%
{A, C} 50%
关联规则的基本形式关联规则的基本形式
关联规则的基本形式:
前提条件֜结论[支持度, 置信度]
• buys(x, “diapers”) ֜buys(x, “beers”) [0.5%, 60%]
•
major(x,“CS”)∧ takes(x, “DB”) ֜grade(x, “A”) [1%, 75%]
备注
•
关联
(
Associations
)
分析的目的是为了挖掘隐藏在数
P12
《数据仓库与数据挖掘》
关联
(
Associations
)
分析的目的是为了挖掘隐藏在数
据间的相互关系,即对于给定的一组项目和一个记录集
,通过对记录集的分析,得出项目集中的项目之间的相
关性。
• 项目之间的相关性用关联规则来描述,关联规则反映一
个事物与其他事物之间的相互依存性和关联性。如果两
个或者多个事物之间存在一定的关联关系,那么,其中
一个事物就能够通过其他事物预测到。
关联规则挖掘分类关联规则挖掘分类
(1) 基于规则中处理的变量的类别
• 布尔型关联规则:如果规则考虑的关联是项“在
”或“不在”,则关联规则是布尔型的。例如,
由购物篮分析得出的关联规则。
•
量化型关联规则
:
如果描述的是量化的项或属性
P13
《数据仓库与数据挖掘》
量化型关联规则
:
如果描述的是量化的项或属性
之间的关联,则该规则是量化型的关联规则。例
如,以下是量化型关联规则的一个例子(其中X
为表示顾客的变量,量化属性age 和income已经
离散化):
age(X,“30…39”)∧income(“42K…48K”) =>
buys(X,“high_resolution_TV”)
3
关联规则挖掘分类关联规则挖掘分类((续续))
(2) 基于规则中数据的抽象层次
• 单层的关联规则:所有的变量都不涉及不同抽象层次的
项或属性。
例如:buys(X, “computer”)=> buys(X, “printer”)
顾客X购买的商品不涉及不同抽象层次(“computer” 和
“printer”在同一个抽象层),因此是单层关联规则。
P14
《数据仓库与数据挖掘》
• 多层的关联规则:变量涉及不同抽象层次的项或属性。
例如:age(X,“30…39”) => buys(X, “laptop computer”)
age(X,“30…39”) => buys(X, “computer”)
顾客X购买的商品涉及不同抽象层次(“computer” 在比
“laptop computer”高的抽象层),因此是多层关联规则。
关联规则挖掘分类关联规则挖掘分类((续续))
(3) 基于规则中数据的维数
• 单维关联规则:处理单个维中属性间的关系,即
在单维的关联规则中,只涉及到数据的一个维。
例如:用户购买的物品:“咖啡=>砂糖”,这条规则
只涉及到用户的购买的物品。
P15
《数据仓库与数据挖掘》
• 多维关联规则:处理多个维中属性之间的关系,
即在多维的关联规则中,要处理的数据将会涉及
多个维。
例如:性别=“女”=>职业=“秘书”,这条规则就涉
及到两个维中字段的信息,是两个维上的一条关联规
则。
关联规则挖掘:路线图关联规则挖掘:路线图
布尔 vs. 定量 关联 (基于处理数据的类型)
• buys(x, “SQLServer”) ∧ buys(x, “DMBook”)
buys(x, “DBMiner”) [0.2%, 60%]
• age(x, “30..39”) ∧ income(x, “42..48K”)
buys(x, “PC”) [1%, 75%]
单维 vs. 多维 关联 (例子同上)
单层 vs. 多层 分析
P16
《数据仓库与数据挖掘》
• 那个品种牌子的啤酒与那个牌子的尿布有关系?
各种扩展
• 相关性、因果分析
–关联并不一定意味着相关或因果
• 最大频繁模式和闭合频繁模式
• 添加约束
–如, 哪些“小东西”的销售促发了“大家伙”的买卖?
关联规则挖掘过程关联规则挖掘过程
给定最小支持度阈值min_supp及最小置信度
阈值min_conf,关联规则的挖掘主要被分解
为下面两步:
• 第1步:找出所有的频繁项集,即找出支持度不
小于
min supp
的所有
频繁项集
。
P17
《数据仓库与数据挖掘》
小于
min
_
supp
的所有
频繁项集
。
• 第2步:由频繁项集产生强关联规则,即找出满
足最小支持度和最小置信度的关联规则。
–对给定的任一频繁项集L,对所有L的非空子集AL,
如果support (L)/ support(A)>=min_conf,则产生
形式为AL-A的强规则。
关联规则挖掘过程(续)关联规则挖掘过程(续)
第一个子问题的求解,需要多次扫描数据库
D,这意味着关联规则挖掘算法的效率将主
要取决于数据库扫描、I/O操作和频繁项目
集的计算上。
第二个子问题的求解比较容易
P18
《数据仓库与数据挖掘》
第二个子问题的求解比较容易
。
因此如何迅速、高效地找出所有的频繁项目
集是关联规则挖掘的中心问题。
频繁项集的基本性质频繁项集的基本性质
频繁项集的Apriori性质
• 性质1:频繁项集的所有非空子集一定频繁的。
另一个非常有用的性质
• 性质2:非频繁项集的任意超集一定是非频繁的。
例如:
P19
《数据仓库与数据挖掘》
• ABC是频繁项集,则AB、AC、BC均为频繁项集。
• 反之:如AB不是频繁项集,则ABC不可能是频繁项集
频繁项集的Apriori性质用于压缩搜索空间(剪枝
),以提高逐层产生频繁项集的效率。
剩余14页未读,继续阅读
资源评论
wxg520cxl
- 粉丝: 23
- 资源: 3万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- meta-llama-3-8b-instruct 的 model-00001-of-00004.safetensors 的2/3
- HTML5小游戏【小鸡飞-蛋蛋跳小游戏】游戏源码分享下载 - dandan.zip
- Hi3861 OpenHarmony 机械臂 (一)
- 生成的DNA序列来摸拟查找特定基因序列.py
- 12345666666666
- 基于协同过滤算法的英语学习平台(springboot+ssm+html+mysql)含运行文档+运行截图+演示视频
- 基于NCP1377芯片 AC220V转DC12V(5A)反激开关电源ALTIUM设计硬件(原理图+PCB)工程文件.zip
- NX二次开发头文件与库目录
- 网络调试助手,最新版本,方便大家调试网络功能
- mysql语句大全及用法
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功