1.关联规则概述
1.1 关联规则
超市,商场的商品应该如何摆放最合适?啤酒和尿布这两类不同商品能否摆
在一起?数据挖掘的经典案例——啤酒尿布告诉我们顾客的购买行为存在一定的
关联,使我们不得不重视经典的购物车问题。
关联规则的挖掘就是通过一系列数据分析来挖掘某种特定的商品组合被顾
客同时购买的可能。关联规则的分析有 R.Agrawal 于 1993 年最早提出,是 KDD
研究的重要内容,侧重于确定数据中不同领域之间的联系,找出满足给定支持
度和置信度的多个域之间的依赖关系。关联规则的挖掘是数据挖掘的一项重要
任务,其目的就是从事物数据库、关系数据库中发现项目集或属性之间的相关
性,关联关系,因果关系。
1.2 关联规则的概念:
关联规则是描述数据库中数据项之间存在的潜在的关系规则。问题可以描
述如下:
I ={i1,i2,i3….im}是所有项的集合,相当与商品的种类集合。D 是所有
事务的子集, 相当于数据库中的记录集合。每个事务 T 由 I 中的若干项组成,
是 I 的子集, 用唯一的 ID 标识, 记为 T = { t1, t2, . . . , tn }, 相当于每次
交易中的商品列表。假设 X, Y 是数据项集, X 中含有的项的数目为 k, 称为
k_数据项集, 是 I 的子集。关联规则表示为: ( T 中包含 X) ( ( T 中包含 Y)。意
义在于一次交易中(数据库中的一条记录)存在 X 项目, 意味着该交易中也存在
Y 项目。通常简写为 X ( Y, X 称为关联规则的前项, Y 称为该关联规则的后
项,称为关联操作。)关联规则主要解决的两个问题:找出所有频繁项集和分析
频繁项集找出关联规则。
评论0