数据挖掘实验报告
Apriori
算法和
FP
增长算法挖掘频繁项集
问题描述:
一、数据库有
5
个事务如:表设
min_sup=60%
z
min_conf=80%□
TID
T100
T200
T300
T400
T500
购买的商品
{M,O,N,K,E,Y}
{D,O,N,K,E,Y}
{M,A,K,E}
{M,U,C,K,Y}
{C,O,O,K,I,E}
表
♦ 分别使用
Apriori
和
FP
增长算法找出所有频繁项集。并比较两种挖掘过程的效率。
♦ 列举所有与卜面元规则匹配的强关联规则(给出支持度
s
和置信度
c),
其中,
X
是代表 顾
客的变量,
itemi
是表示项的变量(如
“A”
,
"B”)
:
V x € transaction,buys(X, item!) A buys(X, item2) => buys(X, iteni3) [s, c]
问题分析:
1.
分别使用
Apriori
算法和
FP
算法逐步求的所有的频繁项集,记录各自使用的扫描事务的
总次数,用于探究各自的效率。
对于问题二可以采取如卜•步骤解决:首先找出所仔三项频繁项集,然后按照元规则匹
配 出关联规则,最后利用支持度和置信度选出强关联规则。
2.
解决方案:
♦ 1
.采用
Aporior
算法挖掘所有频繁项集的步骤:
1)
扫描数据库,对每个候选计数,得频繁一项候选集
C1
如表
1
:
项集 支持度计数
{A}
{C}
{D}
{E}
0)
{K}
{M}
{N}
{0}
{U}
{Y}
1
2
1
4
1
5
3
2
3
1
3