多维关联规则挖掘算法资源-CSDN文库

共1个文件

doc：1个

多维关联规则

挖掘算法

2星需积分: 50 135 浏览量 2008-09-19 10:22:26 上传评论 1 收藏 12KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

一种适应关系型数据库的多维关联规则挖掘的算法.rar （1个子文件）

一种适应关系型数据库的多维关联规则挖掘的算法.doc 51KB

一种适应关系型数据库的多维关联规则挖掘的算法

Agrawal等在1993年设计了一个基本算法Apriori，提出了挖掘关联规则的一个重要

方法一这是一个基于两阶段频集思想的方法，关联规则挖掘算法的设计可以分解为两个子

问题:

1) 找到所有支持度大于最小支持度的项集(Itemset)，这些项集称为频集(Frequent

Itemset)。

2) 使用第1步找到的频集产生期望的规则。

其算法的实现过程可以描述如下：首先，Apriori算法求出项数为一项的频繁集L

-set，然后，

再由L

-set产生项数为二的候选集C

-set，扫描事务数据库D计算支持度求出L

-set，依次类

推产生C

-set扫描D求出L

-set。一旦从数据库中产生了频繁集，则可以从中直接产生强关联

规则（所谓的强关联规则是指既满足最小支持度又满足最小可信度的关联规则）。但是，

当项集的个数|l|和数据库的尺寸很大时，如果每一次寻找频繁项集都需要遍历数据库，查

找数据库的开销会很大，算法的性能也就不容乐观。

一 AprioriTid 算法

AprioriTid算法对Apriori算法做了调整，它的特点是在第一次遍历数据库D之后，就

不再使用数据库来计算支持度，而是用集合C

来完成。集合C

每个成员的形式为（TID,

}），其中每个X

都是一个潜在的大型k项集，在标识符为TID的事务中。对于

k=1，C1对应与数据库D，虽然在概念上每个项目i由项目集{l}代替。对于k>1，有算法

产生C

（步骤（10））。与事务t相应的C

的成员是（t.TID,{c∈C

|t中包含的c}）。若某

个事务不包含任何候选k项目集，那么C

对于这个事务就没有条目（Entry）。这样，C

中

条目数量比数据库中的事务数量少，尤其对于大值的k而言。另外，对于大值的k，每个条

目比相应的事务要小，这是因为几乎没有什么候选能包含在此事务中。但是，对于小值的

k，每个条目比相应的事务要大，因为Ck中的一个条目包括了此事务中的所有候选k项目集。

算法步骤如下：

（1） L

={large l-itemsets}

（2） C

=数据库D;

（3） For (k=2; L

k-1

≠ø; k++) do begin

（4） C

= apriori-gen(L

k-1

); //新的候选集

（5） C

’= ø;

（6） for 所有条目t∈C

k-1

’do begin

（7） //确定事务t。TID中包含的候选

={ c∈C

|(c-c[k]) ∈t.项目集的集合∧（c-c[k-1]）∈t.项目集的集合}；

（8） for 所有候选c∈C

（9） c.count ++;

（10） if(C

≠ø) then C

’+=<t.TID, C

（11） end

（12） L

={c∈C

|c.count≥min.supp}

（13） end

（14）答案= ;

二 AprioriTidList 算法

AprioriTid算法比Apriori算法有了很大的改善,且适用于大型数据库，但是它必须通过

多次搜索交易数据集得到所有的候选项集的支持度。虽然数据都是在本地内存中存储，但

如果数据集的数量很大的话，运算量还是很大，而且对于每一个候选项都要通过搜索所有

的事务条目来计算支持度，搜索的结果不能重复利用，造成资源的浪费。AprioTidList算

法通过链表结构，存储包含每个候选项的所有条目的ID，计算K层候选项的支持度时，只

要比较k-1层候选项链表中有几个相同的条目ID就可以得到结果，算法描述如下：

(1) L′

= {1-itemsets along with their tidlist}

(2) L

={large l-itemsets}

(3) For(k=2; L＇

k-1

≠ø; k++) do begin

(4) Lk= ø; L＇

= ø

(5) For all itemsets l

∈L＇

k-1

do begin

(6) for all itemsets l

∈L＇

k-1

do begin

(7) if l

[1]=l

[1] ∧l

[2]=l

[2] ∧…∧l

[k-1]<l

[k-1] then

(8) C＇.itemsets = l[1].l[2]…l[k-1].l[k]

(9) C＇.tidlist = l

.tidlist∩l

.tidlist

(10) C＇.count = { C＇.tidlist}

(11) If(C＇.count ≥ minsup) then

(12) L＇

= L＇

∪{ C＇}

(13) C.itemsets = C＇.itemsets

(14) C.count = C＇.count

(15) L

= L

∪{ C}

(16) End

(17) End

(18) End

(19) 答案= ;

该算法与Apriori和AprioriTid的不同之处在于计算候选项集支持度的方法不同:对每一

个候选项集定义一个叫做tidlist的结构；项集l的tidlist由那些包含l的交易的TID组成,用

l.tidlist表示项集l的tidlist。l-项集的tidlist可通过搜索交易数据集得到,候选k-项集的

tidlist可由产生该候选k-项集的那两个(k-1)-项集的tidlist求交集得到。

AprioTidList与AprioriTid算法一样,只搜索交易数据集一次。它与AprioriTid算法有

两个区别。一个区别是计算候选项集支持度所用数据结构（链表）存储的信息不同。在

AprioriTid中,链表的每个节点为〈TID ,{Xk}〉,其中Xk是出现在标识为TID的交易中的高

频k-项集；在算法AprioTidList中,链表的每个节点为〈l ,tidlist〉,通过对两个频繁项集的

tidlist求交集,即可得到候选项集的支持度。在AprioriTid中,需要对整个链表进行搜索才能

得到某个候选项集的支持度。因此,用算法AprioTidList得到频繁项集所需时间要比

AprioriTid算法所需时间短。AprioTidList与AprioriTid算法的另一个区别在于候选项集

评论收藏

内容反馈

happyaliang2

2013-12-27

还以为是代码只是算法

penghaijun911

粉丝: 36
资源: 17

多维关联规则挖掘算法

基于Apriori算法的多维关联规则挖掘研究

数据立方体中多维关联规则挖掘算法 (2003年)

基于Apriori性质的多维关联规则数据挖掘 ppt

多维数量关联规则聚类挖掘研究

数据挖掘之关联规则挖掘FP-Growth算法

详解python实现FP-TREE进行关联规则挖掘

关联规则学习笔记

Clementine 14.0 (PASW Modeler) 数据挖掘 手册

数据挖掘原理与SPSS Clementine应用-关联规则算法

适应于关系型数据库的多维关联规则挖掘的Apriori算法.doc

论文研究-基于关联规则映射的生物信息网络多维数据挖掘算法.pdf

大数据与数据挖掘技术 第5章 数据挖掘算法-关联规则挖掘 挖掘频繁模式、关联和相关 共116页.pptx

基于关联规则映射的生物信息网络多维数据挖掘算法.pdf

基于关联规则映射的生物信息网络多维数据挖掘算法分析.pdf

基于FP-Growth算法的多维关联规则挖掘方法 (2010年)

基于商空间理论多维多层次关联规则挖掘算法研究 (2012年)

关联规则Association Rules

关联规则挖掘在煤矿安全监测中的应用 (2011年)

数据挖掘18大算法实现以及其他相关经典DM算法

一种新的MDP算法的研究

数据挖掘的复习总结（ APRIORI算法 ，OLAP操作）

数据挖掘在各行业的应用论文

数据挖掘论文合集-242篇（part1）

Qt 5实现串口调试助手 （源工程文件、0积分下载）

【SystemVerilog】路科验证V2学习笔记（全600页）.pdf

AutoSAR标准协议4.2.2

光伏-储能并网系统仿真.rar

NPPJSONViewer.zip

GD32替换STM32注意事项.pdf

最新资源

Clementine 14.0 (PASW Modeler) 数据挖掘手册

大数据与数据挖掘技术第5章数据挖掘算法-关联规则挖掘挖掘频繁模式、关联和相关共116页.pptx

数据挖掘的复习总结（ APRIORI算法，OLAP操作）

Qt 5实现串口调试助手（源工程文件、0积分下载）