采用N-list结构的混合并行频繁项集挖掘算法.docx资源-CSDN文库

版权申诉

文档资料

32 浏览量 2022-11-01 20:15:07 上传评论收藏 681KB DOCX 举报

资源推荐

资源详情

资源评论

随着信息技术的快速发展,大数据在互联网、社交网络以及物联网等领域

得到了广泛的应用。大数据的出现对工业、医疗以及政府机构在内的许多社会

主体具有重要意义

[1]

。如何快速并准确地从这些海量数据中挖掘出有价值的信

息和知识已经成为当今社会迫切需要解决的问题之一

[2]

。

数据挖掘又称为知识发现（knowledge discover in database,KDD),其目的

在于发现大量数据中有价值的信息。常见的数据挖掘任务有分类、聚类、关联

规则等。其中关联规则分析是其重要的研究方向之一。通过对关联规则挖掘算

法的研究能够在海量数据中找出有价值的规则,这些规则对企业管理上的决策

具有巨大帮助

[3]

。传统的关联规则挖掘算法主要分为三类：（1）产生-测试方

法,此类算法先通过迭代产生候选项集并分别计数,然后根据最小支持度阈值统

计得到频繁项集,典型算法是 Agrawal 等人提出的 Apriori 算法

[4]

;（2）模式增

长方法,此类算法在挖掘过程中不会产生候选项集,而是将所有的频繁项压缩成

一种树结构,通过对树的直接遍历挖掘频繁项集,典型算法有 FP-Growth

[5]

、LP-

tree

[6]

等算法;（3）垂直格式方法,此类算法主要是将水平数据集转换成垂直格

式,通过交运算来得到频繁项集,典型算法为 Eclat 算法

[7]

。大数据环境下,随着

数据量的不断增加,运行时间和内存使用量成为传统关联规则挖掘算法的重要

瓶颈,单纯通过提升计算机硬件水平已经不能满足人们对大数据分析与处理的

需求。此时并行化的计算思想变得尤为重要,通过改进传统的关联规则挖掘算

法,并与分布式计算模型相结合成为当前研究的主要方向。

近年来,Google 开发的 MapReduce 并行编程模型由于其操作简单、自动

容错、负载均衡、扩展性强等优点深受广大学者和企业的青睐

[8]

。同时 Hadoop

作为一种广泛使用的 MapReduce 开源框架,不仅实现了对 MapReduce 的动态

调用,而且在很大程度上促进了 MapReduce 的应用开发。目前许多基于 Map-

Reduce 计算模型的关联规则挖掘算法已成功应用到大数据的分析与处理领域

中。文献[9,10,11]采用 Apriori 算法多次迭代的思想,在每次迭代过程中启用一

个 MapReduce 任务,实现了 Apriori 算法在大数据领域的应用。然而此类算法

在挖掘频繁项集时不仅需要多次扫描事务数据集而且会生成大量候选项集,极

大降低了并行算法的挖掘效率。鉴于并行 Apriori 算法的固有缺陷 , 文献

[12,13,14,15,16]通过将 MapReduce 计算模型与 FP-Growth 算法相结合提出

了并行的 FP-Growth 算法。与并行 Apriori 算法不同,此类算法在挖掘过程中不

产生大量的候选项集,并且只需要扫描两次事务数据集,在每个计算节点上构建

局部 FP-Tree 树,通过对局部 FP-Tree 树的遍历得到局部频繁项集,然后将其合

并得到全局频繁项集。在挖掘频繁项集的过程中,各节点之间计算独立,既不需

要相互等待也不需要交换数据,极大提高了并行频繁项集挖掘算法的效率。然

而并行 FP-Growth 算法在挖掘过程中需要消耗大量的计算资源来递归构建频

繁项的 FP-Tree 树,且大数据环境下各节点所构造的局部 FP-Tree 树的规模十

分巨大,对于这些 FP-Tree 树的存储需要消耗大量的内存。考虑到并行 Apriori

算法与并行 FP-Growth 算法的不足,文献[17,18,19]提出了并行 Eclat 算法,此类

算法虽然计算简单,在一定程度上克服了从海量事务数据集中挖掘频繁项集时

存在计算能力不足的问题,但并行的 Eclat 算法需要将水平数据集转化为垂直

数据集作为输入数据 ,然后采用类 Apriori 方法迭代挖掘频繁项集,这在大数据

环境下是无法实现的。

为了充分利用不同算法各自的优点,减少并行计算中单个节点的内存需求

量与节点之间的通信量 ,Liao 等人

[20]

提出了一种将 dist-Eclat

[17]

与传统 FP-

Growth

[5]

算法相结合的混合算法——MRPrePost 算法。该算法主要分为三个阶

段：首先通过调用一次 MapReduce 任务得到频繁 1 项集 F-list;然后构造 F-list

所对应的 PPC-Tree 树,并对 PPC-Tree 树进行先序和后序遍历产生频繁项的

N-list;最后对 F-list 进行分组,并分布在多个计算节点上进行频繁项集的挖掘。

相较于其他单一的并行频繁项集挖掘算法,该算法既能对原始数据集进行无损

压缩,又可以快速计算项集的支持度。此外,该算法将对树的挖掘过程转化成与

垂直格式交运算类似的 N-list 合并过程,并且该过程不需要将 PPC-Tree 树保存

在内存中,极大减少了算法的计算时间和内存使用量。然而该算法仍存在几个

明显不足：（1）在 F-list 分组阶段,该算法未能充分考虑到集群负载均衡对算

法性能的影响,容易造成数据划分中计算节点负载不均衡的问题;（2）在合并两

个频繁项集的 N-list 结构时不仅要逐一比较两者中的每一项,而且需要将初步

获得的 N-list 结构中(先序,后序)序列相同的 PP-code 合并,极大地降低了 N-list

的合并效率;（3）在并行挖掘频繁项集阶段,该算法是通过合并任意两个 k-项集

的 N-list 结构来生成（k+1）-项集,会产生大量的冗余搜索。针对上述问题,本

文提出了一种基于 N-list 结构的混合并行频繁项集挖掘算法（hybrid parallel

frequent itemset mining algorithm based on N-list,HP-FIMBN）。首先,该算

法充分考虑到集群负载对并行算法挖掘效率的影响,设计负载估计函数（load

estimation function,LE）用于计算出频繁 1 项集中每项的负载量,并提出基于贪

定义 3（频繁 1 项集的 N-list

[22,23]

）在 PPC-Tree 树中,代表相同项的所有

PP-code 编码按照先序遍历升序连接生成的序列,被称为频繁 1 项集的 N-list。

定义 4（“ ≺”关系

[22,23]

）给定频繁 1 项集中的任意两项 i1 和 i2,若 i1 的支

持度大于 i2 的支持度,则表示为 i2≺i1。

定义 5（k-项集 N-list

[22,23]

）给定任意两个具有相同前缀的频繁(k-1)-项集

XA 和 XB,其对应的 N-list 结构分别表示为：

N−list(XA)={(x11,y11,z11),(x12,y12,z12),⋯,(x1m,y1m,z1m)}

N−list(XB)={(x21,y21,z21),(x22,y22,z22),⋯,(x2n,y2n,z2n)}

则 k-项集 XAB 的 N-list 定义如下：

（ 1 ）对于任意 (x1p,y1p,z1p) ∈ N-list(XA)(1≤p≤m), 若满足条件

x1p<x2q,y1p>y2q,则将 (x1p,y1p,z2q)加入到 XAB 的 N-list 中,得到初始的 N-

list。

（2）遍历 XAB 的 N-list,将 pre-order 和 post-order 相同的 PP-code 进行

合并,得到最终的 N-list。

性质 2 （频繁项集的支持度

[22,23]

）给定项集 X, 其 N-list 为

(x1,y1,z1),(x2,y2,z2),⋯,(xm,ym,zm),则项 X 的支持度为 z1+z2+⋯+zm。

2 HP-FIMBN 算法

HP-FIMBN 算法主要包括获取频繁 1 项集、频繁 1 项集分组和并行挖掘频

繁项集 3 个阶段。（1）在获取频繁 1 项集阶段,启用一次 MapReduce 任务,采

用类似 World Count 方法并行获取频繁 1 项集 F-list。（2）在频繁 1 项集分组

阶段,为了避免数据划分中出现计算节点负载不均衡的问题,提出 GM-GS 分组

方法,该方法先通过负载估计函数 LE 计算出频繁 1 项集中每一项的负载量,然

后根据贪心思想将 F-list 进行均匀分组,生成分组列表 G-list。（3）在并行挖掘

频繁项集阶段,主要包括并行挖掘频繁项集的 Map 阶段和 Reduce 阶段。在 Map

阶段主要是根据前两个阶段生成的 F-list 列表和 G-list 列表构造出映射路径。

在 Reduce 阶段首先调用 insert_tree 函数在各个计算节点上生成子 PPC-Tree

树。然后通过遍历本地 PPC-Tree 树,在各个节点上生成局部 2-项集的 N-list 结

构。在此过程中为了加快完成 N-list 结构的合并任务,提出预先放弃策略 EAS,

剩余32页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3660
资源: 1万+

采用N-list结构的混合并行频繁项集挖掘算法.docx

一种使用N-list快速挖掘频繁项集的新算法

数据挖掘实验三应用 Apriori 算法挖掘频繁项集.docx

一种基于后缀项表的并行闭频繁项集挖掘算法 (2014年)

论文研究-一种基于后缀项表的并行闭频繁项集挖掘算法.pdf

基于信息熵与遗传算法的并行关联规则增量挖掘算法.docx

课程设计-磁盘调度算法.docx

数据挖掘算法.docx

在Spark平台上实现Apriori频繁项集挖掘的并行化算法，利用事务压缩和布尔矩阵优化Apriori算法+源代码+文档说明

论文研究-一种有效的并行频繁项集挖掘算法.pdf

论文研究-基于矩阵的并行化频繁项集挖掘算法 .pdf

FrequentItemsetsMining:并行频繁项集挖掘算法的HadoopMapReduce实现

研究论文-基于图的四叉链表存储结构的最大频繁项集挖掘算法.pdf

数据结构-实验3-图形结构及其应用.docx

基于关联规则和协同过滤的混合图书推荐算法.docx

软件体系结构重点---精品管理资料.docx

学习笔记5：数据预处理与数据挖掘十大经典算法.docx

课程设计报告--电脑存储结构设计与实现.docx

基于WNegNodeset结构的加权频繁项集挖掘算法

基于图的四叉链表存储结构的最大频繁项集挖掘算法 (2013年)

论文研究-基于B-list的最大频繁项集挖掘算法.pdf

一种缓解推荐偏好的协同过滤TopN算法.docx

一种基于项目的混合显性隐性反馈的协同过滤推荐算法.docx

第七章-遗传算法应用举例.doc.docx

新闻流实时话题挖掘框架与算法研究 .docx

西门子S7-1200多液体混合控制系统PLC课程设计报告.docx

3超市管理系统-体系结构设计说明书版.docx

文献综述-餐饮电子商务个性化推荐系统推荐算法.docx

最新资源