没有合适的资源?快使用搜索试试~ 我知道了~
现有的关联规则推荐技术在数据提取时主要侧重于关联规则的提取效率,缺乏对冷、热门数据推荐平衡性的考虑和有效处理。为了提高个性化推荐效率和推荐质量,平衡冷门与热门数据推荐权重,对关联规则的Apriori算法频繁项集挖掘问题进行了重新评估和分析,定义了新的测评指标推荐非空率以及k前项频繁项集关联规则的概念,设计了基于 k 前项频繁项集的剪枝方法,提出了优化 Apriori 算法且适合不同测评标准值的 k前项频繁项集挖掘算法,降低频繁项集提取的时间复杂度。理论分析比较与实验表明,k 前项剪枝方法提高了频繁项集的提取效率,拥有较高的推荐非空率、调和平均值和推荐准确率,有效地平衡了冷、热门数据的推荐权重。
资源推荐
资源详情
资源评论
2017 年 10 月 Journal on Communications October 2017
2017160-1
第 38 卷第 10 期 通 信 学 报 Vol.38
No.10
支持推荐非空率的关联规则推荐算法
何明
1
,刘伟世
1
,张江
2
(1. 北京工业大学信息学部计算机学院,北京 100124;2. 国网英大国际控股集团有限公司信息化工作部,北京 100005)
摘 要:现有的关联规则推荐技术在数据提取时主要侧重于关联规则的提取效率,缺乏对冷、热门数据推荐平
衡性的考虑和有效处理。为了提高个性化推荐效率和推荐质量,平衡冷门与热门数据推荐权重,对关联规则的
Apriori 算法频繁项集挖掘问题进行了重新评估和分析,定义了新的测评指标推荐非空率以及 k 前项频繁项集关
联规则的概念,设计了基于 k 前项频繁项集的剪枝方法,提出了优化 Apriori 算法且适合不同测评标准值的 k
前项频繁项集挖掘算法,降低频繁项集提取的时间复杂度。理论分析比较与实验表明,k 前项剪枝方法提高了
频繁项集的提取效率,拥有较高的推荐非空率、调和平均值和推荐准确率,有效地平衡了冷、热门数据的推荐
权重。
关键词:关联规则;推荐系统;推荐非空率;数据挖掘
中图分类号:TP319 文献标识码:A
Association rules recommendation algorithm
supporting recommendation nonempty
HE Ming
1
, LIU Wei-shi
1
, ZHANG Jiang
2
(1. College of Computer, Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China;
2. State Grid YingDa International Holdings Co., Ltd., Beijing 100005,China )
Abstract: Existing association rule recommendation technologies were focus on extraction efficiency of association rule
in data mining. However, it lacked consideration of recommendation balance between popular and unusual data and effi-
cient processing. In order to improve the quality and efficiency of personalized recommendation and balance the recom-
mendation weight of cold and hot data, the problem of mining frequent itemset based on association rule was revaluated
and analyzed, a new evaluation metric called recommendation RecNon and a notion of k-pre association rule were defined,
and the pruning strategy based on k-pre frequent itemset was designed. Moreover, an association rule mining algorithm
based on the idea was proposed, which optimized the Apriori algorithm and was suitable for different evaluation criteria,
reduced the time complexity of mining frequent itemset. The theoretic analysis and experiment results on the algorithm
show that the method improved the efficiency of data mining and has higher RecNon, F-measure and precision of rec-
ommendation, and efficiently balance the recommendation weight of cold data and popular one.
Key words: association rule, recommender system, recommendation nonempty, data mining
1 引言
随着信息技术特别是互联网、物联网和云计算
等技术的迅猛发展,网络空间中所蕴含的信息量呈
几何式增长。面对大量丰富多彩的数据信息,人们
往往很难快速、准确地获取符合个性化需求的内
容,出现了“信息过载”这一问题,导致用户无
所适从。在这种背景下,推荐系统(recommender
system)
[1]
应运而生,它可以有效地过滤处理海量
数据并改善信息过载问题,为用户提供个性化信
收稿日期:2017-04-10;修回日期:2017-07-10
基金项目:国家自然科学基金资助项目(No.91646201, No.91546111);北京市自然科学基金资助项目(No.4153058,
N
o.4113076);北京市教委面上基金资助项目(No.KM201710005023)
Foundation Items: The National Natural Science Foundation of China (No.91646201, No.91546111), The Natural Science Founda-
tion of Beijing (No.4153058, No.4113076), General Project of Beijing Municipal Education Commission (No.KM201710005023)
doi:10.11959/j.issn.1000-436x.2017160
第 10 期 何明等:支持推荐非空率的关联规则推荐算法 ·19·
息推荐。推荐系统通过挖掘用户的兴趣偏好,进
行自动个性化计算来帮助用户有效获取所需要的
信息。
推荐系统的研究方法有很多种,如基于内容的
推荐、协同过滤推荐和基于效用的推荐等。在各种
推荐技术中,关联规则作为推荐系统中重要的数据
挖掘技术之一
[2]
,关注用户的行为模式,根据计算
分析找出用户物品集合中的项目关联性,建立关联
规则,并基于用户的实际购买行为进行推荐。其主
要思想是以关联规则为基础,通过挖掘物品间的关
联关系,把已购物品作为规则头,推荐对象作为规
则体,通过数据挖掘发现物品之间潜在的联系以完
成关联推荐。关联分析可以发现不同物品在销售过
程中的相关性,向具有相似行为爱好的用户提供可
能感兴趣的项,具有行为属性自动归类,系统自动
学习推荐的优点,适合当前线上电子商务平台、线
下的零售平台及其他领域的市场营销。当前,针对
关联规则方法的研究主要包括关联规则中频繁项
集挖掘效率的研究、关联规则的存储模型研究和减
少效用较低的关联规则研究,而高效的挖掘频繁项
集算法是关联规则推荐研究的重点。
Agrawal 等
[3]
提出的 Apriori 算法是最经典的关
联规则挖掘算法,该算法的主要思路是在逐层迭代
过程中使用低维频繁项集生成高维频繁项集。而在
实际应用中,Apriori 算法主要受限于数据计算复杂
度,因此,一些研究人员提出了很多改进的算法来
进一步提高 Apriori 的有效性。在国外的研究工作
中,Park
[4]
使用散列技术优化了 Apriori 算法,该算
法改进了频繁项集连接产生候选项集的过程,大大
降低了 2-项集产生的复杂度。后来,Toivonen 等
[5]
使用采样技术优化了 Apriori 算法,从事务数据库
抽取部分数据作为样本,只挖掘样本数据中的频繁
项集,虽然该算法减少了系统 I/O 操作,但是数据
挖掘结果不准确的可能性也比较大。国内学者对
Apriori 算法的研究也取得了较大的进展,魏玲等
[6]
通过 Bigtable技术与 MapReduce 模型优化了 Apriori
算法。刘兴彬等
[7]
提出了一种基于 Apriori 算法自动
提取协议识别特征的方法。王大玲等
[8]
提出了最大
关联规则,虽然该方法提高了关联规则挖掘准确
率、覆盖率,但是该方法未考虑频繁项集生成效率。
Sandving 等
[9]
提出了一种基于关联规则挖掘的协同
过滤推荐算法,该算法通过牺牲推荐精度与覆盖面
提高了算法的顽健性。Hong 等
[10]
从用户历史上下文、
兴趣偏好出发提取关联规则为用户提供个性化服
务,在挖掘关联规则时,把相应的上下文看作频繁
项来处理,但当问题量比较大时,其计算量增
加比较大。文献[11]提出利用关联规则来解决推
荐系统中的冷启动问题。文献[12]通过关联规则
挖掘算法抽取在线产品描述的公共特征以及这些
特征之间的关联关系,然后使用 KNN 协同过滤
算法为具有部分特征的新软件产品推荐其缺失的
特征。
虽然以上这些关联规则提取算法都各具优点,但
是它们在数据处理过程中只专注于数据的提取效率,
忽略了对冷、热门数据的推荐平衡性的考虑和有效处
理,缺少对推荐系统个性化推荐质量评估。
基于上述问题,在已有研究的基础上,为了有
效提高关联规则挖掘过程中频繁项集的产生效率
与合理平衡推荐过程中冷、热门数据覆盖度,本文
的主要贡献包括以下 3 个方面。
1) 研究分析了推荐非空率 RecNon 的概念和计
算方法,作为推荐系统中一种新的效用评价指标,
用来衡量推荐项目所占给定数据集的比例。
2) 基于 Apriori 算法,提出了一种支持非空率
k-pre 方法,通过剪枝 k 前项频繁项集生成候选项集,
提高了频繁项集的生成效率。
3) 在亚马逊购物记录数据集上进行了实验,并
与 Apriori 算法对比,k-pre 算法不仅提高了频繁项
集提取效率,而且提高了系统推荐质量。
2 推荐非空率
对于推荐系统的评价,一般采用通用的评价指
标包括覆盖率(coverage)、准确率(precision)以
及调和平均值(F-measure)。覆盖率是在推荐的内
容中用户喜欢的项占用户喜欢的所有项的百分比,
准确率是在推荐的内容中用户喜欢的项占推荐的
所有项的百分比。设用户喜欢的内容集合为 UP,
系统推荐内容的集合为 RP,根据定义,coverage、
precision 和 F-measure 分别由式(1)~式(3)给出。
||UP RP
coverage
UP
=
∩
(1)
||UP RP
precision
RP
=
∩
(2)
2
-
coverage precision
Fmeasure
coverage precision
×
=
+
(3)
201
7
160-2
剩余7页未读,继续阅读
资源评论
weixin_38606466
- 粉丝: 11
- 资源: 871
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功