没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
第
41
卷第
1
期
2012
年
1
月
电子科技大学学报
而1.
41
No
.l
Jan.2012
Journ
aI
ofUniversity
ofElectronic
Science
and
Technology
ofChina
·计算机工程与应用·
新型用户访问模式挖掘方法研究
罗光春,狄翠霞,李炯
(电子科技大学计算机科学与工程学院成都
611731)
【摘要】用户访问模式反映了用户浏览网站的规律,可从中发现用户的访问兴趣.常用的模式发现方法则是从用户的访
问日志中挖掘用户的频繁遍历路径.由于基于
Apriori
算法的频繁追历路径挖掘方法需频繁访问数据库和产生大量的候选项,
提出了新型的选历路径树的数据结构,用以挖掘用户的频繁遍历路径,通过与传统算法比较,提高了挖掘效率.
关键词访问模式;
频繁遍历路径;
支持度
中图分类号
TP399
文献标识码
A
doi:l0
.3
969/j.i
ssn.1001-0548.2012.01.014
Research
00
the New Mioiog Method
ofUser
Access Patteros
LUO Guang-chun,
DI
Cui-xia, and
LI
Jiong
(School
of
Computer
Science
and
Engineerin
g,
University
ofElectronic
Science
and
Technology
of
China
Chengdu
611731)
Abstract User access pattems reflect the laws ofthe user browsing the sites and the interest ofuser's
access.
The
common
pa
忧
em
discovery method
is
mining
仕
equent
traversal paths
of
the user
from
the user's access
logs.
As
the mining method
of
the frequent traversal path based
on
Apriori algorithm needs frequent access
to
the database
and
produce large amounts
of
candidate items, this paper presents a new
daωstructure
of
the traverse path tree
to
mine user's frequent traversal paths. Results show that the mining efficiency
is
improved comparing with the
traditional method.
Key words access mode; frequent traversal path; support
模式发现就是利用
Web
日志挖掘技术发现用户
浏览站点的行为规律[叫。经过数据预处理阶段生成
格式化的数据,就可以根据具体的情况选择适当的
模式发现的技术,如统计分析、序列模式、关联规
则、聚类和分类等
[3)
。这些技术挖掘的结果有助于
改进
Web
站点的性能和设计、帮助站点提供个性化
服务和在电子商务中发现潜在用户群等。
频繁遍历路径是对
Web
日志中用户访问的历史
数据的挖掘,反映了用户的访问模式
[4)
。利用频繁
遍历路径的挖掘结果,可以很好地理解用户的浏览
行为,改善
Web
站点的导航,以及发现用户的访问
兴趣、预测用户下一步的操作。频繁遍历路径挖掘
分为
3
个步骤
[5):
1)
由浏览过程中形成的访问序列称为原始路
径,既包括一个新页面的向前引用,也包括与前面
路径相同的向后引用。只有前一种引用是有用的信
息,从原始路径中删除向后引用,得到一组浏览子
收稿日期:
2010-05-04;
修回日期:
2011-03-05
序列,其中每个子序列是从用户的访问起始点开始
的最大向前引用。
σP)
。
2)
从步骤1)得到浏览子序列集合,然后从该集
合中发现大引用序列,即在浏览过程中出现的频率
超过给定闽值的序列。
3)
从大引用序列集中找出不包含在其他任何
大引用序列中的最大引用序列。一个最大引用序列
对应于
Web
中一条频繁出现的浏览路径,既频繁遍
历路径。
1
基于
Apl
切
ri
算法的频繁路径挖掘
及缺陷
最为著名的关联规则发现方法是文献
[6]
提出的
Apriori
算法,该算法是一种宽度优先的多趟扫描算
法,其核心内容
[7)
可描述为:
1)
用频繁的
[k-l]-
项集
生成候选的频繁
k-
项集;
2)
用数据库扫描和模式匹
配计算候选集的支持度。该算法递归查找包含
l"-'k
基金项目:本文受新世纪人才(N
CET-I0
-0
298)
和四川省科技厅科技支撑计划
~(2011GZOI92)
资助
作者简介
z
罗光春
(1974
-).男,博士,教授,博士生导师,主要从事计算机网络与通信等方面的研究
资源评论
weixin_38690402
- 粉丝: 5
- 资源: 1007
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功