第 11 卷第 8 期
计算机集成制造系统
Vol. 11 No. 8
2 0 0 5 年 8 月 Computer Integrated Manufacturing Systems Aug . 2 0 0 5
文章编号 :1006 - 5911
(
2005
)
08 - 1073 - 03
Web 日志数据挖掘模型研究
冯 凌 ,林 杰 ,雷星晖
(
同济大学 经济与管理学院 ,上海 200092
)
摘 要 :利用 Web 日志 ,通过网页编码和会话抽取计算页面相关度矩阵 ;通过聚类分析 ,得到了各类用户访问
各网页的概率向量 ;利用网页相关度矩阵修正概率向量 ,得到了反映网页相关性和用户特征聚类的挖掘模型 。实
验数据表明 ,该模型挖掘出的用户访问特征具有较长的使用有效期 。
关键词 :Web 使用挖掘 ;点击流 ;聚类分析
中图分类号 : TP393 文献标识码 : A
Research on Web log data mining model
FEN G ling , L I N J ie , L EI Xing - hui
(
Sch. of Economics & Management , Tongji Univ. , Shanghai 200092 , China
)
Abstract : By assigning each webpage a unique number , extracting session from Web log , calculating webpage simi2
larity matrix ,and getting user access probability vectors through clustering analysis , the web mining model could
then be obtained by using the webpage similarity matrix to modify the probability vectors. The mining result was an
integration of page similarity and user clustering profiles. Experimental data indicated that the model could better re2
flect user access characteristics.
Key words : usage mining ; click stream ; clustering analysis
收稿日期 :2004 - 07 - 08 ;修订日期 :2004 - 12 - 15。Received 08 J ul. 2004 ;accepted 15 Dec. 2004.
基金项目 :国家 863/ CIMS 主题资助项目
(
2002AA413410
)
;上海市科委重点项目
(
04JC14073
)
。Foundation item :Project supported by the Na2
tional High - Tech. R &D Program for CIMS , China
(
No. 2002AA413410
)
and the Shanghai Science & Technology Commission Im2
portant Program , China
(
No. 04JC14073
)
.
作者简介 :冯 凌
(
1981 -
)
,女 ,上海人 ,同济大学经济与管理学院硕士研究生 ,主要从事决策支持、数据仓库与数据挖掘等方面的研究。
E - mail :fenggling @yahoo. com. cn。
0 引言
随着网络技术的发展 ,每天有数以百万计的网
页诞生 ,全球有上亿人通过浏览器访问各种企业网
站进行在线交易 ,由此产生数以亿计的数据。然而 ,
这些数据长期以来被闲置 ,并没有得到很好地利用。
现在越来越多的企业开始认识到这个问题 ,网络数
据挖掘应运而生。
目前 ,网络数据挖掘主要分为内容挖掘、结构挖
掘和使用挖掘 3 类。网络使用挖掘的数据源是用户
访问企业网站时留下的访问记录 ,即 Web 日志。挖
掘 Web 日志的目的是为了通过用户现在的访问记
录 ,找出其访问规律 ,从而更好地为用户服务。根据
用户相近的访问习惯及感兴趣的网页 ,分析、总结出
若干典型的用户行为模式 ,并以该类用户对各网页
的感兴趣程度来描述它们。当新用户到来时 ,就可
以根据用户的访问方式判断其可能属于哪一类 ,并
根据这类用户表现出的一般行为模式 ,为其提供更
加方便、快捷的个性化服务 ,如生成包含特定链接的
个性化页面 ,提供预取和缓存 ,以及对网站结构的优
化等。目前的 Web 日志挖掘的研究方向主要有以
下两类 :
(
1
)
针对网页 利用统计分析的方法发现用户
对哪些网页感兴趣 ;网页之间除了结构上的硬性关
评论3