第 卷第 期
年 月
江苏科技大学学报自然科学版
Journal of Jiangsu University of Science and TechnologyNatural Science Edition
Vol No
Jun
Web 使 用 挖 掘 在 用 户 行 为 分 析 中 的 应 用
孙玲芳 夏聪
江苏科技大学 经济管理学院 江苏 镇江
摘要 Web 日志记录了大量的用户与服务器交互的信息反映了用户访问 Web 站点的所有动作如何挖掘这些记录以发
现网络用户的访问模式和兴趣爱好从而理解用户的访问行为形成对网站设计者和组织决策者有用的信息解决这个问
题最有效的工具是 Web 使用挖掘基于 Web 使用挖掘对 Web 服务器日志文件进行数据预处理采用一种基于哈希技术改
进的 Apriori 关联规则挖掘算法处理挖掘过程分析挖掘结果得到有关用户访问行为的模式和规律
关键词 Web 使用挖掘 Web 日志 关联规则 Apriori 算法 行为分析
中图分类号 TP文献标志码 A文章编号
Application of Web usage mining to user behavior analysis
Sun Lingfang Xia Cong
School of Economics and Management Jiangsu University of Science and Technology Zhenjiang Jiangsu China
Abstract Web logs record large amounts of information of users interacting with serversAlso they reflect all
the actions of users accessing web sitesIn order to discover the mode and inclination of access behaviors by web
users understanding usersaccess behaviors and form useful information for the web designer and organization
decision maker web usage mining is the most effective toolBased on the tool this paper preprocesses the data
of web server logs and deals with the mining process through Apriori algorithm improved by HashMoreover it
analyzes mining results to obtain modes and rules of usersaccess behaviors
Key words web usage mining web logs association rule Apriori algorithm behavior analysis
收稿日期
作者简介 孙玲芳 男江苏镇江人教授博士硕士生导师主要研究方向为信息管理与信息系统电子商务等
Emailslfcom
Web 使用挖掘对互联网用户的访问行为进
行分析挖掘以获得描述其中内在规律的模式
通常被表示成有着共同需求或兴趣的一群用户
频繁访问的页面对象或资源的集合
分析挖
掘出的信息可以改进站点设计为企业决策提
供支持为访问者提供更个性化的内容和服务
近年来国内外在 Web 使用挖掘领域的研究取得
了很大的进展文献 第一次提出将数据挖掘
技术用于 Web 使用信息提出最大前向引用的概
念用于发现用户浏览模式文献 提出了一种
新颖的改进的反向传播算法 Modified Backpropa
gationMBP算法能找出所有满足阈值约束的频
繁浏览路径文献 给出了一种从 Web 日志中
挖掘用户浏览偏爱路径的方法目前的研究工作
重点集中在数据预处理日志挖掘算法模式分
析与可视化技术
本文基于 Web 使用挖掘将处理后的 Web 日
志文件记录作为数据源利用关联规则技术进行挖
掘分析从而获得有关用户行为的信息主要涉及
到 个关键问题经过数据预处理得到一个页面访
问的集合作为数据挖掘的实体关联规则挖掘最
常用的是 Apriori 算法本文采用一种基于哈希技
术的改进的 Apriori 算法
1数据的预处理过程
Web 使用挖掘的主要数据源是 Web 服务器日
志文件日志文件主要有 种格式通用日志格式
Common Log FormatCLF 和扩展的通用日志格
式Extended Common Log FormatECLF表 记录
了 ECLF 中一些典型的内容