海量查询日志的数据挖掘及用户行为分析

所需积分/C币:50 2015-07-20 07:36:14 18.51MB PDF
收藏 收藏
举报

海量查询日志的数据挖掘及用户行为分析
独创性(或创新性)声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:彭 日期-0x之 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:龙媽 日期:2032 导师签名: 日期:_2 北京邮电大学硕士研究生毕业论文 某于海量裔询日志的数据挖掘及用户行为分析 基于海量查询日志的数据挖掘及用户行为分析 摘要 随着互联网和搜索引擎技术的飞速发展,web中包含的信息不断 增加,搜索引擎成为大多数用户为获取网络信息的首选。在用户与搜 索引擎的交互过程中,产生了海量的查询日志,而且这些日志还在不 断地增长。由于日志中蕴含了大量和用户相关的信息,成为很多公司 为更好地了解并吸引更多用户的重点研究对象。利用分布式技术存储 并计算海量日志,使得对查询日志的研究变得更加方便。如今各大互 联网公司都越来越重视自己的查询日志,期望通过对这些日志进行及 时、精确地分析和挖掘来发现隐藏在日志中的用户行为特征,以此来 提高用户使用搜索引擎时的满意度,提升企业的市场竞争力。 本文以海量查询日志作为处理对象,主要进行的工作有: (1)对日志预处理技术的研究。主要研究了数据清洗、用户识 别、会话识别、路径补充和事务识别以及相关算法,并将分布式技术 和算法相结合,实现了基于 Hadoop的日志预处理过程,为后面数据 挖掘做准备。 (2)设计用户日志挖掘系统。考虑到日志海量的特点,传统的 数据存储和计算方法难以适用于搜索引擎用户行为分析中。针对此问 题,本文提出基于 Mapreduce编程框架对海量日志进行挖掘的思想, 根据日志中记录的用户查询词、点击的URL和标识用户身份的ID对 用户行为进行建模,将用户行为用特征向量来表示,给出不同用户相 似度的计算公式,分析了 K-means算法分布式化的可行性并给出详细 的分布式实践步骤。实验证明,该算法能够有效的对用户聚类,并在 处理海量数据时表现出较好的性能。 (3)对用户行为进行分析。主要分析了日志量、用户量及两者 的关系;用户查询词的数量、长度、字符组成、常用查询词:被点击 的URL总量、URL的深度、常用URL;搜索引擎返回结果的顺序与 用户点击的顺序之间的关系。经过对日志的多角度分析,得出用户行 为的特征,从而为以后改善搜索引擎和用户之间的交互体验提供参考 依据。 北京邮电大学硕:研究生毕业论文 基于海量查询日志的数据挖掘及用户行为分析 关键词:海量日志数据挖掘分布式K- means MapReduce 北京邮电大学硕士研究生毕业论文 基于海蟹询日志的数据挖据及用户行为分析 Data Mining and User Behavior Analysis Based on the Massive query Log ABSTRACT With the development of the Internet and search engine technology, the information on the web is increasing rapidly. The search engine becomes the first choice of the majority of users to access to network information. In The process of interaction of users and the search engine, amount of query log is generated and it is still increasing rapidly. Since the log is full of information of user behaviors, it has been studied by companies to understand and attract users. The wide application of distributed technology has made storing and computing massive log quite convenient. Nowadays IT companies are putting more emphasis on their query log in hope to timely and accurately analyze and mine user behavior buried in the data, so that to improve user satisfaction with their search results and make the company more competitive This paper takes the massive query log as the subject of study, and the main contribution are as follows (1)Research the technology of log preprocessing, it includes Data Cleaning, User Identification, Session Identification, Path Completion, Transaction Indentification and related algorithms, then combined distributed computing with the algorithms to implement log preprocessing based on Hadoop for data mining (2)Design a user log mining system which takes into account the characteristics of massive log and the problem that traditional methods are hardly applicable to user behavior analysis on search engine. To address this concern, this paper proposed a data mining method of massive log based on the MapReduce framework and builded the user behavior model according to query words, clicked URl and the user ID from the log, used eigenvectors to represent users and provided a formula to computing user similarity analyzed the feasibility of applying distributed computing techniques to K-means algorithm and realized the procedure. The evaluation shows the algorithm can effectively cluster users and has relatively well performance when dealt with massive data 北京邮电大学硕士研究生毕业论文 基于海量素询日志的数据挖掘及用户行为分析 (3)Analysis user behavior in terms of: the volumn of log, the number of users and the relationship between them; keyword numbers, length and character composition and frequent pattern; the number and the depth of clicked URL, the most common URL; the correlation between the URL rank returned by search engine and the sequence of user clicked. After multiple perspectives analysis, user behavior is characterized which provide reference for companies to improve search result and user experience KEY WORDS: massive log, data mining, distributed, K-means, MapReduce 北京邮电大学硕研究生毕业论文 基于海鬣纛询日悲然数据挖掘及用户行为分析 目录 摘要 ABSTRaCT LI 第章绪论 ,“· 1.1课题研究背景 1.2国内外研究现状.,…, 1.2.1分布式技术研究现状,,,,,,, 1.2.2数据挖掘硏究现状 1.2.3Web日志挖掘研究现状.. 122345 1.3本文研究内容和意义 1.4论文组织结构 第二章分布式技术和数据挖据的研究, 7 2.1GFS.....,,,,.,,,,,,,,,,、,,,. 7 2.1.1 Google的分布式文件系统GFS. 7 2.1.2GFS架构 2.2 Hadoop∴∴…∴………… 2.2.1HDFS,, 2.2.2 MapReduce编程框架∴.,… ,。10 2.23 Mapreduce执行流程 ·得帚坤章 12 2.3数据挖摒. 13 2.3.1数据挖掘的定义 ...14 2.3.2数据挖掘的流程., 14 2.3.3数据挖掘的主要方法 ,,,,,,,..15 2.3.4数据挖掘的应用和挑战 。,,,,。,,16 2.4web日志挖掘. 血鱼 16 2.4.1Web挖捆分类, 鲁争 2.4.2Web旦志挖掘流程 1 8 2.5本章小结. 19 第三章日志预处理技术 20 3.1数据清洗 1鲁看 20 3.2用户识别 21 3.3会话识别 ,,,..,,..,22 3.4路径补充和事务识别 · 24 3.5基于 Hadoop的日志预处理实现 ,,,,,,,,,26 3.6本章小结. ,,,,,,,..28 第四章基于用户行为的査询日志挖掘 4.1基于日志的用户聚类分析 ,,..,29 42口志挖掘系统的设计 A.3日志的数据挖掘.,,31 4.3.1Mine模块的功能 31 4.3.2基于日志的用户行为建模, 32 北京邮电大学倒士研究生毕业论文 基于海量查询日志的数据挖掘及用户行为分析 43.3基于 Mapreduce的关键词和URL聚类 4.3.4用户的特征向量表示及相似度计算. 35 4.3.5K- means算法及其分布式实现 37 4.3.6系统测试及结果分析 章鲁·量 ..,,,,,,..,42 4.4本章小结, 45 第五章基于海量日志的用户行为分析 46 5.1日志来源及用户搜索行为分析 46 52日志量和用户量的分析 47 5,3用户查询词的分析, 48 53.1杳询词的数量分析 48 5.3.2查询词的字符分析 ·鲁 49 533查询词的长度分析 ,,,,,,50 54用户点击URL的分析. 50 5,5 URL rank与用户点击顺序的分析, 51 56本章小结 52 第六章总结和展望 善鲁 ....53 6.1本文主要工作, 53 6.2未来工作 ,,,,,,,53 参考文献 ,,,,,,,55 致谢 57 v 北京邮电大学硕士研究生毕业论文 基于海蟹鳶询日忠的数据挖据及用户行为分析 第一章绪论 1.1课题研究背景 互联网技术的高速发展和计算机的普及,让我们生活在一个数据激增的时代。 在F常使用网络的过程中数据无时无刻不在产生。如今已很难衡量每天产生多少 数据,接着又存储了多少数据。据加州大学圣地亚哥分校在2011年4月的报告 u排指出,全球的2700万台服务器在2008年共处理了957ZB的数据量。海量数据 来源有很多,例如2:纽约证券交易所每天新产生交易数据达到ITB左右; Facebook的服务器用1!PB的存储空间存储了大约100亿张照片。如此之多的数 据,我们甚至很难想象这些数据究竞与我们有多少联系。但是,事实上,它们与 我们密切相关 日常生活中,搜索引擎成功地为我们和数以万计的Web网页架设了桥梁, 成为我们获取和发布各种网络信息的主要途径。目前搜索引擎、E-mail、及时通 讯是我们生活中最常用的互联网服务。在搜索引擎中,用户通过在搜索框中输入 自己关心的问题并提交后,服务器就会向用户返四一个URL链接的序列给用户, 然后用户点击并浏览自已感兴趣的结果。这样,用户与搜索引擎的交互信息如用 户输入的关键字、点击的URL、点击的时间等就会被记录在服务器日志屮。互 联网公司特别是大型的搜索引擎公司存储了用户海量的搜索日志,日积月累不断 地增长。如何从海量『志屮提取出有价值的信息成为科研工作者和互联网企业潜 心研究的重要课题。海量的数据是基础,对数据的管理、分析、挖掘能力已成为 企业的核心竟争力,如何通过数据挖掘据来提高企业的竞争力和用户体验成为进 步硏究的关键。目前很多互联网公司都引入了数据挖掘技术、架构数据挖掘体 系来分析海量日志。从互联网的角度来看,蕴藏在网站日志中的信息往往是最有 价值的。从日志中,互联网企业不仅可以了解应用的使用量、活跃用户数、服务 质量,还可以了解到用户的地域来源、兴趣爱好、行为特征等许多关键信息,从 而改善服务质量,提高搜索引擎的性能,更好地满足用户需求。但在实践中,随 着恻站用户规模的增大和数据量的指数级增长,日志的管理、分析、挖据变得越 来越具有挑战性。 海量数据的存储和计算问题在某种程度上促进了分布式技术的发展。随着 2003年以来, Google陆续公布了三篇分布式经典论文,我们通常简称为:GFS Mapreduce、 Bigtable.GFS是 Google根据自身海量数据处理需要设计的高效的、 可靠的分布式文件系统。 Mapreduce是用于并行处理海量数据的编程框架。

...展开详情
试读 66P 海量查询日志的数据挖掘及用户行为分析
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
mxl421 知网上别人的论文也拿来卖积分,去知网下载就行了
2018-07-17
回复
有风的海 每次都下不成功,CSDN是不是太久没更新服务器啦!
2018-01-15
回复
Ender1412 很好,可以用作参考
2017-09-06
回复
JerryJiangJiang 可以做为参考,不错,点赞
2017-06-07
回复
上传资源赚积分or赚钱
最新推荐
海量查询日志的数据挖掘及用户行为分析 50积分/C币 立即下载
1/66
海量查询日志的数据挖掘及用户行为分析第1页
海量查询日志的数据挖掘及用户行为分析第2页
海量查询日志的数据挖掘及用户行为分析第3页
海量查询日志的数据挖掘及用户行为分析第4页
海量查询日志的数据挖掘及用户行为分析第5页
海量查询日志的数据挖掘及用户行为分析第6页
海量查询日志的数据挖掘及用户行为分析第7页
海量查询日志的数据挖掘及用户行为分析第8页
海量查询日志的数据挖掘及用户行为分析第9页
海量查询日志的数据挖掘及用户行为分析第10页
海量查询日志的数据挖掘及用户行为分析第11页
海量查询日志的数据挖掘及用户行为分析第12页
海量查询日志的数据挖掘及用户行为分析第13页
海量查询日志的数据挖掘及用户行为分析第14页

试读结束, 可继续读6页

50积分/C币 立即下载 >