论文研究-基于Hadoop/CloudBase/MySQL的日志分析系统的设计与实现 .pdf

所需积分/C币:8 2019-08-28 02:02:08 278KB .PDF

基于Hadoop/CloudBase/MySQL的日志分析系统的设计与实现,卓海艺,赵文深,社交网络及移动互联网的迅速发展,使得许多互联网企业和机构的网络日志数据规模越来越大。如何快速处理大规模的日志数据,从中获
山国武获论文在丝 http:/www.paper.edu.cn 7512日志分析处理子系统实现 数据分析处理子系统是整体系统的核心,包含三个组件,分别是 Cloud Base、 Hadoop 和 MySQL,通过一段处理程序把它们连接起来。 Hadoop系统可以是单机形式,也可以是分 布式部著形式,本系统釆用分布式部署提高处理效率。 CloudBase和 MySQL只需要部署在 其中一个节点,例如可以把它们部署在 master节点上。部署完成后,还需要实现两个类才 80能处理口志敖据。其为 LogParser,它是个UDT(用广自定义类型), Cloud Base使用 它对每行日志数据进行处理,提取需要的日志信息。其二为 Analysis,它是主要处理类,把 三个组件联系起米完成数据的分析和处理,并导入 MySQL数据库中。具体流程如图2所示 与 MySQL建立连接 并新建 MySQL表 关闭 MySQL连接 与 CloudBase建立连接 关闭 Cloudbase连接 连接 CloudBase与 删除 Cloudbase与 MySQL MySQLI的连接 注册 LogParser 注销 LogParser ▲ 新建 Cloudbase表 查询 Cloudbase表并把 并导入数据 结果播入 My SQL表 删除 Cloudbase临时表 图2日志分析处理流程图 Fig 2 Log analysis processing flow chart 程序启动处理日志的流程,首先与 MYSQL建立连接,并新建 MySQL表,表名与日志 文件目录名相冋,作为当天的凵志处理结果表。然后与 CloudBase建立连接,为 Cloud Base 建立一个 CloudBase与 MySQL的连接,这样才能把 CloudBase处理结果直接插入 MySQL 衣。之后,把 LogParser注册到( Cloudbase,这样 CloudBase才能使用 LogParser逐行解析日 志文件。接着建立 Cloud base临时表,并导入数据。这个过程会启动一个Map/ Reduce作业, 伃个Map会读取日志文件,执行 Logparser逐行解析日志取得需要的信息,然后写入 CloudBase表。接下来让 CloudBase执行査询统计命令,并把查询结果导入 MySQL。这个过 程也会肩动 Map/Reduce任务,进行扫描査询,并把结果通过 Cloud Base与 MySQL的连接 95隧道导入 MySQL。最后清理 Cloud Base临时表,注销 Log Parser,删除 Cloud Base与 MySQL 的连接,关闭 Cloud Base连接,关闭 MySQL连接。 13统计结果展示子系统实现 统计结果展示了系统采用 Apache Tomcat作为web服务器处理网页请求,并使用PHP 编程处理逻辑。首先使用DAO读取MySαL数据,然后进行逻辑处理,使用 cHart画图 100生成报表。我们可以通过网页选择某天、某月、甚至一整年的数据报表,从而分析用户使用 情况及发展变化趋势。这个子系统可以根据应用需要及日志格式作相应的调整,如果是日志 格式变化,还需要修改日志分析子系统的 LogParser类和 Analysis类即可。 山国武获论文在丝 http:/www.paper.edu.cn 2系统测试 21实验环境 105 我们使用ⅹ EN Server新建5个虚拟机,每个虚拟机分配2GB内存及20G硬盘空间,并 安装 ubuntu-11l.04系统,分别命名为 master、 slave、 slave2、 slave3和 slave4。在 master 上安装jk和 Hadoop-1.0.0,修改其配置文件,设置ssh免密码登录到 master及其他虚拟机 并把Hado复制到其他虚拟机,完成 Hadoop部署。接着在 master上安装 CloudBasc-1.3.1, 并使用apt- get install命名安装 apache2、 mysql- server、 mysql- client、php5、php5-gd和 110php5 mysql最后把我们编写的java类和相关jr包、shel脚本、网站php源码部署到 master 上,完成整个测试系统的搭建 2实验数据和实验内容 我们从3个访问量比较大网站获取网络日忐数据,在他们那边设置FTP服务器,实验 系统从FTP服务器下载日忐文件。通过定时启动任务,定时到相应网站下载∏忐文件,并 115自动进行分析处理,把结果导入 MySQL,整个过程全自动完成。我们先使用单机模式进行 测试,并逐渐増大数据规模,记录数据处理消耗的时间,然后修改 Hadoop配文件,使用 分布式模式做相同数据的测试。 23实验结果 通过实验,系统能够全自动亢成日忐数据的取得、分析处理、导入 MySQL,在网页上 120显示统计结果。图3是我们记录的单机模式与分布式模式下处理不同规模数据所消耗的时间 对比图。可以看到当数据量小于1.5G时,分布式模式不能发挥其优势,反倒消耗更多时间; 但随蒼日志数据的增人,分布式模式显示出它的优越伫。 2500 单机耗时 分布式耗时 200 1500 1000 500 0 0 1000 2000 4000 5000 日志/MB 图3单机与分布式耗时比较图 124 Fig3 Single mode and distributed mode time-consuming comparison chart 4 山国武获论文在丝 http:/www.paper.edu.cn 结论 本文提出的基于 Hadoop/ CloudBase/ MySQL的网络日志分析系统,能够高效分析处理大 规模內络日志数据。利用Hado的分布式优势,可以使系统随着目志规模的増大进行扩展。 利用 CloudBase对SQL的支持,互联网公司可以方便把自己的日志处理系统迁移到本系统。 130而且本系统的处理过程全自动化,管理简单,具有很高的实用价值 参考文献]( References) []胡光民,周亮,柯立新.基于 Hadoop的网络日志分析系统研究叮电脑知识与技术,2010,6(22) 65-69 [2]王润化.基于 Hadoop集群的分布式日志分析系统研究[J科技信息,2007.15:60-109 135[3]朱洙.基于 Hadoop的海量数据处坦模型研究和应用D].北京:北京邮电大学,2008 [4]apache.WelcometoApacheHadoop[ol].2008.http://hadoop.apacheorg [5] Tom white. Hadoop权威指南[M]曾大聃,厝傲英.北京:清华大学出版社,2010 [6]郭欣.使用 Map/Reduce进行并行计算J.程序员,209,10:66-67 [7 Tarandeep. CloudBase: Data warehouse system build on top of I ladooplol -[2008-10-17 140http://hadoop.6.n7.nabble.com/cloudbasE-data-warehousE-system-build-on-top-of-hadoop-td6213.html Hadoop Ecosystem解决方案 数据仓库[OL]200910-14] http:/www.cnblogs.com/onlyXp/aRchive/2009/10/1471583450.html

...展开详情
试读 5P 论文研究-基于Hadoop/CloudBase/MySQL的日志分析系统的设计与实现 .pdf
img

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐
    论文研究-基于Hadoop/CloudBase/MySQL的日志分析系统的设计与实现 .pdf 8积分/C币 立即下载
    1/5
    论文研究-基于Hadoop/CloudBase/MySQL的日志分析系统的设计与实现 .pdf第1页
    论文研究-基于Hadoop/CloudBase/MySQL的日志分析系统的设计与实现 .pdf第2页

    试读已结束,剩余3页未读...

    8积分/C币 立即下载 >