没有合适的资源?快使用搜索试试~ 我知道了~
apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现
需积分: 50 41 下载量 20 浏览量
2017-11-23
16:24:58
上传
评论 2
收藏 163KB PDF 举报
温馨提示
试读
5页
apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现
资源推荐
资源详情
资源评论
www.aboutyun.com
discuz论坛apache日志hadoop大数据分析项目:
清洗数据核心功能解说及代码实现
我们在进行日志分析的时候,那么日志的数据是杂乱无章的,或则说日志的数据并不是我
们都想看到的。所以我们需要对里面的数据进行清洗,说的直白一点就是要过滤里面的字
符串。
下面便是我们需要过滤的数据:
183.131.11.98 - - [01/Aug/2014:01:01:05 +0800] "GET /thread-5981-1-1.html
HTTP/1.1" 200 18152
"http://www.baidu.com/s?wd=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&pn
=30&oq=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&tn=28035039_2_pg&ie
=utf-8&rsv_page=1" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/32.0.1700.107 UBrowser/1.0.349.1252 Safari/537.36"
这里如果对日志不了解或则不了解日志分析,可能会产生问题?为什么过滤这条数据,就
能达到清洗的目的。这里所讲的只是核心内容,对于运行mapreduce来处理,可以看后面
的文章。我这里重点讲如何把上面的数据,过滤出我们想要的数据。
我们需要什么数据,从about云分析discuz论坛apache日志hadoop大数据项目:概要设计
说明书中,我们需要过滤出下面数据:
1.ip地址
2.访问时间
3.url地址
4.用户使用浏览器
过滤分析
1.ip地址获取
上面ip地址还是比较好过滤的,分隔符为- -即可得到我们想要的数据
ipField = line.split("- -")[0].trim();
2.访问时间
资源评论
Jerryfk
- 粉丝: 5
- 资源: 9
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功