没有合适的资源？快使用搜索试试~ 我知道了~

文库首页大数据Hadoopapache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现

apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现

hadoop

需积分: 50 41 下载量 20 浏览量 2017-11-23 16:24:58 上传评论 2 收藏 163KB PDF 举报

温馨提示

试读

5页

apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现

资源推荐

资源详情

资源评论

www.aboutyun.com

discuz论坛apache日志hadoop大数据分析项目：

清洗数据核心功能解说及代码实现

我们在进行日志分析的时候，那么日志的数据是杂乱无章的，或则说日志的数据并不是我

们都想看到的。所以我们需要对里面的数据进行清洗，说的直白一点就是要过滤里面的字

符串。

下面便是我们需要过滤的数据：

183.131.11.98 - - [01/Aug/2014:01:01:05 +0800] "GET /thread-5981-1-1.html

HTTP/1.1" 200 18152

"http://www.baidu.com/s?wd=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&pn

=30&oq=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&tn=28035039_2_pg&ie

=utf-8&rsv_page=1" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36

(KHTML, like Gecko) Chrome/32.0.1700.107 UBrowser/1.0.349.1252 Safari/537.36"

这里如果对日志不了解或则不了解日志分析，可能会产生问题？为什么过滤这条数据，就

能达到清洗的目的。这里所讲的只是核心内容，对于运行mapreduce来处理，可以看后面

的文章。我这里重点讲如何把上面的数据，过滤出我们想要的数据。

我们需要什么数据，从about云分析discuz论坛apache日志hadoop大数据项目：概要设计

说明书中，我们需要过滤出下面数据：

1.ip地址

2.访问时间

3.url地址

4.用户使用浏览器

过滤分析

1.ip地址获取

上面ip地址还是比较好过滤的，分隔符为- -即可得到我们想要的数据

ipField = line.split("- -")[0].trim();

2.访问时间

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

Jerryfk

粉丝: 5
资源: 9

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现

hadoop实训课数据清洗py脚本（MapReduce python代码，可执行文件脚本，使用方法）

apache日志hadoop大数据

大数据。基于hadoop的网站日志分析系统（附带web展示页面）

Hadoop计数器的应用以及数据清洗

mapreduce项目 数据清洗

在大数据中如何清除数据

Hadoop大数据开发案例教程与项目实战(上)

org.apache.hadoop.ipc.Client: Retrying connect to server

基于Hadoop网站流量日志数据分析系统.zip

外网无法访问HDFS org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block

大数据处理系统：Hadoop源代码情景分析

hadoop2.7汇总：新增功能最新编译64位安装、源码包、API、eclipse插件下载

大数据分析-网站日志数据文件（Hadoop部署分析资料）

Hadoop源代码分析（包org.apache.hadoop.mapreduce）

大数据处理系统：Hadoop源代码情景分析_大数据_大数据分析_大数据Hadoop_

hadoop-auth-2.6.5-API文档-中英对照版.zip

Hadoop分析气象数据完整版源代码（含Hadoop的MapReduce代码和SSM框架）

基于Hadoop豆瓣电影数据分析实验报告

基于Hadoop的电影影评数据分析

基于Hadoop的Web日志分析项目源码(日志的清洗、统计分析、统计结果的导出、指标数据的Web展示)+项目说明.zip

Java-org.apache.hadoop

Hadoop豆瓣电影数据分析（Hadoop）操作源码

基于Hadoop的网站流量日志数据分析系统项目源码+教程.zip

大数据处理系统：Hadoop源代码情景分析（采用Hadoop 2.6）

项目源码：基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计

hadoop-3.3.4.tar.gz + winutils 安装环境

基于大数据的音乐推荐系统（适合本科毕设）

基于Hadoop+Spark招聘推荐可视化系统 大数据项目 毕业设计（源码下载）

最新资源

mapreduce项目数据清洗

项目源码：基于Hadoop+Spark招聘推荐可视化系统大数据项目计算机毕业设计

基于Hadoop+Spark招聘推荐可视化系统大数据项目毕业设计（源码下载）