没有合适的资源?快使用搜索试试~ 我知道了~
Hive进行数据处理1
资源详情
资源评论
资源推荐
清洗目标
a.
只保留需要的字段
url urlname ref uagent uvid ssid sscoutn sstime cip
将会话信息拆分 为 会话编号 会话页面数 会话时间
1
create external table flux(url string,urlname string,title
string,chset string,scr string,col string,lg string,je string,ec
string,fv string,cn string,ref string,uagent string,stat_uv
string,stat_ss string,cip string) partitioned by (reportTime
string) row format delimited fields terminated by '|'
location '/flux';
b.
创建外部分区表管理已经在HDFS的流量数据
1
alter table flux add partition(reportTime='2018-09-17')
location '/flux/reportTime=2018-09-17';
c.
增加flux的分区信息
1
create table dataclear (url string,urlname string,ref
string,uagent string,uvid string,ssid string,sscoutn
string,sstime string,cip string) partitioned by (reportTime
string) row format delimited fields terminated by '|';
d.
创建数据清洗表dataclear
1
insert into dataclear partition(reportTime='2018-09-17')
select url,urlname,ref,uagent,stat_uv,split(stat_ss,'_')
[0],split(stat_ss,'_')[1],split(stat_ss,'_')[2],cip from flux where
reportTime = '2018-09-17';
e.
从zebra表中导入数据到dataclear表,在这个过程中完成数
据清洗
1.
网站流量分析项目中的数据清洗
2.
a.
PV
利用Hive实现业务指标的计算
Hive进行数据处理
2019年3月10日
17:30
分区 新分区 2 的第 1 页
阿玫小酱当当囧
- 粉丝: 15
- 资源: 324
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 7777端口抓包数据集
- IMG_0694.GIF
- 基于图像的三维模型重建C++源代码+文档说明(高分课程设计)
- 基于聚焦法的工件立体测量方案,根据数据进行三维重建 使用HALCON处理图像,MATLAB拟合数据+源代码+数据集+效果图
- 锄战三国村 修改:货币使用不减 v1.10(2) 原创 (中文).apk
- 基于python实现的单目双目视觉三维重建+源代码+图像图片(高分课程设计)
- 基于C+++OPENCV的全景图像拼接源码(课程设计)
- 基于Python+OpenCV对多张图片进行全景图像拼接,消除鬼影,消除裂缝+源代码+文档说明+界面截图(高分课程设计)
- 基于C++实现的全景图像拼接源码(课程设计)
- 基于SIFT特征点提取和RASIC算法实现全景图像拼接python源码+文档说明+界面截图+详细注释(95分以上课程大作业)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0