没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
17页
基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分析.docx基于Hive的淘宝用户行为数据分
资源推荐
资源详情
资源评论
1
目录
一、数据集介绍 ................................................................................................................................
二、数据预处理 ................................................................................................................................
三.、数据分析方法 ...........................................................................................................................
四、实验过程 ....................................................................................................................................
五、代码分析和注释.........................................................................................................................
六、结论与展望 ................................................................................................................................
2
基于 Hive 的淘宝用户行为数据分析
本文将通过阿里云天池提供的淘宝用户行为数据集,从不同维度出发,通过
数据来分析淘宝用户的一些行为习惯和爱好。淘宝或商家可以根据结论做出一些
举措。
一、数据集介绍
本数据集取至阿里云天池的数据集,数据集名称为 User behavior Data from
Taobao for Recommendation,数据集包括用户 ID,商品 ID,商品类目 ID,行为
类型,时间戳,数据总条目数为 100,150,807 行。
1、采集网址:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
2、数据集展示:
图 1-1 原始数据集部分截图
3、数据集介绍:
该数据集共有 100,150,807 行与 5 个属性,如表中的 userid 对应的是用户 id,
itemid 对应的是商品 id,categoryid 对应的是商品类目 ID,type 对应的是行
为类型,timestamp 对应的是时间戳。
表 1 淘宝用户数据集各字段说明
数据字段
描述
3
userid
用户 id
itemid
商品 id
categoryid
商品类目 ID
type
行为类型
timestamp
时间戳
表 2 type 包含属性各字段说明
数据字段
描述
pv
商品详情页 pv,等价于点击
buy
商品购买
cart
将商品加入购物车
fav
收藏商品
二、数据预处理
本课题的预处理方式主要是对数据进行数据清洗和数据规约。
(1)数据清洗:1)将时间戳转换成日期 2)数据集说明中写的是本数据集
的日期范围是 2017 年 11 月 25 日至 2017 年 12 月 2 日,所以剔除这日期以外的
数据
(2)数据规约:时间要在 2017 年 11 月 25 日至 2017 年 12 月 2 日
处理后数据集的部分截图如下:
剩余16页未读,继续阅读
资源评论
- qq_523444042023-12-04超赞的资源,感谢资源主分享,大家一起进步!
- m0_684580422024-01-05资源不错,很实用,内容全面,介绍详细,很好用,谢谢分享。
- ltw159698179632024-01-03资源中能够借鉴的内容很多,值得学习的地方也很多,大家一起进步!
- 2301_823155002024-01-05资源内容总结的很到位,内容详实,很受用,学到了~
AI_Maynor
- 粉丝: 7w+
- 资源: 153
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功