淘宝大数据分析案例.pdf资源-CSDN文库

190 浏览量 2022-12-22 23:12:46 上传评论收藏 1.2MB PDF 举报

资源推荐

资源详情

资源评论

淘宝⼤数据分析案例

项⽬介绍

本次结合的是⼀份淘宝⼤数据数据，数据集的⼤⼩共177MB，数据⼀共有3182261份（三百多万份数据集），⼀般的软件是⽆法计算和

分析的，⽐如Excel，MySQL，Python这些都⽆法较好的完成相关数据分析。

1.Excel⼀般是⼀万多⾏的数据就不可以了。

2.Python与MySQL虽然可以，但是查询的效率却不敢保证，容易出现电脑死机或者卡死，这个与电脑本⾝的配置有关，所以对于⼤数据的

数据集，我们提供了Hadoop，伪分布式的储存机制，这样的结构与特点让我们的数据集，可以容纳到TB级以上，较有规律的查询和优化的

查询，可以让我们的数据分析事半功倍。

数据表⾥⾯的字段如下

user_id age gender item_id behavior_type item_category time Provinceuser_id age gender item_id behavior_type item_category time Province

⽤户ID，性别，商品ID，⽤户⾏为，商品种类，发⽣⽇期，发⽣省份

项⽬准备

前期准备

如果你想要使⽤Hadoop集群来操作这次案例，就必须要已经完全配置好了的才能完成下⾯的操作，必须要包含：

hdfs，hbase，hive，flume，sqoop等插件，如果有需要的可以私信我，⽂件压缩包7-8GB，只能⽤百度云盘分享给你，解压之后直接可

以使⽤，⼀步到位

注意：虚拟机⾸先是必须要有的，不然有我发的镜像⽂件也不可以的

项⽬开展

项⽬导⼊

如果你是第⼀次使⽤我推荐的系统，需要进⾏下⾯的⼀些简单操作：

1.启动和拷贝hive包到相应的⽬录下⾯，这个是为了利⽤flume导⼊⽽准备的

start-all.sh

cd ${HIVE_HOME}/hcatalog/share/hcatalog/

cp * ${FLUME_HOME}/lib/

cd ${FLUME_HOME}/lib/

ll

本次我将讲解两种导⼊的⽅法，⼀种是hive直接加载本地⽂件，另⼀种是利⽤flume⾃动导⼊数据，作为商业⼤数据数据，我们更倾向于后

者，因为在平时采集⽇志或数据集，都是⾃动化的，⾃动化分布式爬⾍，⾃动化导⼊，⾃动化分析，这样才是⽼板时刻想要的数据结果展

⽰，所以作为数据分析师，在以后的⼯作之中如何把⼯作⼀键化是⾮常的重要的，但是平时⾃⼰练习的时候，基于⼀些少量的数据集，我们

采⽤本地加载的⽅法还是⽐较的简单⽅便，各有各的优势，我们⾃⼰去取舍。

把下⾯的配置参数加⼊hive-site.xml⽂件⾥⾯全选覆盖即可

剩余14页未读，继续阅读

内容反馈

是空空呀

粉丝: 171
资源: 3万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip