超市零售数据分析-⼤数据项⽬ [实验数据] 本实验所⽤数据为国内某超市从2012年8⽉1⽇到2013年8⽉1⽇共⼀年的交易数据,包含了812,847条交易、2,893,385件单个商品以 及20,154名顾客。 该数据包含了3个数据集。 1. 交易概况 数据集已经存放在HDFS上,路径为"/data/13/2/sales_head/sales_head.csv",各字段以制表符分隔。数据集还存放在了Hive 上,表名为"bigdata_cases.retail_sales_head"。 各字段的定义为: 字段 定义 BillId 交易标识符 CustId 顾客会员标识符,⾮会员则为空 Quantity 交易包含的商品种类数 TransTime 交易时间 OrigTotalPrice 交易原始总价,可能包含分 Pay 顾客⽀付⾦额 Change 找零 ActualTotalPrice 交易实际总价,只精确到⾓ 数据集的前5⾏为: student1@master:~$ hdfs dfs -cat /data/13/2/sales_head/sales_head.csv " head -5 00034121002436593 600120168 3 2012-08-01 07:46:10 8.84 10 1.2 8.8 00034121002436594 1 2012-08-01 07:46:53 19.59 20 0.5 19.5 00034121002436595 2 2012-08-01 07:47:35 7 7 7 00034121002436596 600120168 3 2012-08-01 07:48:30 28.01 103 75 28 00034121002436597 600799218 2 2012-08-01 07:49:32 19.9 20 0.1 19.9 2. 交易明细 数据集已经存放在HDFS上,路径为"/data/13/2/sales_detail/sales_detail.csv",各字段以制表符分隔。数据集还存放在了 Hive上,表名为"bigdata_cases.retail_sales_detail"。 各字段的定义为: 字段 定义 BillId 交易标识符 RowNo 商品在交易中的次序 TransTime 交易时间 GoodId 商品标识符 Barcode 商品条形码 GoodName 商品名称 Unit 单位 Quantity 商品数量 OrigUnitPrice 商品原始单价 OrigTotalPrice 商品原始总价 ActualUnitPrice 商品实际单价 ActualTotalPrice 商品实际总价 数据集的前5⾏为: student1@master:~$ hdfs dfs -cat /data/13/2/sales_detail/sales_detail.csv " head -5 00034121002436593 1 2012-08-01 07:45:38 5440483 2186463 苦⽠(⼀级) 公⽄ 0.262 4 1.048 3.6 0.94 00034121002436593 2 2012-08-01 07:45:39 5440483 2186463 苦⽠(⼀级) 公⽄ 0.192 4 0.768 3.6 0.69 00034121002436593 3 2012-08-01 07:45:45 5440466 2186359 南⽠(⼀级) 公⽄ 4.052 1.98 8.023 1.78 7.21 00034121002436594 1 2012-08-01 07:45:26 5110324 6934665081392 蒙⽜益⽣菌酸⽜奶(原味)1.2kg 桶 1 19.59 19.59 19.59 19.59 00034121002436595 1 2012-08-01 07:47:18 5110467 6901209206146 光明酸⽜奶(红枣味)180g 盒 2 3.5 7 3.5 7 3. 商品信息 数据集已经存放在HDFS上,路径为"/data/13/2/good/good.csv",各字段以制表符分隔。数据集还存放在了Hive上,表名 为"bigdata_cases.retail_good"。 各字段的定义为: 字段 定义 GoodId 商品标识符 Category1Name 商品所属的⼤类名称 Category2Name 商品所属的中类名称 Category3Name 商品所属的⼩类名称 Category4Name 商品所属的细类名称 BrandName 顾客⽀付⾦额 GoodName 商品名称 数据集的前5⾏为: student1@mas 【大数据在超市零售分析中的应用】 在这个实验中,我们探讨的是如何利用大数据技术对超市零售数据进行深入分析。数据来源于2012年8月1日至2013年8月1日一年间的国内某超市交易记录,包含了812,847笔交易、2,893,385件商品以及20,154名顾客的信息。这些数据被组织成了三个主要的数据集,分别是交易概况、交易明细和商品信息。 1. **交易概况数据集**: - 存储位置:HDFS上的`/data/13/2/sales_head/sales_head.csv`,以及Hive表`bigdata_cases.retail_sales_head`。 - 主要字段包括:BillId(交易ID),CustId(顾客ID,非会员为空),Quantity(交易中商品种类数),TransTime(交易时间),OrigTotalPrice(原始总价),Pay(支付金额),Change(找零),ActualTotalPrice(实际总价,精确到角)。 - 数据示例展示了不同交易的详细情况,如交易时间、金额和找零等。 2. **交易明细数据集**: - 存储位置:HDFS上的`/data/13/2/sales_detail/sales_detail.csv`,以及Hive表`bigdata_cases.retail_sales_detail`。 - 包含字段有:BillId(交易ID),RowNo(商品在交易中的顺序),TransTime(交易时间),GoodId(商品ID),Barcode(商品条形码),GoodName(商品名称),Unit(单位),Quantity(商品数量),OrigUnitPrice(原始单价),OrigTotalPrice(原始总价),ActualUnitPrice(实际单价),ActualTotalPrice(实际总价)。 - 数据示例提供了每个商品的详细交易信息,如商品名称、数量、单价和总价。 3. **商品信息数据集**: - 存储位置:HDFS上的`/data/13/2/good/good.csv`,以及Hive表`bigdata_cases.retail_good`。 - 主要字段包括:GoodId(商品ID),Category1Name(大类名称),Category2Name(中类名称),Category3Name(小类名称),Category4Name(细类名称),BrandName(品牌名称),GoodName(商品名称)。 - 这部分数据有助于了解商品的分类和品牌,便于进行市场细分和商品分析。 通过这些数据,我们可以进行多方面的分析,如顾客购买行为分析、销售趋势预测、商品组合优化、库存管理、顾客忠诚度评估等。例如,使用大数据处理工具(如Hadoop和Spark)进行数据清洗、预处理和聚合,然后通过数据挖掘算法发现交易模式和顾客偏好。此外,结合商品分类信息,可以研究不同类别商品的销售表现,分析季节性或促销活动的影响。 进一步,可以构建推荐系统,根据顾客过去的购买历史和商品关联性提供个性化推荐。还可以运用机器学习模型预测未来的销售量,以便于超市进行有效的库存管理和采购决策。此外,通过分析顾客支付金额和找零,可以评估支付效率和潜在的财务风险。 这个大数据项目展示了如何利用现代数据科学技术处理零售业的海量数据,以提升运营效率、优化商业策略并增强客户体验。
- 粉丝: 192
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 10、安徽省大学生学科和技能竞赛A、B类项目列表(2019年版).xlsx
- 9、教育主管部门公布学科竞赛(2015版)-方喻飞
- C语言-leetcode题解之83-remove-duplicates-from-sorted-list.c
- C语言-leetcode题解之79-word-search.c
- C语言-leetcode题解之78-subsets.c
- C语言-leetcode题解之75-sort-colors.c
- C语言-leetcode题解之74-search-a-2d-matrix.c
- C语言-leetcode题解之73-set-matrix-zeroes.c
- 树莓派物联网智能家居基础教程
- YOLOv5深度学习目标检测基础教程