利用历史购物数据分析超市商品摆放规则
小组成员:康杨,刘元培,高建花,姜艳杰
利用历史购物数据分析超市商品摆放规则
摘要:随着信息化建设和应用进程的加快,商家的数据库中积聚了大量的销售信息。
关联分析可以从销售数据库中找出各商品之间潜在的关联关系。利用数据挖掘技术,针
对应用于超市销售关联规则的特点,能够从整体、宏观的角度去分析、解决问题,以帮
助企业了解销售产品品类间的联系,进行优化产品品类配置,同时能够帮助企业的决策
者根据发展形势的变化及历史数据做出正确的决策。
1. 背景
当今社会已经步入大数据时代,大量信息已经成为信息社会最重要的特征。如
何更好地利用信息,如何从海量数据中发现知识创造价值是人类面对的一个重要课
题。近年来我国的销售行业发展迅速,越来越多的大型企业或超市开始将目光投向
数据挖掘技术,有效的利用数据挖掘技术为企业提供信息是各大零售巨头核心竞争
力的重要组成部分。
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机
的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的
过程。数据挖掘是一门交叉学科,它的目标是利用算法,从数据中抽取模式,将大
容量数据转换为有用的知识和信息。它与传统的数据分析,如报表、查询、统计分
析等数据分析考核的本质区别是它是没有明确假设的前提下去挖掘信息、发现知识。
数据挖掘把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提
供决策支持。
关联分析的目的是为挖掘出隐藏在数据间的相互关系,从而促进信息的显化。
关联规则是关联分析中的一种常用技术。关联规则是反应两项或多项属性之间存在
的相关性,其目的是为了从一些项的属性值来预测其他属性值,同时可以应用推广
所反映一个事件和其他事件之间依赖或者关联的知识。最为著名的关联规则挖掘方
法是由美国 R.Agrawal 提出的 Apriori 算法。
要解决购物数据分析的问题,可以用数据挖掘中的关联规则技术。即通过量化
的数字,描述产品 A 的出现对产品 B 的出现有多大影响。关联分析就是给定一组 Item
和一个记录集合,通过分析记录集合,推到出 Item 间的相关性。可以用四个属性来
描述关联规则:
1) 可信度:在产品集 A 出现的前提下,B 出现的概率
2) 支持度:产品集 A、B 同时出现的概率
3) 期望可信度:产品集 B 出现的概率
4) 作用度可信度:对期望可信度的比值
目前大多数的关联分析都基于“支持度-置信度”的框架,其目的是抽取形如“if A
then B”的规则。支持度高表示规则经常被使用,置信度高表示规则比较可靠,通过关
联分析后可以得到关于产品 A、B 的关联程度,从而决定这两种货品在货架上的配置。
2. 问题描述
目前,商家往往不能根据累计的顾客购物信息获取有效的研究信息,更少有商家可以利
用数据挖掘的方式从海量数据中获取有利的营销策略。如何从大量的购物数据中获取商品关
联规则并令商家利益趋于最大化,则是我们本次实验的研究重点。
从网络上下载购物篮数据,对其中购物数据的基本属性如众数、中位数等进行统计分析,
并依照购买顾客进行简单分类,完成初步的数据准备。经过参数训练,得到商品数据关联规
则,估计满足商家利益最大化的摆放方式。
本实验采用了 Apriori 算法来测量测试样本中的关联规则,实验流程如下:
⚫ 寻找开放数据集确定评测指标。
⚫ 数据分析和数据预处理。
⚫ 用 Apriori 算法进行实验,分析利润影响因素。
3. 方法
3.1 数据获取及预处理
使用 kaggle 数据集网站中的 Instacart Market Basket Analysis 数据集,目前正对该
数据集进行预处理,提取出 product,aisle 和 department 三类数据集,从而进行对单类
商品关联规则及大类商品的关联规则挖掘。各个数据集的商品信息如下图。
图 1:product 数据集