项目三 关联规则分析
一、实践目的
1、了解关联规则算法原理;
2、熟悉关联规则应用场景;
3、掌握使用 Apriori 算法、FP-grouth 算法进行关联规则分析的方法;
二、实践平台
1、操作系统:Windows7 及以上
2、Python 版本:3.8.x 及以上
3、PyCharm 或 Anoconda 集成环境
三、实践内容
任务一:在线购物车分析
针对数据集 Online Retail.xlsx 进行预处理。该数据集记录了在 2010 年 12 月
01 日至 2011 年 12 月 09 日的 541909 条在线交易记录,包含 8 个属性,主要属
性如下:
1. InvoiceNo: 订单编号,由 6 位整数表示,退货单号由字母“C”开头。
2. StockCode: 产品编号,每个不同的产品由不重复的 5 位整数表示。
3. Description: 产品描述。
4. Quantity: 产品数量,每笔交易的每件产品的数量。
5. InvoiceDate: 订单日期和时间,表示生成每笔交易的日期和时间。
6. UnitPrice: 单价,单位产品的英镑价格。
7. CustomerID:顾客编号,每个客户由唯一的 5 位整数表示。
8. Country: 国家名称,每个客户所在国家/地区的名称。
(一)数据读入
1. 导入本案例所需的 Python 包;
2. 将数据读入并存为 DataFrame 格式,查看前 5 行数据。
(二)数据理解
1. 调用 shape 属性查看数据集的形状;
2. 调用 describe()方法对数据集进行探索性分析;