队伍编号
dsa2101362
题号
B
用户消费行为价值分析
摘 要
随着线上教育平台的兴起,如何判别高价值用户并优化成本已然成为平台的重要工
作。本文依据题目所给数据研究某儿童线上教育平台的用户消费行为,将用户关键信息
进行可视化,建立数据预测模型,并最终为企业提出合理建议。
针对任务一,本文首先对数据进行清洗,处理掉重复值、缺失值、无效值与异常值,
例如针对用户信息表删除重复用户 id 数据 19265 条,删除城市信息缺失数据 24089 条,
删除城市信息异常数据 399 条。随后,为了方便数据查找与集中处理,将后续任务需用
到的数据进行集成处理。最后,为了将数据转变为更适合数据挖掘的形式,对数据采用
零-均值规范化(z-score 标准化),便于后续数据模型的建立。
针对任务二,需要从用户城市分布与用户登录情况进行数据可视化分析。分析用户
城市分布是为了得到该 APP 的用户核心分布区,故从城市位置分布与用户数量分布两
方面入手。首先将预处理好后的城市信息导入地图,发现用户城市分布较为广泛,城市
密度东密西疏,对城市位置进行聚类分析,得出城市集中分布的五大区域,随后对用户
数量分布进行分析,发现该 APP 用户大部分集中在成渝、华北-北京、珠三角以及长三
角,综合得出该四大区域为用户核心分布区。对于用户登录情况,本文从用户活跃度与
用户流失两方面进行分析,利用玫瑰图、面积图等得出该 APP 存在活跃用户数偏低,
营销转化不足等问题。
针对任务三,需要以用户是否会购买下单为目标建立数据模型。购买预测问题本质
上是二分类问题,因此本文将下单用户标记为 1,未下单标记为 0。从中随机选取 75%
的数据作为训练集,并对剩余数据进行预测与结果比对。在预测模型的选择上,本文分
别比较了随机森林分类、逻辑回归与决策树分类三种模型的预测结果,从中选取了准确
率最高的随机森林分类作为最终模型,计算特征权重,进行预测实验。最后根据混淆矩
阵表明,该模型训练良好,且准确率达到 98.3%。
针对任务四,需要从用户消费行为与用户价值两个方面进行分析,并对企业给出建
议。本文首先将用户消费行为分为访问、关注领券和开课购买三个部分,并分别统计出
行为量。随后将这三个行为放到空间、年龄和设备这个三个维度下,分析其中的关系,
得出四大核心区用户挖掘度不够,产品对 9.2969 设备用户购买决策影响甚微等结论。接
着本文将用户行为转化绘制成漏斗图,进一步探究行为间转化关系。针对用户价值,本
文采用调整后的 RFM 模型对用户进行价值分类,得到重要价值用户仅占到用户总体的
4.55% ,最后结合用户不同的价值类型,从 4P 角度为该企业提出了针对性建议。
本文借助了高德地图与 MPai 数据科学平台进行数据分析与建模,提高了结果正确
性与模型准确性。
关键词:购买预测;随机森林分类;消费者行为;RFM 模型