口红销量预测
周 伟
(北京邮电大学数字媒体与设计艺术学院, 数字媒体技术,2017110949)
摘要:从网站爬取口红销售数据,分析影响销售数据的重要因素以及根据销售因素建模预
测其销售量。本文先将数据进行预处理得到实验数据,然后着重分析朴素贝叶斯判别分析
算法、AdaBoost 算法以及随机森林算法在口红销量预测中的效果,并在随机森林算法中进
行模型优化。通过实验结果表明总评价数、价格和描述分这三个因素对销售量的影响较大,
对三个算法对比分析得出随机森林算法预测错误率最低,有较好的预测效果。
关键词: 口红销量;朴素贝叶斯;AdaBoost;随机森林
1 问题描述
美容界曾有过一个著名的调查:“假如你只能拥有一个化妆品,你想要的是什么产品?”
95%以上的亚洲女性都选择了口红。口红是女性必备的美容化妆品之一,包括唇膏、唇棒、
唇彩、唇釉等,能让唇部红润有光泽,达到滋润、保护嘴唇,增加面部美感及修正嘴唇轮廓
的作用。口红的基本成分离不开凡士林和蜡质,不过现在也有不含蜡质的新配方,而维生素
A,E 等抗氧化成分,以及 SPF 防晒功能,都是时下热门唇膏的卖点。
为了让商家生产出更符合消费者的口红,提高其销售量,同时为了消费者能够买到更理
想的口红,本文在京东网站上爬取 1600 多条销售数据。在这诸多影响口红销量的影响因素
中,分析哪些因素对口红销量至关重要,根据这些因素预测商家的销售量。
2 数据描述
2.1 数据来源
从京东网站爬取口红销量数据 1695 条,如图 1 所示,一共还有 18 个字段。
图 1 京东网站口红销量片段
2.2 数据预处理
2.2.1 数据清洗
通过对图 1 分析发现有如下一些特点:
① 价格有“¥”,需要处理,字段存在缺失值;
② 字段“适合肤质”、“保质期”、“规格类型”和“适合人群”差异性不大,可以
删去;
③ 销量的差异性大,为连续值,可划分等级处理;
本文对价格的做法是去掉“¥”,对于带有“~”的价格取均值,如图 2 所示。
评论0