队伍编号
MCB2103075
赛道
A
二手车估价问题探讨
摘要
随着我国的机动车数量不断增长,人均保有量业随之增加,机动车以“二手
车”的形式在流通环节,包括二手车收车、二手车拍卖、二手车零售、二手车置
换等环节的流通需求越累越大。本文基于特征处理对影响二手车销量的数据进行
分析,并通过皮尔逊系数法计算各种特征对二手车销售周期的影响因素的关键影
响。
对于问题一,首先对数据进行处理,对数据中存在的缺失值、异常值进行处
理,然后进行特征构造并处理匿名特征,对部分数值型数据进行分桶,最后采用
皮尔逊相关系数对特征进行选择处理,之后进行数据标准化、并训练模型,采用
集成学习预测二手车的零售交易价格。同时根据问题一中提供的模型评测标准进
行构建评估函数,并进行预测与评估结果。
对于问题二,主要任务是对车辆成交周期的分析,需要挖掘影响车辆车轿周
期的关键因素,并进一步说明采取什么有效手段,可以加快门店在库车辆的销售
速度。针对此问题,本次研究首先对附件四所给数据进行分析与研究,之后结合
附件一车辆相关信息对车辆的销售周期进行进一步的分析,在之后,考虑到问题
的针对性,采用皮尔逊相关系数对销售周期的影响因素进行更进一步的分析。
对于问题三,我们进行了文献的搜集整理,并根据给出的样本数据,进行分
析,分析二手车的销量,价格以及销售周期等因素去提升二手车的流通销售分析,
便于二手车的零售市场。
关键词:特征处理,皮尔逊系数法,集成学习
目录
一、 问题重述
..................................................................................................
1
1.1 问题的背景
............................................................................................
1
1.2 问题的提出
............................................................................................
1
二、 问题分析
..................................................................................................
2
2.1 问题一的分析
........................................................................................
2
2.2 问题二的分析
........................................................................................
2
2.3 问题三的分析
........................................................................................
2
三、 模型假设
..................................................................................................
3
四、 符号说明
..................................................................................................
3
五、基于问题一的研究分析
...............................................................................
3
5.1 数据处理
................................................................................................
3
5.2 模型架构
.............................................................................................
11
六、基于问题二的研究分析
.............................................................................
15
6.1 影响因素初步探索
..............................................................................
15
6.1.1
数据处理
.......................................................................................................
15
6.1.2
价格变更次数对成交周期的影响分析
.......................................................
17
6.1.3
上架价格对成交周期的影响分析
...............................................................
18
6.2 结合附件一的数据分析
.....................................................................
19
6.2.1
数据分析
.......................................................................................................
19
6.2.2 分析车辆相关信息对销售周期天数的影响
................................................
20
6.2.3 对销售周期进行分区间进行统计整理
.......................................................
23
6.3 影响因素进一步挖掘
.........................................................................
25
6.3.1
方法与思路说明
...........................................................................................
25
6.3.2 基于皮尔逊相关系数的模型架构
................................................................
25
6.4 采用关键因素加快在库车辆的销售速度
.........................................
28
6.4.1 基于价格因素加快在库车辆销售速度
........................................................
28
七、 问题三的探究
........................................................................................
29
7.1 淡旺季之于二手车买卖的影响探讨
...................................................
29
7.2 处置积压库存车辆策略分析
...............................................................
30
7.3 价格差带来的利润问题
......................................................................
30
八、模型检验
.....................................................................................................
30
8.1 问题一模型
..........................................................................................
30
8.2 问题二模型
..........................................................................................
31
九、模型评价
.....................................................................................................
31
9.1 问题一模型的优点和缺点
..................................................................
31
9.2 问题二模型分析
.................................................................................
32
参考文献
.............................................................................................................
32
附录
.....................................................................................................................
33
附录 1:问题一代码
..................................................................................
33
附录 2:问题二代码
..................................................................................
45
1
一、问题重述
1.1
问题的背景
随着我国的机动车数量不断增长,人均保有量也随之增加,机动车以“二手
车”形式在流通环节,包括二手车收车、二手车拍卖、二手车零售、二手车置换
等环节的流通需求越来越大。二手车作为一种特殊的“电商商品”,因为其“一
车一况”的特性比一般电商商品的交易要复杂得多,究其原因是二手车价格难于
准确估计和设定,不但受到车本身基础配置,如品牌、车系、动力等的影响,还
受到车况如行驶里程、车身受损和维修情况等的影响,甚至新车价格的变化也会
对二手车价格
[1]
带来作用。目前国家并没有出台一个评判二手车资产价值的标准。
一些二手车交易平台和二手车第三方估价平台都从自身的角度建立了一系列估
价方法用于评估二手车资产的价值。
在一个典型的二手车零售场景,二手车一般通过互联网等线上渠道获取用户
线索,线下实体门店对外展销和售卖,俗称 O2O 门店模式。门店通过“买手”
从个人或其他渠道收购二手车,然后由门店定价师定价销售,二手车商品和其他
商品一样,如果定价太高滞销也会打折促销,甚至直接以较低的价格打包批发,
直至商品最终卖出
[2]
。
面对二手车市场的供求要求
[3]
,对二手车数据进行深入的分析,分析相关数
据判断二手车的销量,并进行数据分析与建模分析车辆交易周期的影响因素等,
解决二手车交易平台在交易中遇到的问题。
1.2
问题的提出
基于针对初赛问题所做的分析与处理,再根据附件所给的数据,通过建立特
征处理与数学建模帮助二手车交易平台进行更好的交易:
问题一:基于问题相关数据,构建预测二手车交易价格的训练模型和测试模
型,并对附件 2 中的“估价验证数据”进行预测。
问题二:对车辆的成交周期进行分析,挖掘车辆成交周期的关键因素。并分
析如果需要加快门店在库车辆的销售速度,可以结合这些关键因素采取哪些手段,
并进一步说明这些手段的使用条件和预期效果。
问题三:分析二手车交易过程中,有哪些问题值得研究,可以帮助二手车交
易平台进行更好的交易。
2
二、问题分析
2.1 问题一的分析
问题一是根据以往的数据预测二手车的价格,属于有监督学习里的回归问题,
首先查看 36 列变量信息字段的描述,对于时间类型的数据读入数据时转换成时
间 类 型 格 式 , 然 后 查 看 数 据 的 缺 失 情 况 , 对 缺 失 严 重 的 特 征 如
anonymousFeature7 和 anonymousFeature15 的缺失值以达到 50%以上,对这类
特 征 进 行 删 除 , 并 对 缺 失 值 不 大 的 特 征 进 行 填 充 如 'carCode', 'modelyear',
'gearbox',由于它们都是分类特征采用众数进行填充,对时间基础周期特征(年月
日特征拆解),同时构建时间差特征如:'tradeTime'-'registerDate' (汽车的使用时
间),对定类数据进行 Frequency 编码,对部分数值型变量进行数据分桶,根据
部 分 特 征 明 显 的 匿 名 变 量 构 造 新 特 征 , 比 如 anonymousFeature12
(4220*1740*1625)很有可能就是汽车的体积,因此可以构造长宽高三个新的
特征,接下来就可以进行特征的选择了,可以使用基于皮尔逊相关系数进行特征
选择,然后进行降维可以选择 PCA 主成分分析,然后选择集成学习随机森林训
练测试集,最后可以使用 XGboost 优化一下模型。
2.2 问题二的分析
问题二需要结合附件 4“门店交易训练数据”对车辆的成交周期进行分析,
挖掘影响车辆成交周期的关键因素。关键因素即一定程度上起决定性作用的影响
因素,本报告欲先根据附件 4 对数据进行初步分析,即初步判断哪些因素可能成
为关键因素,附件 4 中的价格因素很明显将会成为影响成交周期的关键因素之一,
故而在本报告中对于问题二的初步分析的重点就是价格因素,在价格数据记录上
做文章进行分析。出于更加全面地考虑,价格差、成交时间、价格变更次数等也
将成为初步分析的重点内容。鉴于附件 4 的数据特征过少,不足以说明问题,故
将附件 4 同附件 1 进行信息整合,得到较为全面的特征集合,通过进一步挖掘,
筛选得出关键因素。为了使得本报告中对于成交周期的影响因素挖掘具有充分说
明性,进一步构建模型,即通过特征选择、皮尔逊相关系数计算分析、构建模型,
根据现有数据特征对成交周期进行预测,在预测的过程中,不断变更输入的特征
子集,观察得分变化。变化较大,即影响较大,从而得出影响成交周期
[4]
的关键
因素。
2.3
问题三的分析
问题三需要依据给出的样本数据集,给出值得研究的问题,即进行问题拓展,
并在问题拓展分析之后给出思路。针对现有数据集,查阅、搜集、整理有关二手