目录
问题重述 .................................................................................................................................... 1
一、数据预处理 ........................................................................................................................ 1
1.1 用户 id 统一 .................................................................................................................... 1
1.2 城市数据处理 ................................................................................................................. 2
1.3 日期调整 ......................................................................................................................... 3
1.4 数据精修 ......................................................................................................................... 3
1.5 基于 GINI 决策树 ID3 算法的特征增益计算 ............................................................... 3
1.5.1 计算信息增益 ........................................................................................................... 3
1.5.2 建立决策树 ............................................................................................................... 4
二、城市与登录情况的数据分析 ............................................................................................ 4
2.1 城市分布情况 ................................................................................................................. 4
2.2 用户登录情况 ................................................................................................................. 6
三、用户购买概率的评判模型建立 ...................................................................................... 11
3.1 模型概述 ........................................................................................................................ 11
3.2 模型算法的选择理由 ................................................................................................... 11
3.3 前期准备 ....................................................................................................................... 12
3.3.1 特征选取 ................................................................................................................. 12
3.3.2 数据集构成 ............................................................................................................. 12
3.4 模型的建立 ................................................................................................................... 12
3.5 预测结果 ....................................................................................................................... 13
四、用户行为分析与建议 ...................................................................................................... 14
4.1 用户登录情况 ............................................................................................................... 14
4.2 用户访问情况 ............................................................................................................... 15
4.3 用户信息情况 ............................................................................................................... 16
4.4 结论 ............................................................................................................................... 16
五、模型总结与评价 .............................................................................................................. 17
5.1 模型的优势 ................................................................................................................... 17
5.2 模型的改进 ................................................................................................................... 17
六、参考文献 .......................................................................................................................... 18
七、附录 .................................................................................................................................. 19