没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
队伍编号 dsa2101008
题号 B
基于 PU-bagging 与 Gini 决策树的用户行为预测与价值判别
摘 要
如今互联网不断发展,但是对于各领域公司来说,如何识别高质量的用户和渠道,
从而进一步优化各自的营销方案一直是一个难点。本文以一家公司的用户行为数据为例,
通过数据统计分析的手段对用户购买结果与行为价值进行判别
针对任务一,本文对给定的用户信息表(user_info.csv )、用户登录情况表
(login_day.csv)、用户访问统计表(visit_info.csv)的数据进行了预处理,通过采取用户
id 统一、城市及日期数据的特殊处理、部分数据精修和 GINI 决策树 ID3 算法的方法提
高了数据质量,使处理后的数据可以更好地被统计并与后续算法匹配。
针对任务二,首先对城市数据进行统计,得到各城市的用户数量情况,对数据进行
饼图与柱状图结合的可视化呈现方式,并进一步绘制地理分布图体现用户的空间分布情
况;其次,本文将用户登录情况的特征指标分为 A、B、C 三类,分别进行统计学分析、
数据统计,并以表格、饼图、柱状图的多重呈现方式表现,最后对每一类数据情况代表
的含义进行了分析。
针对任务三,本文将用户下单表(result.csv)作为正样本,剩余的其他用户作为未
标记样本,构建基于正样本、未标记样本的 Bagging 集成 PU-Learning 模型,将经过任
务一处理的数据作为特征指标进行半监督学习,对未标记样本用户为正样本的概率进行
了运算,得到用户购买课程概率的预测结果。
针对任务四,本文结合用户信息、用户访问、用户登录情况的统计,针对任务三中
预测购买概率在 80%以上的群体进行了用户行为特征的对比与总结,并在这三个方面分
别给出分析结果。基于分析结果,我们给公司的营销政策提供了一些建议。
最后,我们对模型进行了总结与评价,分析了模型的优势以及能够进一步提升与改
进的地方,并对模型未来的优化方案提出了一些设想。
关键词:GINI 决策树 ID3 算法;可视化呈现;Bagging;PU-Learning
目录
问题重述 .................................................................................................................................... 1
一、数据预处理 ........................................................................................................................ 1
1.1 用户 id 统一 .................................................................................................................... 1
1.2 城市数据处理 ................................................................................................................. 2
1.3 日期调整 ......................................................................................................................... 3
1.4 数据精修 ......................................................................................................................... 3
1.5 基于 GINI 决策树 ID3 算法的特征增益计算 ............................................................... 3
1.5.1 计算信息增益 ........................................................................................................... 3
1.5.2 建立决策树 ............................................................................................................... 4
二、城市与登录情况的数据分析 ............................................................................................ 4
2.1 城市分布情况 ................................................................................................................. 4
2.2 用户登录情况 ................................................................................................................. 6
三、用户购买概率的评判模型建立 ...................................................................................... 11
3.1 模型概述 ........................................................................................................................ 11
3.2 模型算法的选择理由 ................................................................................................... 11
3.3 前期准备 ....................................................................................................................... 12
3.3.1 特征选取 ................................................................................................................. 12
3.3.2 数据集构成 ............................................................................................................. 12
3.4 模型的建立 ................................................................................................................... 12
3.5 预测结果 ....................................................................................................................... 13
四、用户行为分析与建议 ...................................................................................................... 14
4.1 用户登录情况 ............................................................................................................... 14
4.2 用户访问情况 ............................................................................................................... 15
4.3 用户信息情况 ............................................................................................................... 16
4.4 结论 ............................................................................................................................... 16
五、模型总结与评价 .............................................................................................................. 17
5.1 模型的优势 ................................................................................................................... 17
5.2 模型的改进 ................................................................................................................... 17
六、参考文献 .......................................................................................................................... 18
七、附录 .................................................................................................................................. 19
第 1 页 共 22 页
问题重述
基于互联网技术的电子商务平台发展,改变了人们的传统消费方式
[1]
,网络用户数
量的增加推动了电商经济的繁荣。在此情况下,企业之间的竞争逐渐由线下转为线上,
竞争方式也发生了明显变化。
互联网的软硬件基础实施的全面建成与使用,为消费者数据的全面和快速收集奠定
了良好的基础.这些海量的用户负荷数据隐藏着丰富的用户信息,如何利用数据挖掘技
术对这些数据进行分析研究,挖掘不同类别用户的消费习惯和行为特征,有助于公司实
现客户的精准分类、制定定向性的营销内容推送达到高用户转化率的目的。
网络采集到的数据表格往往是记录了全部数据的,但是其中往往包含了大量无效数
据,所以需要通过清洗数据,提高数据质量方便后面编程;得到筛选过后的数据后,构
建准确的模型判断用户最终是否会下单购买或下单购买的概率;同时,为了更形象的了
解用户的特征,我们需要对用户的各城市分布情况、登录情况进行分析,并分别将结果
进行多种形式的可视化展现;最后挖掘出数据隐藏的用户消费行为价值,给企业提出合
理的建议。
图 1 分析流程
一、数据预处理
附件给出的数据是面向用户的数据的集合,这些数据从多个业务系统中抽取而来而
且包含历史数据,这样就不可避免的存在无效值和缺失值等,本文对数据进行了一定的
处理,既保留了数据集中的可用信息,又使处理后的数据更加规范,且能够更好地匹配
任务三中模型的算法要求。
1.1 用户 id 统一
首先,观察“user_info.csv” 、“login_day.csv”、“visit_info.csv” 三个文件的数据,
“user_info.csv”文件中的用户 id 数量与另外两份用户特征情况文件中的用户 id 数量并不
相同(“user_info.csv”中为 135968 位,而另两个信息表为 135617 位),因此,本文将三
张表的用户 id 分别进行对照,取交集如图 1 所示,黑色部分为交集,从而完成将用户 id
信息统一的操作,使得每一个用户 id 都能在三张信息表中分别找到对应的特征值信息。
第 2 页 共 22 页
图 2 三个表格的用户 id 交集示意图
1.2 城市数据处理
对于“user_info.csv”文件中的用户所属城市数据进行观察,可以发现存在数据缺失现
象。在未进行用户 id 统一的 “user_info.csv”文件中,有 28209 位用户缺失城市的信息。
由于数据缺失会影响算法的运行,故需要对该项数据进行一定的处理。
针对城市的数据处理,本文给出三种方案:
○1 数据填充
○2 数据删除
○3 特征值拆分重塑
方案分析:
对于方案 ○1 ,常用的数据填充手段有相关性填充、回归方程填充及作 0 值处理等。
而由于城市属于非数值型数据,无法使用回归方程填充的方法。该文件背景下,缺失城
市数据的用户过多,如果作 0 值处理,将会极大地影响算法的偏向,最终会得到偏差较
大的结果,因此也不适合使用。同样,由于有近 3 万名用户的城市数据缺失,在进行相
关性分析时无法规避这样的方法存在的极大偶然性,以此手段进行填充的数据太多时会
影响到整体的判断,使得用户所在城市这一项特征数据的分析带来较大的误差,且将城
市信息量化为数值也存在困难。
经过如上分析,本文认为数据填充的方案会很大程度上干扰算法的判断,故不考虑。
对于方案 ○2 ,在缺失城市的用户数量较少(低于 5%)的情况下,且数据前后不涉
及到时间序列或前后单元格关联较强的情形,可以对缺失城市数据的用户样本进行删除
操作;在缺失城市的用户数量较多(高于 5%)的情况下,可以对于“城市”这一项变量的
数据进行删除。针对本题的背景,显然近 3 万位用户的数量是较多的,如果选择方案 b,
应该删除“城市”这一特征数据。但是考虑到这样的做法会造成大量数据的浪费,会对结
果的影响有较大的偏差,且数据处理的出发点也不应该是造成大量的数据浪费,因此不
考虑方案 ○2 。
本文选择方案 ○3 作为对城市数据的处理方法。将城市这一项特征指标拆分重塑,把
每一座城市都分别作为一个特征指标,如图 2 所示,用户在该城市则指标的属性值为“1”,
否则为“0”。对于缺失城市数据的用户,其所有城市指标的属性值均为“0”。这样的操作
可以排除方案 a 造成人为增大相关性的干扰结果,也避免了方案 ○2 删除城市这一项重
要数据的情况,使得城市数据以一种更为合理的方式加入算法考虑。
剩余23页未读,继续阅读
资源评论
阿拉伯梳子
- 粉丝: 2527
- 资源: 5734
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 面向初学者的 Java 教程(包含 500 个代码示例).zip
- 阿里云OSS Java版SDK.zip
- 阿里云api网关请求签名示例(java实现).zip
- 通过示例学习 Android 的 RxJava.zip
- 通过多线程编程在 Java 中发现并发模式和特性 线程、锁、原子等等 .zip
- 通过在终端中进行探索来学习 JavaScript .zip
- 通过不仅针对初学者而且针对 JavaScript 爱好者(无论他们的专业水平如何)设计的编码挑战,自然而自信地拥抱 JavaScript .zip
- 适用于 Kotlin 和 Java 的现代 JSON 库 .zip
- yolo5实战-yolo资源
- english-chinese-dictionary-数据结构课程设计
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功