没有合适的资源?快使用搜索试试~ 我知道了~
论文研究-基于机器学习的用户行为可预测性研究 .pdf
需积分: 0 8 下载量 32 浏览量
2019-08-24
10:53:27
上传
评论 1
收藏 330KB PDF 举报
温馨提示
试读
7页
基于机器学习的用户行为可预测性研究,徐帅,崔鸿雁,针对人类行为的可预测性问题,基于分布式爬虫抓取的二十万Github网站用户贡献行为轨迹数据,在利用XGBoost和随机森林两个机器学习方��
资源推荐
资源详情
资源评论
http://www.paper.edu.cn
- 1 -
中国科技论文在线
基于机器学习的用户行为可预测性研究
#
徐帅,崔鸿雁
**
(北京邮电大学信息与通信工程学院,北京 100876)
5
基金项目:国家自然基金(61201153);国家 973 项目基金(2012CB315805)
作者简介:徐帅(1993-),男,工学硕士在读,机器学习
通信联系人:崔鸿雁(1977-),女,副教授,主要研究方向:未来网络,大数据,云计算,可视化. E-mail:
yan555cui@163.com
摘要:针对人类行为的可预测性问题,基于分布式爬虫抓取的二十万 Github 网站用户贡献
行为轨迹数据,在利用 XGBoost 和随机森林两个机器学习方法进行二分类行为预测过程中,
使用 K 折交叉验证方法计算出用户贡献行为的可预测性,验证人类行为平均可预测性为 93%
的结论。此外,通过划分不同的预测时间点和历史窗口长度来研究不同条件下用户行为的可
预测性的平均情况,通过离散化用户的活跃度,借助用户活跃度的香农信息熵形式,研究用10
户活跃度和可预测性之间的关系。
关键词:可预测性;机器学习;活跃度;香农熵
中图分类号:TP301.4
A research of user behavior predictability based on machine 15
learning
XU Shuai, CUI Hongyan
(School of Information and Communication Engineering, Beijing University of Posts and
Telecommunications, Beijing 100876)
Abstract: To address the issue of researching the predictability of human behavior,this paper proves 20
the standpoint that the average predictability is 93 percent during a binary classification task via the
technique of K-Fold cross validation, XGBoost system and Random Forests model, using track data of
contribution actions of 200 thousand Github users crawled by a distributed web spider. In addition, this
paper researches the average predictabilities in various settings by setting up multiple time points and a
diversity of history windows. Moreover, this paper explores the relationship between user activity and
25
user predictability with the aid of discretization and Shannon Entropy.
Keywords: predictability; machine learning; activity; entropy
0 引言
随着互联网和物联网
[1]
的发展,人类能够存储、处理、挖掘的数据越来越多。这些数据30
大多以电子记录形式存储,很容易被加工处理。而随着计算机学科的发展,像 XGBoost
[2]
和随机森林
[3]
这些高性能的模型已经被发明出来。基于大数据
[4]
和机器学习
[5]
来研究人类行
为本身的规律,利用这些规律对人类行为作预测,将对人类社会的各方面产生重要的影响,
而这些规律本身也具有重大的研究意义。
沃尔玛通过对超市购物篮数据的分析发现“啤酒和尿布”的频繁关联,之后便有了35
Agrawal 和 Agrawal 发明的 Apriori 关联规则
[6]
算法。阿莱克斯·彭特兰通过基于可穿戴设备
数据的人类动力学研究
[7,8,9]
,发现了人类的“思维流动”,对智慧城市产生了巨大的作用。艾
伯特-拉斯洛·巴拉巴西通过对复杂网络的研究
[10,11,12]
,发现了人类行为的链接和爆发等现象,
他在《爆发》一书中提出人类行为有 93%是可以预测的
[13]
。
虽然知道了 93%这个指标,但是还存在两个问题:第一,93%这个数字是否对特殊行为40
适用;第二,要达到 93%的预测效果,究竟需要多大的历史数据。
资源评论
普通网友
- 粉丝: 484
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于yolov5识别算法实现的DNF自动脚本源码.zip
- 基于Python实现的自动化办公项目.zip
- 基于python实现的基于PyQt5和爬虫的小说阅读系统.zip
- 机械设计整经机上纱自动化sw20非常好的设计图纸100%好用.zip
- Screenshot_20240427_031602.jpg
- 网页PDF_2024年04月26日 23-46-14_QQ浏览器网页保存_QQ浏览器转格式(6).docx
- 直接插入排序,冒泡排序,直接选择排序.zip
- 在排序2的基础上,再次对快排进行优化,其次增加快排非递归,归并排序,归并排序非递归版.zip
- 实现了7种排序算法.三种复杂度排序.三种nlogn复杂度排序(堆排序,归并排序,快速排序)一种线性复杂度的排序.zip
- 冒泡排序 直接选择排序 直接插入排序 随机快速排序 归并排序 堆排序.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功