没有合适的资源?快使用搜索试试~ 我知道了~
机器学习技术在达观数据的实现
需积分: 10 13 下载量 71 浏览量
2015-12-22
00:56:01
上传
评论 1
收藏 8.01MB DOCX 举报
温馨提示
试读
12页
大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈交易监测等等。达观数据技术团队长期以来一直致力于钻研和积累各种大数据技术,曾获得cikm2014数据挖掘竞赛冠军,也开发过智能文本内容审核系统、作弊监测系统、用户建模系统等多个基于大数据技术的应用系统。
资源推荐
资源详情
资源评论
机器学习技术在达观数据的实践
大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,
直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流
失用户预测、支付平台的欺诈交易监测等等。达观数据技术团队长期以来一直
致力于钻研和积累各种大数据技术,曾获得 cikm2014 数据挖掘竞赛冠军,也
开发过智能文本内容审核系统、作弊监测系统、用户建模系统等多个基于大数
据技术的应用系统。机器学习是大数据挖掘的一大基础,本文以机器学习为切
入点,将达观在大数据技术实践时的一些经验与大家分享(达观数据联合创始
人 纪传俊)
CIKM 数据挖掘竞赛获得冠军后领奖
机器学习——海量数据挖掘解决方案
互联网的海量数据不可能靠人工一个个处理,只能依靠计算机批量处理。
最初的做法是人为设定好一些规则,由机器来执行。比如明确指定计算机给男
性、30 岁的用户推送汽车广告。很明显如此粗略的规则不会有好效果,因为对
人群的定位不够精确。要提高精度必须增加对用户的特征描述。但特征一多规
则就很难制定,即使定下了规则也没法根据实际情况灵活变化。机器学习可以
很好的解决以上问题,从一定程度上赋予了计算机以“学习”的能力,使得千人
千面成为可能。
图 1 面对大量的特征,人工难以确定使用的规则
有监督机器学习技术
机器学习以统计学为理论基础,利用算法让机器具有类似人类一般的自动
“学习”能力,即对已知的训练数据做统计分析从而获得规律,再运用规律对未
知数据做预测分析。机器学习主要包含四大类别:有监督学习,无监督学习,
半监督学习和增强学习。
有监督学习,顾名思义,是在“人类监督”下学习,要求训练数据既有特征也
有目标,目标是人为设定好的。以文本分类为例,一篇文章的字、词、句、段
是其特征(文本的内容是什么),文章的类别(时事、科技、娱乐等等)就是
目标。训练集文章的类别是人为设定的,相当于明确告诉机器什么样的内容该
属于什么类别,机器在此基础上总结规律。无监督学习就是数据只有特征没有
目标,最常见的算法是聚类。聚类算法会把相似的样本聚集成一个子集,优点
是数据无需人工标注,但缺点也很明显——无法给出子集的实际含义。半监督
学习介于有监督学习和无监督学习之间,其训练集数据有一小部分是人工标注
过的。增强学习强调基于环境而行动,在探索未知领域和遵从现有只是之间寻
求平衡。
有监督学习的研究起步较早,方法比较成熟。在大多数应用场景中,我们
希望机器输出的结果具有实际含义,比如文本分类就是让机器告诉我们一篇文
章是时事还是科技类文章。这样的场景下有监督学习也更为适用。有监督学习
主要包含回归分析和统计分类两大类算法。
回归分析——预估点击率的利器:
回归分析建模的是自变量和因变量之间的相关关系(如图 2 所示),在机
器学习领域,自变量是样本的特征向量,因变量是预测值。回归分析最经典的
应用场景是广告点击率(CTR)预估。简单而言,CTR 预估是根据用户数据和
广告数据,估计用户点击某个广告的可能性大小。我们假设用户数据+广告数据
和广告点击率之间的关系符合某个分布,使用回归分析方法在已有点击数据上
拟合出该分布。达观科技在线上预测时就把用户数据和广告数据作为输出传给
拟合出的分布,得到用户点击该广告的概率值。
剩余11页未读,继续阅读
资源评论
AI界小学生
- 粉丝: 122
- 资源: 7
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功