没有合适的资源?快使用搜索试试~ 我知道了~
Spark MLlib配套课件资源
需积分: 5 9 下载量 151 浏览量
2024-01-06
18:34:41
上传
评论
收藏 4.42MB PDF 举报
温馨提示
试读
129页
Spark MLlib配套课件资源,Spark MLlib的使用在第十章和第十一章
资源推荐
资源详情
资源评论
电商用户画像
⼀. ⽤户画像简介
1. 什么是⽤户画像#
⽤户画像,英⽂:"User#Pro*ile""
("也有少数称:"User"Portrait"或User"Persona)"
⼀句话概念:将⽤户信息标签化##
通过收集⽤户的社会属性、消费习惯、偏好特征等各个维度的数据,进⽽对⽤户或者产
品特征属性进⾏刻画,并对这些特征进⾏分析、统计,挖掘潜在价值信息,从⽽抽象出⽤户
的信息全貌。
/1 129
2. 定位与应⽤#
1.2.1 定位:
相对
于数据仓
库⽽⾔,
⽤户画像
属于“ 上
层建
筑 ” ,以
数据仓库
沉淀的数
据为基
础,提炼出更有价值的信息。
同时⽤户画像也是⼀种数据服务,在它之上还有“更⾼的建筑”,⽐如推荐系统,营销系统、⻛控系
统、⽤于⼴告投放的DMP系统等等。这些系统往往需要对⽤户进⾏识别定位,那么⽤户画像就是最重要
的数据来源。
1.2.2 应⽤:
画像数据的主要应⽤类型:
■
运营决策
了解⽤户群体,聚焦⽬标⽤户,定位产品⽅向。
■
精准营销
营销活动推送、⼴告投放、个性化推荐。
■
⽤户分群
寻找⾼价值⽤户,挽留待流失⽤户,提升⽤户活跃。
/2 129
1.3#⽤户标签#
1.3.1 标签分级
1.3.2 标签分类
➢
统计类标签
直接提取的标签,⼜叫事实标签。
⽐如:性别,年龄,最近⼀次登录时间,⽉均消费。
有⾮常通⽤且明确的定义,是最为常⻅的标签。
➢
规则类标签
需要⾃定义规则。
⽐如:⾼价值⽤户、意⻅领袖、电⼦产品爱好者、⻩⽜党。
需要运营、产品、业务⼈员,根据企业⾃身的业务特征,设计适合⾃身的规则定义。往往同⼀个名
称的标签,在不同企业的规则不同。
➢
挖掘类标签
⼀般通过机器学习算法进⾏预测的标签。⼜叫预测类标签。
⽐如:预测性别、预测年龄、潜在流失⽤户。
/3 129
通常是很难根据某⼀个规则得到的标签。需要机器学习通过系统现有的数据,反复迭代获得⼀个模
型算法,再根据算法得到标签。
开发周期⻓,难度⼤,准确度不能保证。但是往往也是最有价值的标签,因为从数据得到的数据,
有时往往⽐定死的规则更反映真实情况。
第⼆章 ⽤户画像的架构
2.1##⽤户画像管理平台:#
提供可视化⻚⾯,对标签及标签产⽣的规则进⾏定义,甚⾄直接提供可视化开发⻚⾯。
提供后台调度系统,根据标签定义的规则,从数仓中抽取计算。
计算后的⽤户画像标签也由平台管理,通过标签的组合,把⽤户分成不同的群体。为其他业务系统
提供⽀持。
技术实现:
⽤户画像系统本质上是⼀个内部的管理系统,⽅便⽤户画像开发团队,搭建标签管理任务的。
基于标准的Web应⽤的技术。
Vue.js负责前端⻚⾯。
Springboot 负责后台应⽤,数据保存在Mysql数据库中,相关的技术框架还包括Myba/sPlus、
StringTask。
因为还需要把spark程序任务提交到Yarn,所以还⽤到SparkLauncher插件。
2.2###画像处理流程#
画像处理流程主要是根据标签及整个流程的规则计算标签,把数据仓库中的数据进⾏重组。
⼀般统计类和规则类标签使⽤spark-sql即可,复杂的规则类标签和挖掘类标签可以使⽤spark-
core和spark-mllib完成。
/4 129
2.3##画像标签数据应⽤:⽤户分群#
提供了分群操作所以要操作⽀持即席查询的OLAP,对标签及⼈群进⾏操作。
根据实际需要⼀般选择性能较好,⽀持即席查询的OLAP数据库。⽤于组合和多个条件来筛选⽤户,⽐
如Clickhouse或者Elas?csearch .同时也会使⽤K-V数据库⽤于精确查询⽤户和⼈群,⽐如Redis、
Hbase 、Pika。
2.4#系统演⽰#
2.5#项⽬教学模块#
1. 理解⽤户画像系统的设计思路,以及标签的设计流程与应⽤。
2. ⽤户画像管理平台的搭建及使⽤。
3. 掌握⽤户画像平台的数据库表,包括标签表、任务表、进度表等全部表含义。
4. 使⽤spark开发标签计算、重组、导出等操作,完成标签计算的业务处理流程。
5. 利⽤clickhouse实现对画像数据的存储及多个标签的组合筛选。
6. 学习⽤Springboot、Myba/s等框架,完成⽤户分群功能。
7. ⼊⻔机器学习,⽤sparkmllib中的算法完成挖掘类标签的开发。
第三章 搭建⽤户画像管理平台
#3.1#系统物料:#
1. 平台主程序代码包 ( 因为还需要调试开发, 直接在idea运⾏本地运⾏ )
Gitee仓库地址:https://gitee.com/windyzj/user_profile_manager_班号.git
2. spark远程提交服务Jar包,放在有spark环境的服务器。
3. 管理平台,Mysql建表脚本
/5 129
剩余128页未读,继续阅读
资源评论
lastinglate
- 粉丝: 68
- 资源: 26
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功