没有合适的资源?快使用搜索试试~ 我知道了~
【双11背后的技术】基于深度强化学习与自适应在线学习的搜索和推荐算法研究.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 11 浏览量
2022-11-04
09:59:53
上传
评论
收藏 1.15MB PDF 举报
温馨提示
试读
15页
。。。
资源推荐
资源详情
资源评论
【双 11 背后的技术】基于深度强化学习与自
适应在线学习的搜索和推荐算法研究
本文章来自于阿里云云栖社区
摘要: 作者:灵培、霹雳、哲予 1. 搜索算法研究与实践 1.1 背景淘宝的搜索引
擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点
以及对商品的偏好也具有丰富性和多样性。因此,要让搜索引擎对不同特点的用
户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问
题。传统
选自《不一样的技术创新——阿里巴巴 2016 双 11 背后的技术》,全书目录:
https://yq.aliyun.com/articles/68637
本文作者:灵培、霹雳、哲予
1. 搜索算法研究与实践
1.1 背景
淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,
其行为特点以及对商品的偏好也具有丰富性和多样性。因此,要让搜索引擎对不
同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具
挑战性的问题。传统的 Learning to Rank(LTR)方法主要是在商品维度进行学
习,根据商品的点击、成交数据构造学习样本,回归出排序权重。LTR 学习的
是当前线上已经展示出来商品排序的现象,对已出现的结果集合最好的排序效果,
受到了本身排序策略的影响,我们有大量的样本是不可见的,所以 LTR 模型从
某种意义上说是解释了过去现象,并不一定真正全局最优的。针对这个问题,有
两类的方法,其中一类尝试在离线训练中解决 online 和 offline 不一致的问题,
衍生出 Counterfactural Machine Learning 的领域。另外一类就是在线 trial-and-error
进行学习,如 Bandit Learning 和 Reinforcement Learning。
在之前我们尝试了用多臂老虎机模型(Multi-Armed Bandit,MAB)来根据用户
反馈学习排序策略,结合 exploration 与 exploitation,收到了较好的效果。
后来更进一步,在原来的基础上引入状态的概念,用马尔可夫决策过程对商品搜
索排序问题进行建模,并尝试用深度强化学习的方法来对搜索引擎的排序策略进
行实时调控。
实际上,如果把搜索引擎看作智能体(Agent)、把用户看做环境(Environment),
则商品的搜索问题可以被视为典型的顺序决策问题。Agent 每一次排序策略的选
择可以看成一次试错(Trial-and-Error),把用户的反馈,点击成交等作为从环
境获得的奖赏。在这种反复不断地试错过程中,Agent 将逐步学习到最优的排序
策略,最大化累计奖赏。而这种在与环境交互的过程中进行试错的学习,正是强
化学习(Reinforcement Learning,RL)的根本思想。
本文接下来的内容将对具体的方案进行详细介绍。
1.2 问题建模
马尔可夫决策过程(Markov Decision Process,MDP)是强化学习的最基本理论
模型。一般地,MDP 可以由一个四元组<S, A, R, T>表示:(1)S 为状态空间(State
Space);(2)A 为动作空间(Action Space);(3)
函数;(4)
为奖赏
为环境状态转移函数(State Transition Function)。
我们的最终目标是用强化学习进行商品搜索排序策略的学习,在实现的过程中,
我们一步一步完成了从简单问题到复杂问题的过渡,包括:
1. 基于值表(Tabular)强化学习方法的商品价格档 T 变换控制(离散状态、离散
动作问题);
2. 基于值表(Tabular)强化学习方法的商品展示比例控制(离散状态、离散动作
问题);
3. 基于强化学习值函数估计(Value Function Approximation)的商品排序策略调控
(连续状态、离散动作问题);
4. 基于强化学习策略估计(Policy Approximation)的商品排序策略调控(连续状态、
连续动作问题)。
1.2.1 状态定义
假设用户在搜索的过程中倾向于点击他感兴趣的商品,并且较少点击他不感兴趣
的商品。基于这个假设,我们将用户的历史点击行为作为抽取状态特征的数据来
源。具体地,在每一个 PV 请求发生时,我们把用户在最近一段时间内点击的商
品的特征作为当前 Agent 感知到的状态。当然,在不同的问题中,状态的表示方
法会有所不同。例如,在值表强化学习方法中,状态为可枚举的离散变量;在值
函数估计和策略估计方法中,状态则表示为特征向量。
剩余14页未读,继续阅读
资源评论
xxpr_ybgg
- 粉丝: 6441
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 农村信用社联合社计算机信息系统投产与变更管理办.docx
- 农村信用社联合社计算机信息系统数据管理办法.docx
- 利用SPSS作临床效度分析线上计算网站介绍-医学研究部统计谘.(医学PPT课件).ppt
- 利用Zabbix监控mysqldump定时备份数据库状态.docx
- 利用计算机解决问题的基本过程.doc
- 化工铁路通信工程总结.doc
- 北京大学网络教育软件工程作业.docx
- 医药公司(连锁店)计算机操作规程未新系统的自行按照旧制修改-新系统过制的编号加修模版.doc
- 医药公司(连锁店)计算机系统操作规程模版.doc
- 医药连锁门店计算机系统的操作和管理程序未新系统的自行按照旧制修改-新系统过制的编号加修模版.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功