img
share 分享

企业IT架构转型之道——阿里巴巴中台战略思想与架构实战

作者:钟华

出版社:机械工业出版社

ISBN:9787111564805

VIP会员免费 (仅需0.8元/天) ¥ 40.0

温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!

电子书推荐

更多资源 展开

阿里强化学习 评分:

第一章 基于强化学习的实时搜索排序策略调控 1 1.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.1 强化学习简介 . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.2 状态定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.3 奖赏函数设定 . . . . . . . . . . . . . . . . . . . . . . . . . 6 算法设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3.1 策略函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3.2 策略梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3.3 值函数的学习 . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4 奖赏塑形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.5 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.6 DDPG 与梯度融合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.7 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.3 第二章 延迟奖赏在搜索排序场景中的作用分析 18 2.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2 搜索排序问题回顾 . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3 数据统计分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.4 搜索排序问题形式化 . . . . . . . . . . . . . . . . . . . . . . . . . 24目 . II . 2.5 2.6 录 理论分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.5.1 马尔可夫性质 . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.5.2 折扣率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 实验分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 第三章 基于多智能体强化学习的多场景联合优化 34 3.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.2.1 相关背景简介 . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.2.2 建模方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3.1 搜索与电商平台 . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3.2 多排序场景协同优化 . . . . . . . . . . . . . . . . . . . . . 45 实验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.4.1 实验设置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.4.2 对比基准 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.4.3 实验结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.4.4 在线示例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.3 3.4 3.5 第四章 强化学习在淘宝锦囊推荐系统中的应用 4.1 4.2 4.3 55 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.1.1 淘宝锦囊 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.1.2 锦囊的类型调控 . . . . . . . . . . . . . . . . . . . . . . . . 55 4.1.3 工作摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 系统框架及问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.2.1 系统框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.2.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 算法及模型设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60目 4.4 录 . III . 4.3.1 主体框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.3.2 分层采样池 . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.3.3 基准约减 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.3.4 算法流程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 实验与总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 第五章 基于强化学习的引擎性能优化 65 5.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.2.1 状态定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.2.2 动作空间设计 . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.2.3 状态转移函数 . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.2.4 奖赏函数的设计 . . . . . . . . . . . . . . . . . . . . . . . . 70 算法设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 5.3.1 Loss Function . . . . . . . . . . . . . . . . . . . . . . . . . . 71 5.3.2 Actor-crtitic 方法 . . . . . . . . . . . . . . . . . . . . . . . . 72 5.4 理论分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.5 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.6 总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 5.3 第六章 基于强化学习分层流量调控 75 6.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 6.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6.2.1 Dynamic Action Boundary by CEM . . . . . . . . . . . . . . 78 6.3 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 6.4 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 第七章 风险商品流量调控 7.1 81 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 为什么进行风险商品流量调控 . . . . . . . . . . . . . . . . 81 7.1.1目 . IV . 录 为什么使用强化学习调控 . . . . . . . . . . . . . . . . . . 82 基于强化学习的问题建模 . . . . . . . . . . . . . . . . . . . . . . . 82 7.2.1 状态空间的定义 . . . . . . . . . . . . . . . . . . . . . . . . 82 7.2.2 动作空间的定义 . . . . . . . . . . . . . . . . . . . . . . . . 84 7.2.3 奖赏函数的定义 . . . . . . . . . . . . . . . . . . . . . . . . 84 7.2.4 模型选择 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 7.2.5 奖赏函数 scale . . . . . . . . . . . . . . . . . . . . . . . . . 86 7.3 流量调控系统架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 7.4 线上效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 7.1.2 7.2 第八章 虚拟淘宝 89 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 8.1.1 强化学习面临的问题 . . . . . . . . . . . . . . . . . . . . . 89 8.1.2 虚拟淘宝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 8.2 学习用户行为:监督学习 . . . . . . . . . . . . . . . . . . . . . . . 89 8.3 学习用户意图:逆强化学习 . . . . . . . . . . . . . . . . . . . . . 90 8.3.1 逆强化学习概述 . . . . . . . . . . . . . . . . . . . . . . . . 91 8.3.2 学习用户意图 . . . . . . . . . . . . . . . . . . . . . . . . . 91 8.3.3 生成对抗式模仿学习 . . . . . . . . . . . . . . . . . . . . . 92 构建用户行为模拟器 . . . . . . . . . . . . . . . . . . . . . . . . . 92 8.4.1 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 8.4.2 算法设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 8.4.3 实验结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 8.1 8.4 第九章 组合优化视角下基于强化学习的精准定向广告 OCPC 业务优化 96 9.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 9.2 问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 9.2.1 奖赏 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 9.2.2 动作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97目 9.2.3 录 状态定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .V. 98 9.3 建模粒度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 9.4 模型选择 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 9.5 探索学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 9.6 业务实战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 9.7 9.6.1 系统设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 9.6.2 奖赏设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 9.6.3 实验效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 总结与展望 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 第十章 策略优化方法在搜索广告排序和竞价机制中的应用 111 10.1 业务背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 10.2 广告排序和竞价的数学模型和优化方法 . . . . . . . . . . . . . . . 112 10.3 面向广告商、用户和平台收益的排序公式设计 . . . . . . . . . . . 114 10.4 系统简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 10.4.1 离线仿真模块 . . . . . . . . . . . . . . . . . . . . . . . . . 115 10.4.2 离线强化学习进行排序策略模型初始化 . . . . . . . . . . 117 10.5 在线排序策略模型优化 . . . . . . . . . . . . . . . . . . . . . . . . 118 10.6 实验分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 10.7 总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 第十一章 TaskBot -阿里小蜜的任务型问答技术 124 11.1 背景和问题建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 11.2 模型设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 11.2.1 Intent Network . . . . . . . . . . . . . . . . . . . . . . . . . 125 11.2.2 Belief Tracker . . . . . . . . . . . . . . . . . . . . . . . . . 126 11.2.3 Policy Network . . . . . . . . . . . . . . . . . . . . . . . . . 127 11.2.4 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 11.3 业务实战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129. VI . 目 录 11.4 总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 第十二章 DRL 导购-阿里小蜜的多轮标签推荐技术 131 12.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 12.2 算法框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 12.3 深度强化学习模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 12.3.1 强化学习模块 . . . . . . . . . . . . . . . . . . . . . . . . . 136 12.3.2 最终模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 12.4 业务实战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 12.5 总结和展望 . .

...展开详情
上传时间:2018-07 大小:17.77MB
热门图书