大数据机器学习的应用架构实战-何锐邦

所需积分/C币:10 2016-07-27 17:47:27 1.39MB PDF

腾讯无线安全产品部高级工程师何锐邦带来《大数据机器学习应用架构实战》的技术分享,在本次演讲中他主要是以大数据机器学习应用架构和机器学习实践中的经验分享这两大方面进行深度剖析。
为什么需要机器学习 互联网应用架构实战峰会 大数据+机器学习=智能决策 判断性别 身高、体重、头发长度、三围、腿毛、 Adaboost 啤酒与尿布 ·关联规 为什么需要机器学习 互联网应用架构实战峰会 基本原理 每种事物都具有很多特征 ·身高、体重、头发长度、三围、腿毛 特征的分布决定事物的类别 aoXoo t ax 01+ a,Xo2 t..t anx On 0 a0X10+a1X1+a2X12+…+anX1n=1 a0×20+a1×21+a2×22+∴+an×2n= 0×ko+a1Xk1+a2×k2+…,+ anxi=0 方程规模 n:可达亿万级 k:可达千万级 杋器学习目标:求解特征权重 人工猜权重vs计算机求解超大规模数学方程 为什么需要机器学习 互联网应用架构实战峰会 why机器学习 ·人工处理的数据量非常有限,不全面;机器可处理的数据 量远大于人工,因此考虑更加全面 ·人工总结的规律多数凭感觉,不精确,往往局部最优也达 不到;而机器学习算法从数学理论上保证至少能局部最优 机器学习的应用场景 搜索 个性化推荐 用户画像 安全 /人脸识别 互联网金融 下棋--A| phago 大数据机器学习一—底层平台概览 互联网应用架构实战峰会 大数据平台 运维监控 多机房容灾备份 SAS 数据中心机房 虚拟机 物 高速网络GP加速匚重核加速 SSD 理 系 底层平台概览 统状态 云存储 存 离线存储 在线存储 储 层 HBase Memcached HDES Cassandra Redi 性能分析 自 算 离线计算 在线计算 层 资源定位系统 MapRedu MPI Stori Spark Streamin 动监控运维系统 Hive Spark 消息队列 监控报 Impala Shark Kafka Mestre 日志处理 业务算法 预测建模 务 逻 层 自动发布与 离线分桐区度挖(实时挖掘(实时监②分类聚类|辑动 各业务线上服务器群 服 务滚 层 大数据机器学习一一数据流向 互联网应用架构实战峰会 数据源 在线处理 在线计算 在线存储 线上实时 非 类型 类型 日志流 持久式 在线服务流式计算实时回馈 缓存 持久化数据 应用 发布订阅系统一 数据抓取 实时监控 KV存储应用流数据 各业务线上服务器 实时统计在线分析实时推荐 数据库级存〕字典服务 定期批量 收集数据 持久式 离线存储 离线计算 类型 类型 文件 对象 O密集型|计算密集型 结构化数据 迭代型 类SQL型 静态数据 关系链 应用 数据库 搜索排序应用安全检测 网页〕[日志』多媒体」字典 广告算法 推荐计算 任务依赖控制 离线处理 大数据机器学习一—应用架构 互联网应用架构实战峰会 搜索广告用户画像个性化推荐安全语音/脸识别业务层 训陈练层算法层 云端模型终端模型‖混合模型模型层 批量 SVM Adaboost 数 准实时 用户特征选择 物品特征选择 特征层蒸餐 据 子习 主题模型 GBDT 交互特征选择 降维处理 表控 在线 习 K-Means 协同过滤 用户画像用户事件用户意愿 自适应 学习 LR 用户物品交互物品画像物品事件汇聚层 APP WIFI用户操作物品属性URL设备信息地理位置数据层 举个栗子:个性化推荐系统架构 互联网应用架构实战峰会 模型训练系统 反馈闭环系统 点击率 画像与行为系统 生 协同过滤 反馈收集 多样性 用户画像 实 成厂关联规则 时 嫠用户物品交互接 练分类聚类 样 生成子模型 效果评估 收益 淘汰机制 物品画像 新颖度 优化更新 召回率 线上实验系统 策略配置系统 数据收集与 合成模型1 推荐服务接口 启动 爬取系统 子模型权重计算 多样化控制 合成模型2 实 定时爬取 时用流 热门处理 信户量 息选分 实时数据 补充推荐 处择|配 合成模型N 理 离线数据 排序决策 在线监控 机器学习闭环回馈 互联网应用架构实战峰会 闭环回馈的作用 验证模型正确性 ·修正错误 ·优化模型

...展开详情

评论 下载该资源后可以进行评论 5

machinery51 一般了,不够全面
2018-05-30
回复
onedayfly 非常好,经验之谈。
2017-11-21
回复
wuqiong1125 非常不错,谢谢
2017-05-20
回复
liusg123 非常不错,很详尽
2016-10-11
回复
mjms 非常好,经验之谈。
2016-08-04
回复
img
仲培艺

关注 私信 TA的资源

上传资源赚积分,得勋章
最新资源