BML百度大规模机器学习云平台实践
知识点: 1. 百度机器学习云平台(BML)概述 - 百度是一个拥有庞大用户基础和数据处理需求的互联网公司,每天需要处理数十亿次的搜索请求、支持数百万企业客户,以及20多个用户过亿的移动产品,处理的数据量接近100个PB。 - 百度Hadoop单集群规模曾达到全球最大的1.3万台机器。 - 百度在机器学习领域的技术处于国内领先水平,吸引了多位人工智能领域的专家加盟。 2. 数据处理流程 - 百度的大数据处理流程包括数据收集、存储、变形、分析和业务场景处理等多个环节。 - 数据收集主要通过网络日志和消息总线等方式进行,存储于关系数据库、键值数据库、对象存储和数据仓库等不同类型的数据存储系统。 - 数据分析则涉及批处理、商务智能、日志分析、实时竞价、社交媒体流数据分析、舆情分析、物联网、价格预测和工作流等多种应用场景。 3. 百度大数据处理基础架构 - 百度大数据处理的基础架构包括数据仓库(Data Warehouse)、在线分析处理(OLAP)、以及并行计算框架如MapReduce、DAG、Parameter Server等。 - 百度还提供了各类并行计算组件,如Normandy、HDFS、Matrix ICD、Essential Learning Framework(ELF)等,以支持大规模机器学习算法的运行。 4. ELF大规模机器学习算法框架 - ELF是百度开发的第三代机器学习计算框架,它借鉴了Hadoop、Spark和MPI的精华,提供简单编程模式、高性能以及易用的接口。 - ELF支持基于数据流的编程模式,便于用户高效处理复杂的计算过程,同时它提供了多轮数据迭代处理、异步更新和并行通信等功能,避免用户关心底层实现细节。 - ELF还内置性能一流的参数服务器(Parameter Server),可以处理大规模的分布式计算任务。 5. 百度机器学习云(BML)的算法与应用 - BML提供了丰富的机器学习算法,包括但不限于逻辑回归、GBDT+FFM等,并且这些算法都是分布式实现的,经过数年的优化,速度处于业界领先水平。 - 百度的重要业务,如广告CTR预估、搜索排序等,都已经在使用这些算法,证明了其在真实环境中的稳定性和高效性。 6. BML的实际应用场景 - 百度外卖使用BML提升了商户推荐排行榜的转化率。 - 百度云端杀毒通过BML降低了误差率。 - BML应用于硬盘故障预测、语音识别等多个方面,以提升准确性并降低错误率。 - 在个性化推荐方面,BML支持直达号的个性化推荐、搜索用户推荐、地图推荐商家等,以及糯米的精准营销和店铺推荐等。 - 客服问答系统也借助BML实现了问题的自动归类。 7. ELF框架的关键特性 - ELF框架的易用性体现在用户可以通过简单的代码实现大规模的分布式算法,例如使用200行代码实现Online异步SGD算法,100+行实现大规模分布式LR算法,以及500行代码实现分布式LDA算法。 - ELF框架通过分布式多线程实现,支持细粒度的线程控制,并且节点间的通信依赖于高效的baidu-rpc。 - ELF还深度优化了hashtable,专用于Parameter Server,支持多种不同的参数读取和更新方式。 8. 百度机器学习团队 - 百度机器学习团队拥有强悍的实力派成员,这个团队自2009年开始研发大规模逻辑回归(广告CTR)算法,并开发了20多种并行机器学习算法。 - 百度机器学习团队获得了三个“百度最高奖”,并且团队中有多位长期从事机器学习的专家。 - BML拥有全流程的支持,从预处理、特征分析、模型训练、评估到预测,上手容易,并隐藏了算法细节,用户只需指定简单的参数即可完成整个过程。 通过上述知识点的介绍,可以看出BML百度大规模机器学习云平台的实践是一个集数据处理、算法开发和应用落地于一体的综合性机器学习平台。它不仅提供了强大的计算能力支持,还通过易用、高效的框架设计,使得开发者能够专注于算法逻辑的实现,从而高效地解决现实世界中的各类问题。
剩余19页未读,继续阅读
- jacobsy2016-01-04内容很完整,扫描质量也很好,难得的资源
- ytdxtao20152015-12-20不错,要是PPT就好了,能拿来直接用了。
- shanglihong2016-04-05谢谢楼主分享。。
- paladin002019-09-05感谢分享!
- 大脸猫BFCat2016-03-31会议用的PPT, 可以下载了看看。
- 粉丝: 1481
- 资源: 52
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助