2015 Spark技术峰会-腾讯在Spark上的应用与实践优化-王联辉

5星(超过95%的资源)
所需积分/C币:10 2015-04-27 15:34:28 696KB PDF
50
收藏 收藏
举报

腾讯高级工程师王联辉在OpenCloud 2015大会Spark专场的演讲PPT:腾讯在Spark上的应用与实践优化,主要介绍Spark在腾讯的当前现状、典型应用及效果,以及腾讯在Spark上的实践和优化。其中,典型应用在三个方面:预测用户的广告点击概率;计算两个好友间的共同好友数;用于ETL的SparkSQL和DAG任务。
数据平台部 TDW(Tencent Distributed Data Warehouse) Overview er ●Gaia集群结点数:8000+ DE Lhoste(Workflow System ●HDFS的存储空间:150PB+ User defined jobs Hive/Pig (Scala/Java/Python/. ●每天新增数据:1PB+ MapReduce Spark Storm Docker 每天任务数:1M+ ●每天计算量:10PB+ GAIA(Based on YARN) HDFS IDE:用于提交SQL或脚本的 Eclipse插件和Web界面 Lhoste:各类作业的工作流调度系统,类似于 Oozie GAIA:基于YARN进行定制和优化的资源管理系统 数据平台部 为什么我们引入 Spark? MM ●DAG计算引擎 HDFS HDFS M M ● Data Cache& Sharing R R ●其他:task调度,数据广播等 HDFS R M R iter. 1 result1 iter. 1 result1 HDFS iter. 2 result2 HDFS iter. 2 result2 iter. 3 result3 iter. 3 result3 数据平台部 Spak在腾讯的当前现状 ●作业类型:ETL, SparkSQL, Machine Learning, Graph Compute, Streaming ●每天任务数:10K+ ●部署模式:Gaia(80004 Nodes,with24 cores and60 G memory each) ●底层存储:HDFS/ Hive/HBase/MySQLi ●从2013年的 Spark0.6版本开始,目前的版本是 Spark1.2 Scala/ javal MAli Python Spark SQL(machine Graphx Spark ETL learning) Streaming Spark HDFS Hive Table HBase MySQL PostgreSQL Others 数据平台部 Sparki在腾讯的典型应用及效果 ●case1:预测用户的广告点击概率 ●case2:计算二个好友间的共同好友数 ●case3:用于ETL的 SparkS和DAG任务 数据平台部 Case1:预测用户的广告点击概率 able-1 Gender Age Marita Location Ad. Ad. Is click? status one two man 0 unmarried New York true false yes woman 40 married California false true yes man 60 married California false true N Model Train at Spark Table-2 Gende Age Marital Location Ad. Ad. Click's Table-3 status one two possibility w man woman ..Ad1 Ad 2 0.8960.895 0.4900489 man 30 unmarried NewYork true false man 30 unmarried NewYork false true Table-4 Gender Age Marital Location Ad. Ad. Click's status one two possibility man 30 unmarried New York true false 30% man 30 unmarried NewYork false true 50% 数据平台部 Case1:预测用户的广告点击概率 Driver ●实时预处理训练数据并推送到hdfs上 M= W-Gradient●将训练数据(200G+)导入至RDD& cache Gradient ●初始化随机值给W并广播至各个 executor W Gradient ●迭代训练60次左右 o for(i <-1 to ITERATIONS) val gradient= points map ip=> px(1/(1+exp(-py*(wdot(p x))-1)*py Eⅹ ector Eⅹ ecto 3. reduce(+) Cache Task/RDD Cache| Task/RDD gradient HDES ●将模型推送广告后台在线服务器 每个计算的时间在10~15分钟 Data Collect Tools 数据平台部 Case2:计算二个好友间的共同好友数 Table-1 Table-2 user friend user friendI number of mutual friends User Links Table (id, fid) Group b 2 2 1 User Friends Table 4 4 1 Join by (id, fids) 1 2 5 11233566 5 3 6 3 6 5 00010110 Temp-1 Table (id, fid, id-fids) Join by 5 5 Temp Table 3 3 (id, fid, id-fids, fid-fids) Result table 5亿用户数,500亿条边 (id, fid, count) 10亿用户数,1000亿条边 数据平台部 Case2:计算二个好友间的共同好友数 Table-1 Table-2 user friend P1 P2 P3 P4 Pid id fid 2 P5 P6 P7 P8 121 12 2 P9 P10 P11 P12 236 63 341 P13 P14 P15 P16 6 5 53 5 6 63 3 465 56 val partition Strategy Partition Strategy. EdgePartition2D

...展开详情
试读 23P 2015 Spark技术峰会-腾讯在Spark上的应用与实践优化-王联辉
立即下载 身份认证后 购VIP低至7折
一个资源只可评论一次,评论内容不能少于5个字
6111111 spark材料,谢谢分享
2019-11-20
回复
simhill 不错,总结的不错
2019-02-26
回复
wuzhilon88 还不错,实践应用过的知识
2018-03-12
回复
prettyboy_keke 看了后,很受用。
2017-08-26
回复
lizygong 讲解不错,很详细~~~
2017-04-13
回复
Pixelstime 还不错,实践应用过的知识
2016-11-05
回复
冲冲 很好的学习参考资料
2016-07-16
回复
qiangbird 有用的资源 不错
2016-05-22
回复
firefox_ 总体讲的还不错
2016-04-27
回复
williamlee_110 腾讯的spark技术全面详细,而且结合实际应用来讲解
2016-04-24
回复
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 分享王者

关注 私信
上传资源赚钱or赚积分
最新推荐
2015 Spark技术峰会-腾讯在Spark上的应用与实践优化-王联辉 10积分/C币 立即下载
1/23
2015 Spark技术峰会-腾讯在Spark上的应用与实践优化-王联辉第1页
2015 Spark技术峰会-腾讯在Spark上的应用与实践优化-王联辉第2页
2015 Spark技术峰会-腾讯在Spark上的应用与实践优化-王联辉第3页
2015 Spark技术峰会-腾讯在Spark上的应用与实践优化-王联辉第4页
2015 Spark技术峰会-腾讯在Spark上的应用与实践优化-王联辉第5页

试读结束, 可继续读2页

10积分/C币 立即下载