没有合适的资源?快使用搜索试试~ 我知道了~
2015年1月10日,一场基于Spark的高性能应用实践盛宴由Databricks软件工程师连城、百度高级工程师甄鹏、百度架构师孙垚光、百度美国研发中心高级架构师刘少山四位专家联手打造。2014年,Spark开源生态系统得到了大幅增长,已成为大数据领域最人气的开源项目之一,活跃在Hortonworks、IBM、Cloudera、MapR和Pivotal等众多知名大数据公司,更拥有SparkSQL、SparkStreaming、MLlib、GraphX等多个相关项目。同时值得一提的是,Spark贡献者中有一半左右的中国人。短短四年时间,Spark不仅发展为Apache基金会的顶级开源项目,更通过
资源推荐
资源详情
资源评论
Spark技术解析及在百度开放云技术解析及在百度开放云BMR应用实践应用实践
2015年1月10日,一场基于Spark的高性能应用实践盛宴由Databricks软件工程师连城、百度高级工程师甄鹏、百度架构师孙
垚光、百度美国研发中心高级架构师刘少山四位专家联手打造。
2014年,Spark开源生态系统得到了大幅增长,已成为大数据领域最人气的开源项目之一,活跃在Hortonworks、IBM、
Cloudera、MapR和Pivotal等众多知名大数据公司,更拥有Spark SQL、Spark Streaming、MLlib、GraphX等多个相关项目。
同时值得一提的是,Spark贡献者中有一半左右的中国人。
短短四年时间,Spark不仅发展为Apache基金会的顶级开源项目,更通过其高性能内存计算及其丰富的生态快速赢得几乎所有
大数据处理用户。2015年1月10日,一场基于Spark的高性能应用实践盛宴由Databricks软件工程师连城、百度高级工程师甄
鹏、百度架构师孙垚光、百度美国研发中心高级架构师刘少山四位专家联手打造。
Databricks软件工程师连城软件工程师连城——Spark SQL 1.2的提升和新特性的提升和新特性
谈及Spark SQL 1.2的提升和新特性,连城主要总结了4个方面——External data source API(外部数据源API)、列式内存存
储加强(Enhanced in-memory columnar storage)、Parquet支持加强(Enhanced Parquet support)和Hive支持加强
(Enhanced Hive support)。
External data source API
连城表示,因为在处理很多外部数据源中出现的扩展问题,Spark在1.2版本发布了External data source API。通过External
data source API,Spark将不同的外部数据源抽象成一个关系表格,从而实现更贴近无缝的操作。
External data source API在支持了多种如JSON、Avro、CSV等简单格式的同时,还实现了Parquet、ORC等的智能支持;同
时,通过这个API,开发者还可以使用JDBC将HBase这样的外部系统对接到Spark中。
连城表示,在1.2版本之前,开发者其实已经实现了各种各样外部数据源的支持,因此,对比更原生的支持一些外部数据
源,External data source API的意义更在于针对相应数据源进行的特殊优化,主要包括Column pruning(列剪枝)和Pushing
predicates to datasources(将predicates贴近数据源)两个方面:
Column pruning。。主要包括纵横的两种剪枝。在列剪枝中,Column pruning可以完全忽视无需处理的字段,从而显著地减少
IO。同时,在某些条件查询中,基于Parquet、ORC等智能格式写入时记录的统计信息(比如最大值、最小值等),扫描可以
跳过大段的数据,从而省略了大量的磁盘扫描负载。
Pushing predicates to datasources。。在更复杂的SQL查询中,让过滤条件维度尽可能的接近数据源,从而减少磁盘和网络
IO,最终提高整体端到端的性能。
使用使用External data source API之前之前
使用使用External data source API之后之后
搭载了如搭载了如Parquet和和ORC这样的智能格式这样的智能格式
连城表示,在Spark 1.2版本中,External data source API并没有实现预期中的功能,在Roadmap中,First class分片支持
(First class partitioning support with partition pruning)、Data sink(insertion)API、将Hive作为外部数据源等。
Enhanced in-memory columnar storage
连城表示,不管Shark,还是Spark,内存缓存表的支持都是非常重要的一个特性。他表示,虽然在1.1和之前版本中的列式内
存表的性能已然不错,但是还会出现一些问题:第一,大数据量下缓存超大体积表时(虽然不推荐,但不缺现实用例),会出
现OOM等问题;第二,在列式存储中,像Parquet、ORC这种收集统计信息然后通过这些信息做partition skipping等操作在之
前版本中并没有完全实现。这些问题在1.2版本中都得到了解决,本节,连城主要介绍了语义统一、缓存实体化、基于缓存共
享的查询计划、Cache大表时的OOM问题、表格统计(Table statistics)等方面。
缓存实体化。缓存实体化。SQLContext.cacheTable(“tbl”)默认使用eager模式,缓存实体化将自动进行,不会再等到表被使用或触发时,避
剩余8页未读,继续阅读
资源评论
weixin_38672794
- 粉丝: 5
- 资源: 924
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (dta格式)各县市区主要社会经济指标(1990-2022年)【重磅,更新】
- JiYuTrainer.rar
- 基于 Echarts.js+PyTorch+Celery+深度学习实现动力电池数据分析系统+项目源码+文档说明
- 【重磅,更新】2014-2024年全国监测站点的15个(空气质量;指标监测数据)
- 最全石头剪刀布数据集下载
- 中期检查+结项报告参考模板+教改类课题+开题报告【重磅,更新!】
- DGA(流量入侵)网络安全数据集
- 【毕业设计/课程设计】免费springbootvue阿博图书馆管理系统源码
- <项目代码>YOLOv8 手机识别<目标检测>
- 【毕业设计/课程设计】免费springboot+vue教师工作量管理系统源码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功