没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介.pdf 6.SparkSQL(下)--Spark实战应用.pdf 6.SparkSQL(中)--深入了解运行计划及调优.pdf 7.SparkStreaming(上)--SparkStreaming原理介绍.pdf 7.SparkStreaming(下)--SparkStreaming实战.pdf 8.SparkMLlib(上)--机器学习及SparkMLlib简介.pdf 8.SparkMLlib(下)--SparkMLlib实战.pdf 9.SparkGraphX介绍及实例.pdf 10.分布式内存文件系统Tachyon介绍及安装部署.pdf
资源推荐
资源详情
资源评论
第 1 页 共 25 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
了解 SparkSQL 运行计划及优化
第 2 页 共 25 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
目 录
1 使用HIVE-CONSOLE 了解运行计划 .................................................................................................................... 3
1.1 运行环境说明 ..................................................................................................................................................... 3
1.1.1
硬软件环境
...................................................................................................................................................... 3
1.1.2
集群网络环境
.................................................................................................................................................. 3
1.2 编译H
IVE ............................................................................................................................................................. 4
1.2.1
下载
Hive
源代码包
........................................................................................................................................... 4
1.2.2
上传
Hive
源代码包
........................................................................................................................................... 4
1.2.3
解压缩并移动到编译目录
.............................................................................................................................. 4
1.2.4
编译
Hive ........................................................................................................................................................... 5
1.3 首次运行
HIVE-CONSOLE ..................................................................................................................................... 6
1.3.1
获取
Spark
源代码
............................................................................................................................................. 6
1.3.2
配置
/etc/profile
环境变量
................................................................................................................................. 6
1.3.3
运行
sbt
进行编译
.............................................................................................................................................. 6
1.4 使用
HIVE-CONSOLE ............................................................................................................................................. 7
1.4.1
启动
hive-console .............................................................................................................................................. 7
1.4.2
辅助命令
Help
和
Tab
键
..................................................................................................................................... 8
1.4.3
常用操作
.......................................................................................................................................................... 9
1.4.4
查看查询的
Unresolved LogicalPlan ............................................................................................................. 10
1.4.5
不同数据源的运行计划
................................................................................................................................ 11
1.4.6
不同查询的运行计划
.................................................................................................................................... 16
1.4.7
优化
................................................................................................................................................................ 19
2
SPARKSQL调优 ...................................................................................................................................................... 20
2.1 并行性 ............................................................................................................................................................... 21
2.2 高效的数据格式 ............................................................................................................................................... 22
2.2.1
数据本地性
.................................................................................................................................................... 23
2.2.2
合适的数据类型
............................................................................................................................................ 23
2.2.3
合适的数据列
................................................................................................................................................ 23
2.2.4
优的数据存储格式
........................................................................................................................................ 23
2.3 内存的使用 ....................................................................................................................................................... 24
2.4 合适的T
ASK ...................................................................................................................................................... 24
2.5 其他的一些建议 ............................................................................................................................................... 25
第 3 页 共 25 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
了解 SparkSQL 运行计划及优化
1 使用 Hive-Console 了解运行计划
前面介绍了 SparkSQL 的运行过程,罗列了很多概念很抽象,比如 Unresolved LogicPlan、
LogicPlan、PhysicalPlan,下面 介绍一个工具 hive/console,来加深对 SparkSQL 的运行计划
的理解。
【注】以下实验环境为第二课《Spark 编译与部署》搭建 hadoop1 一台机器
1.1 运行环境说明
1.1.1 硬软件环境
主机操作系统:Windows 64 位,双核 4 线程,主频 2.2G,10G 内存
虚拟软件:VMware® Workstation 9.0.0 build-812388
虚拟机操作系统:CentOS6.5 64 位,单核
虚拟机运行环境:
JDK:1.7.0_55 64 位
Hadoop:2.2.0(需要编译为 64 位)
Scala:2.10.4
Spark:1.1.0(需要编译)
Hive:0.13.1(源代码编译,参见 1.2)
1.1.2 集群网络环境
本次实验环境只需要 hadoop1 一台机器即可,网络环境配置如下:
序号 IP 地址 机器名 类型 用户名 目录
1 192.168.0.61 hadoop1 NN/DN hadoop
/app 程序所在路径
/app/scala-...
/app/hadoop
/app/complied
第 4 页 共 25 页 出自石山园,博客地址:http://www.cnblogs.com/shishanyuan
1.2 编译 Hive
1.2.1 下载 Hive 源代码包
这里选择下载的版本为hive-0.13.1,这个版本需要到apache的归档服务器下载,下载地
址:http://archive.apache.org/dist/hive/hive-0.13.1/ ,选择 apache-hive-0.13.1-src.tar.gz
文件进行下载:
1.2.2 上传 Hive 源代码包
把下载的 hive-0.13.0.tar.gz 安装包,使用 SSH Secure File Transfer 工具(参见第 2 课《 Spark
编译与部署(上)--基础环境搭建》1.3.1 介绍)上传到/home/hadoop/upload 目录下。
1.2.3 解压缩并移动到编译目录
到上传目录下,用如下命令解压缩 hive 安装文件:
$cd /home/hadoop/upload
$tar -zxf apache-hive-0.13.1-src.tar.gz
改名并移动到/app/complied 目录下:
$sudo mv apache-hive-0.13.1-src /app/complied/hive-0.13.1-src
$ll /app/complied
剩余24页未读,继续阅读
资源评论
ansoncloud
- 粉丝: 5
- 资源: 31
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功