没有合适的资源?快使用搜索试试~ 我知道了~
Hive on Spark安装配置详解.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 123 浏览量
2023-03-11
21:58:52
上传
评论 1
收藏 909KB PDF 举报
温馨提示
试读
14页
。
资源推荐
资源详情
资源评论
Hive on Spark 安装配置详解
本文章来自于阿里云云栖社区
摘要:本文主要记录如何安装配置 Hive on Spark,并列举遇到的坑及解决办法。
可进入我的博客(原文链接:
http://linbingdong.com/2016/10/10/Hive%20on%20Spark%E5%AE%89%E8%A3%8
5%E9%85%8D%E7%BD%AE%E8%AF%A6%E8%A7%A3/?spm=5176.100239.blo
gcont72228.9.Qn7zSh)查看原文。
简介
本文主要记录如何安装配置 Hive on Spark,在执行以下步骤之前,请先确保已经
安装 Hadoop 集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述。
背景
Hive 默认使用 MapReduce 作为执行引擎,即 Hive on mr。实际上,Hive 还可以
使用 Tez 和 Spark 作为其执行引擎,分别为 Hive on Tez 和 Hive on Spark。由于
MapReduce 中间计算均需要写入磁盘,而 Spark 是放在内存中,所以总体来讲
Spark 比 MapReduce 快很多。因此,Hive on Spark 也会比 Hive on mr 快。为了对
比 Hive on Spark 和 Hive on mr 的速度,需要在已经安装了 Hadoop 集群的机器上
安装 Spark 集群(Spark 集群是建立在 Hadoop 集群之上的,也就是需要先装
Hadoop 集群,再装 Spark 集群,因为 Spark 用了 Hadoop 的 HDFS、YARN 等),
然后把 Hive 的执行引擎设置为 Spark。
Spark 运行模式分为三种 1、Spark on YARN 2、Standalone Mode 3、Spark on Mesos。
Hive on Spark 默认支持 Spark on YARN 模式,因此我们选择 Spark on YARN 模
式。Spark on YARN 就是使用 YARN 作为 Spark 的资源管理器。分为 Cluster 和
Client 两种模式。
一、环境说明
本教程 Hadoop 相关软件全部基于 CDH5.5.1,用 yum 安装,系统环境如下:
操作系统:CentOS 7.2
Hadoop 2.6.0
Hive1.1.0
Spark1.5.0
MySQL 5.6
JDK 1.8
Maven 3.3.3
Scala 2.10
各节点规划如下:
192.168.117.51 Goblin01nn1 jn1 rm1 worker master hive
metastoremysql
192.168.117.52 Goblin02 zk2nn2 jn2 rm2 worker
hive
192.168.117.53 Goblin03 zk3dn1 jn3 worker
hive
192.168.117.54 Goblin04 zk4 dn2 worker
hive
说明:Goblin01~04 是每台机器的 hostname,zk 代表 zookeeper,nn 代表 hadoop
的 namenode,dn 代表 datanode,jn 代表 journalnode,rm 代表 resourcemanager ,
worker 代表 Spark 的 slaves,master 代表 Spark 的 master
二、编译和安装 Spark(Spark on YARN)
2.1 编译 Spark 源码
要使用 Hive on Spark,所用的 Spark 版本必须不包含 Hive 的相关 jar 包,hive on
spark 的官网上说“Note that you must have a version of Spark which does not
include the Hive jars”。在 spark 官网下载的编译的 Spark 都是有集成 Hive 的,因
此需要自己下载源码来编译,并且编译的时候不指定 Hive。
我们这里用的 Spark 源码是 spark-1.5.0-cdh5.5.1 版本,下载地址如下:
http://archive.cloudera.com/cdh5/cdh/5/spark-1.5.0-cdh5.5.1-src.tar.gz
下载完后用 tar xzvf 命令解压,进入解压完的文件夹,准备编译。
注意:编译前请确保已经安装 JDK、Maven 和 Scala,maven 为 3.3.3 及以上版
本,并在/etc/profile 里配置环境变量。
命令行进入在源码根目录下,执行
./make-distribution.sh --name"hadoop2-without-hive"--tgz"-Pya
rn,hadoop-provided,hadoop-2.6,parquet-provided"
若编译过程出现内存不足的情况,需要在运行编译命令之前先运行:
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCode
CacheSize=512m"
来设置 Maven 的内存。
编译过程由于要下载很多 Maven 依赖的 jar 包,需要时间较长(大概一两个小时),
要保证网络状况良好,不然很容易编译失败。若出现以下结果,则编译成功:
剩余13页未读,继续阅读
资源评论
- zhuyizhi7892023-06-04非常有用的资源,有一定的参考价值,受益匪浅,值得下载。
คิดถึง643
- 粉丝: 3880
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 目标跟踪-基于目标中心点同时进行目标检测+目标跟踪算法实现-项目源码-优质项目实战.zip
- Python《文本特征分析-全唐诗数据挖掘及分析 》+源代码
- Netron-Setup-4.5.0
- 可编辑的地图图形3-世界、各洲、美国地图.xls
- NineAi 新版ChatGPT AI系统网站源码
- Anaconda3-2022.10windows版本
- 基于Servlet的URL访问安全控制.doc
- 可编辑的地图图形-2-中国到省、到市、到县地图.xls
- 快慢指针法判断链表是否有环-go语言实现
- Python《金融新闻数据挖掘分析 (数据抓取、NLP算法分析、量化策略、回测框架等)》+源代码+项目说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功