没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
Szdxxhb_hairy
CDH 优化文档
Tuning Apache Hive in CDH
Version History
Version
Author
Description
Date
0.1
Szdxxhb_hairy
创建
2018/2/6
Apache Hive 性能调优
原文地址:https://www.cloudera.com/documentation/enterprise/5-13-x/topics/admin_hive_tuning.html
为了最大发挥 Apache Hive 查询工作负载的性能,您需要优化集群配置、查询和底层的 Hive 表设计。这包括以下几点:
⚫ 为 CDH 集群配置最大允许堆内存大小,通过 CDH hive 组件负载均衡并发连接,并分配足够的内存来支持 HiveServer2 和 Hive 元数据操作。
⚫ 检查您的 Hive 查询工作负载,以确保查询不是过于复杂,它们不会访问大量的 Hive 表分区,或者当只需要一个子集时,它们会强制系统实现所有访
问的 Hive 表的列。
⚫ 检查底层的 Hive 表设计,这对于最大化 Hive 查询工作负载的吞吐量至关重要。不要创建成千上万的表分区,这些分区可能会导致包含连接的查询,
而这些查询可能会导致 HiveServer2 和 Hive MetaStore 过载。限制列宽,并将列数保持在 1,000 以下。
下面的部分提供了实现这些最佳实践的详细信息,以最大限度地提高 HiveServer2 和 HiveMetaStore 的性能。
有关优化 Hive 的更多信息,请参阅 CDH 中的 Amazon S3 文件系统上的 Apache Hive 性能调优。
接下来请阅读:
⚫ 堆大小和 Hive 组件的垃圾收集机制
⚫ HiveServer2 性能调优和故障排除
一、堆大小和 Hive 组件的垃圾收集机制
本节提供了设置 HiveServer2 和 Hive 转移内存和垃圾收集属性的指导原则。
1.1 内存和硬件需求建议
HiveServer2 和 Hive metastore 需要足够的内存才能正常运行。对于生产工作负载,每个组件的默认堆大小为 256 MB。基于自己的集群规模,认真考虑一
下根据集群大小为每个组件调整堆大小。
组件
堆内存
CPU
DISK
HiveServer 2
连接数:1
4 GB
连接数:2-10
4-10 GB
连接数:11-20
6-12 GB
连接数:21-40
12-16 GB
连接数:41 to 80
16-24 GB
Cloudera 建议将 HiveServer2 分解为多个实例,并在开始分配超过 12 GB 到
组件
堆内存
CPU
DISK
HiveServer2 时负载平衡。目标是调整大小以减少 Java 垃圾收集对服务的
积极处理的影响。
设置这个值使用 HiveServer2 的 Java 堆大小(以字节为单位)
Hive Metastore
连接数:1
4 GB
连接数:2-10
4-10 GB
连接数:11-20
12-12 GB
连接数:21-40
12-16 GB
连接数:41 to 80
16-24 GB
设置这个值使用 Hive Metastore Server 的 Java 堆大小(以字节为单位)
Beeline CLI
最小: 2 GB
备注:这些数字只是一般的指导,并且可能受到诸如列数、分区、复杂连接和客户端活动等因素的影响。根据您预期的部署,通过测试来优化,以达到您
所处环境的最佳值。
此外,将
Java
垃圾收集的
PermGen
空间设置为
512 MB
。
剩余21页未读,继续阅读
资源评论
szdxxhb_hairy
- 粉丝: 4
- 资源: 7
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功