### CDH6.3.2集成tez #### 概述 Cloudera Distribution Including Apache Hadoop (CDH) 是一款由 Cloudera 公司提供的企业级大数据平台,它包含了 Hadoop 生态系统中的核心组件和服务。Tez 是一个支持复杂数据处理任务的框架,能够提高 MapReduce 的性能并提供更丰富的作业类型。本文将详细介绍如何在 CDH 6.3.2 版本中集成 Tez 0.9.1,并将其设置为默认执行引擎。 #### 环境准备与前置条件 为了顺利集成 Tez 并修改执行引擎,我们需要先准备好以下环境: 1. **Maven 安装**: - **下载 Maven**:访问 Maven 官方网站 (https://maven.apache.org/download.cgi) 下载 Maven。 - **解压并配置环境变量**: ```bash tar -zxvf apache-maven-3.6.3-bin.tar.gz -C /opt export MVN_HOME=/data/module/apache-maven-3.6.3 export PATH=$PATH:$MVN_HOME/bin ``` - **验证 Maven 版本**: ```bash mvn -v ``` 2. **Protocol Buffers (protobuf) 安装**: - **下载指定版本**:由于后续安装 Tez 时需要 protobuf 2.5.0,但该版本已不在官方源中提供,可使用其他渠道获取,例如通过百度网盘提供的链接:https://pan.baidu.com/s/1hm7D2_wxIxMKbN9xnlYWuA(提取码:haz4)。 - **解压并配置**: ```bash tar -zxvf protobuf-2.5.0.tar.gz cd protobuf-2.5.0/ ``` 3. **configure 校验**: - 运行 `./configure` 来检查编译环境是否满足需求。 - 如果出现错误提示,根据错误信息解决相应问题。例如,如果出现类似“checking for g++... no”的错误,则需要安装相应的编译工具。 #### 集成 Tez 0.9.1 1. **下载并安装 Tez**: - 从 Apache Tez 官方网站下载 Tez 0.9.1 的二进制包。 - 解压缩并按照官方文档配置 Tez。 2. **修改执行引擎**: - 在 CDH 6.3.2 中,可以通过修改相应的配置文件来切换执行引擎至 Tez。 - 需要编辑的配置文件可能包括但不限于 `hive-site.xml`、`tez-site.xml` 等。 - 例如,在 `hive-site.xml` 文件中添加或修改以下内容: ```xml <property> <name>hive.execution.engine</name> <value>tez</value> </property> ``` 3. **验证 Tez 集成**: - 启动 CDH 集群。 - 使用 Hive 或 Pig 等工具提交一些简单的 MapReduce 任务,检查这些任务是否由 Tez 引擎执行。 - 可以通过查看 YARN 应用程序历史记录来确认任务是由 Tez 处理的。 #### 总结 本文介绍了如何在 CDH 6.3.2 中集成 Tez 0.9.1,并将其设置为默认执行引擎。整个过程涉及到了 Maven 的安装配置、Protocol Buffers 的下载安装以及 Tez 的安装配置等多个步骤。通过这些步骤,可以有效提升 CDH 集群的数据处理能力和效率。需要注意的是,实际操作过程中可能会遇到各种具体的问题,需要根据错误信息逐一排查解决。此外,为了确保 Tez 能够正常工作,还需要对 CDH 和 Tez 的配置进行适当的调整和优化。
剩余20页未读,继续阅读
- 粉丝: 730
- 资源: 76
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助