大数据企业级调优的完整过程：9.1Fetch抓取；9.2本地模式；9.3表的优化；9.4数据倾斜；9.5并行执行

Fetch

Reduce

85 浏览量 2023-07-02 22:12:16 上传评论收藏 726KB DOCX 举报

资源推荐

资源详情

资源评论

第 9 章企业级调优

9.1 Fetch 抓取

Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如：

SELECT * FROM employees;在这种情况下，Hive 可以简单地读取 employee 对应的存储目录

下的文件，然后输出查询结果到控制台。

在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive

默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limit 查找等都不走

mapreduce。

<name>hive.fetch.task.conversion</name>

Expects one of [none, minimal, more].

Some select queries can be converted to single FETCH task minimizing latency.

Currently the query should be single sourced not having any subquery and

should not have

any aggregations or distincts (which incurs RS), lateral views and joins.

0. none : disable hive.fetch.task.conversion

1. minimal : SELECT STAR, FILTER on partition columns, LIMIT only

2. more : SELECT, FILTER, LIMIT only (support TABLESAMPLE and virtual

columns)

</description>

</property>

案例实操：

1）把 hive.fetch.task.conversion 设置成 none，然后执行查询语句，都会执行 mapreduce

程序。

hive (default)> set hive.fetch.task.conversion=none;

hive (default)> select * from emp;

hive (default)> select ename from emp;

hive (default)> select ename from emp limit 3;

2）把 hive.fetch.task.conversion 设置成 more，然后执行查询语句，如下查询方式都不会

执行 mapreduce 程序。

hive (default)> set hive.fetch.task.conversion=more;

hive (default)> select * from emp;

hive (default)> select ename from emp;

hive (default)> select ename from emp limit 3;

9.2 本地模式

大多数的 Hadoop Job 是需要 Hadoop 提供的完整的可扩展性来处理大数据集的。不过，

有时 Hive 的输入数据量是非常小的。在这种情况下，为查询触发执行任务消耗的时间可能

会比实际 job 的执行时间要多的多。对于大多数这种情况，Hive 可以通过本地模式在单台机

器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。

用户可以通过设置 hive.exec.mode.local.auto 的值为 true，来让 Hive 在适当的时候自动

启动这个优化。

set hive.exec.mode.local.auto=true; //开启本地 mr

//设置 local mr 的最大输入数据量，当输入数据量小于这个值时采用 local mr 的方式，默认为

134217728，即 128M

set hive.exec.mode.local.auto.inputbytes.max=50000000;

//设置 local mr 的最大输入文件个数，当输入文件个数小于这个值时采用 local mr 的方式，默

认为 4

set hive.exec.mode.local.auto.input.files.max=10;

案例实操：

1）开启本地模式，并执行查询语句

hive (default)> set hive.exec.mode.local.auto=true;

hive (default)> select * from emp cluster by deptno;

Time taken: 1.328 seconds, Fetched: 14 row(s)

2）关闭本地模式，并执行查询语句

hive (default)> set hive.exec.mode.local.auto=false;

hive (default)> select * from emp cluster by deptno;

Time taken: 20.09 seconds, Fetched: 14 row(s)

9.3 表的优化

9.3.1 小表、大表 Join

将 key 相对分散，并且数据量小的表放在 join 的左边，这样可以有效减少内存溢出错误

发生的几率；再进一步，可以使用 map join 让小的维度表（1000 条以下的记录条数）先进

内存。在 map 端完成 reduce。

实际测试发现：新版的 hive 已经对小表 JOIN 大表和大表 JOIN 小表进行了优化。小表

放在左边和右边已经没有明显区别。

案例实操

1．需求

测试大表 JOIN 小表和小表 JOIN 大表的效率

2．建大表、小表和 JOIN 后表的语句

// 创建大表

create table bigtable(id bigint, time bigint, uid string, keyword string,

url_rank int, click_num int, click_url string) row format delimited fields

terminated by '\t';

// 创建小表

create table smalltable(id bigint, time bigint, uid string, keyword string,

url_rank int, click_num int, click_url string) row format delimited fields

terminated by '\t';

// 创建 join 后表的语句

create table jointable(id bigint, time bigint, uid string, keyword string,

url_rank int, click_num int, click_url string) row format delimited fields

terminated by '\t';

3．分别向大表和小表中导入数据

hive (default)> load data local inpath '/opt/module/datas/bigtable' into table

bigtable;

hive (default)>load data local inpath '/opt/module/datas/smalltable' into table

smalltable;

剩余12页未读，继续阅读

评论收藏

内容反馈

都来学

粉丝: 8
资源: 165

大数据企业级调优的完整过程：9.1 Fetch抓取；9.2 本地模式；9.3 表的优化；9.4 数据倾斜；9.5 并行执行

最新资源

大数据企业级调优的完整过程：9.1 Fetch抓取；9.2 本地模式；9.3 表的优化；9.4 数据倾斜；9.5 并行执行

快速学习-Hive企业级调优

PHP PDOStatement::fetch讲解

JavaScript - Fetch实现短信验证码注册登录完整示例：JavaScript - Fetch.js和附件说明

ASP.NET设计模式-杨明军译(源码)

php提示Warning:mysql_fetch_array() expects的解决方法

SQL Server 2008高级程序设计 4/6

解决sklearn中 fetch-lfw-people()人脸数据集下载失败问题？

SQL Server 2008高级程序设计 5/6

SQL Server 2008高级程序设计 6/6

SQL Server 2008高级程序设计 1/6

SQL Server 2008高级程序设计 2/6

SQL Server 2008高级程序设计 3/6

【63课时完整版】大数据实践HIVE详解及实战

fetch-html-img:通过html文本抓取图片

精通SQL 结构化查询语言详解

data-mocks:使用Fetch或XHR模拟本地数据请求的库

精通sql结构化查询语句

用C实现PHP扩展 Fetch_Url 类数据抓取的方法

xthreg2命令安装包

Python金融量化的高级库：TA-Lib-0.4.24（包含python3.7、3.8、3.9、3.10的32位和64位版本）

2022泰迪杯数据分析技能赛B题代码 Jupyter Notebook

统计数模历年优秀论文-全国大学生统计建模大赛

数据源-数据可视化（七）：Pandas香港酒店数据高级分析，涉及相关系数，协方差，数据离散化，透视表等精美可视化展示

2022年美赛（MCM）C题M奖论文

Origin中【CorrelationPlot】插件

python数据分析大作业-爬虫、建立模型、可视化、结论分析

计算方法-上机作业-示例【仅供交流参考】

中国自然保护区名录+矢量边界数据

天气数据爬取的源代码-可以运行

最新资源