没有合适的资源?快使用搜索试试~ 我知道了~
资源详情
资源评论
资源推荐
—————————————————————————————————————
大数据技术之 Hadoop(优化&新特性)
版本:V3.0
第 1 章 Hadoop 数据压缩
1.1 概述
—————————————————————————————————————
1.2 MR 支持的压缩编码
压缩格式
自带? 算法 文件扩展名 是否可切分 换成压缩格式后,原来的程序是否需要修改
是,直接使用
否 和文本处理一样,不需要修改
是,直接使用
否 和文本处理一样,不需要修改
是,直接使用
是 和文本处理一样,不需要修改
否,需要安装
是 需要建索引,还需要指定输入格式
否,需要安装
否 和文本处理一样,不需要修改
为了支持多种压缩/解压缩算法,Hadoop 引入了编码/解码器,如下表所示。
压缩格式 对应的编码
解码器
!"#
#
$#
#
#
压缩性能的比较
压缩算法 原始文件大小 压缩文件大小 压缩速度 解压速度
%&$ '%$ '()*$ )%*$
%&$ ''$ +*$ ,)*$
%&$ ,$ +,&*$ (+-*$
http://google.github.io/snappy/
On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250
MB/sec or more and decompresses at about 500 MB/sec or more.
—————————————————————————————————————
1.3 压缩方式选择
1.3.1 Gzip 压缩
1.3.2 Bzip2 压缩
—————————————————————————————————————
1.3.3 Lzo 压缩
1.3.4 Snappy 压缩
1.4 压缩位置选择
压缩可以在 MapReduce 作用的任意阶段启用。
—————————————————————————————————————
图 MapReduce 数据压缩
1.5 压缩参数配置
要在 Hadoop 中启用压缩,可以配置如下参数:
参数 默认值 阶段 建议
...
(在
/0
中配置)
!"#
1.
#
1.
$#
输入压缩
2
使用文件扩展名判断是否支
持某种编解码器
" ""
(在
/0
中配置)
!
输出 这个参数设为
"
启用压缩
" ""
(在
/0
中配置)
!"#
输出 企业多使用
或
编解码器
在此阶段压缩数据
"""3""!
(在
/0
中配置)
!
"
输出 这个参数设为
"
启用压缩
"""3""!
(在
/0
中配置)
.
!"#
"
输出 使用标准工具或者编解码器,如
和
"""3""!
(在
/0
中配置)
4#4
"
输出
5"
输出使用的压缩类
型:
66
和
$#7
剩余32页未读,继续阅读
一个写湿的程序猿
- 粉丝: 1w+
- 资源: 14
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0