一:介绍
1.介绍
减少了网络IO
减少了磁盘的IO存储
所用的压缩必须具有可分割性。
2.mapreduce中的压缩
切片了再读取。
二:Mapreduce压缩
1.常见的格式
2.检查是否有压缩本地包
lz4是lzo的升级版。
-------------------------------------------------------------默认的压缩类-------------------------
3.解压,添加压缩包
这个可以使用hadoop源码包进行编译。
在linux先安装snappy库,才支持snappy压缩。
然后需要hadoop-snappy-master,自己编译。
4.Hadoop中,没有压缩格式的验证
历史服务器
5.Hadoop中,map端的压缩
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar
wordcount -Dmapreduce.map.output.compress=true
-Dmapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec
/input /outputCom
历史服务器:
三:Hive中的压缩
1.Hive中,没有压缩的默认设置
历史服务器
2.Hive中,压缩的设置
另外加上live的特别配置,intermediate=true;
历史服务器