zoukankan      html  css  js  c++  java
  • 054 压缩

    一:介绍

    1.介绍

      减少了网络IO

      减少了磁盘的IO存储

      所用的压缩必须具有可分割性。

    2.mapreduce中的压缩

      切片了再读取。

      

    二:Mapreduce压缩

    1.常见的格式

      

    2.检查是否有压缩本地包

      lz4是lzo的升级版。

      

      -------------------------------------------------------------默认的压缩类-------------------------

      

    3.解压,添加压缩包

      这个可以使用hadoop源码包进行编译。

      在linux先安装snappy库,才支持snappy压缩。

      然后需要hadoop-snappy-master,自己编译。

      

     4.Hadoop中,没有压缩格式的验证

      

      历史服务器

      

    5.Hadoop中,map端的压缩 

      bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar
      wordcount -Dmapreduce.map.output.compress=true
      -Dmapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec
      /input /outputCom

      

      历史服务器:

      

    三:Hive中的压缩

    1.Hive中,没有压缩的默认设置

      

      历史服务器

      

    2.Hive中,压缩的设置

      另外加上live的特别配置,intermediate=true;

      

      历史服务器

      

      

      

  • 相关阅读:
    2019.5.1
    拓扑排序(topological sort)
    邻接表+链式前向星
    桶排序+基数排序+计数排序
    奶牛排队
    set
    win10家庭版怎么开启Administrator超级管理员帐户
    Office Online Server 在线编辑Office文档,安装部署
    Centos分区/超过2T的磁盘
    win10照片查看器不能看jpg等格式图片
  • 原文地址:https://www.cnblogs.com/juncaoit/p/6067703.html
Copyright © 2011-2022 走看看