zoukankan      html  css  js  c++  java
  • Hadoop_常用存储与压缩格式

    HDFS文件格式

    file_format:
      TEXTFILE    默认格式
      RCFILE     hive 0.6.0 和以后的版本
      ORC       hive 0.11.0 和以后的版本
      PARQUET     hive 0.13.0 和以后的版本,该数据格式企业中最常用
      AVRO      hive 0.14.0 和以后的版本        
    

     数据存储的方式

    1. 按行存储 textfile
    2. 按列存储 orc/parqurt
      --orcfile
        每列数据有类似于元数据的索引信息,可以确定列内容,需要某列信息时可以直接锁定列内容,效率优于按行存储
        压缩出来的文件比例最小,以时间换存储
      --parquet
        比较复杂,支持嵌套数据结构和高效其种类丰富的算法(以应对不同值分布特征的压缩)
        压缩率不如orcfile,时间与压缩比适中
      压缩率
      TEXTFILE(不压缩) RCFILE(14%) parquet(62%) orcfile(78%) 其中ORCFILE是RCFILE一个升级
    

     常见的压缩技术

    1. 压缩格式: bzip2,gzip,lzo,lz4,snappy等
    2. 压缩比: bzip2>gzip>lzo bzip2最节省存储空间
    3. 解压速度: lzo>gzip>bzip2 lzo解压速度最快
    4. mapreduce
        --> input --> map --> shuffle --> reduce --> output
          --> shuffle
            --> map shuffle
              --> spill
              --> partition: 决定map的输出交给那个reduce处理
              --> sort: 两种方式,WritableComparable/Comparable
              --> combiner: map端的reduce
              --> 压缩
            --> reduece shuffle
              -->merger
              --> 分组: 将相同key的value进行合并			
    5. hadoop中的压缩
      --> 减少网络IO
      --> 减少了磁盘IO存储
      --> 注意压缩必须有可分割性(在map输出经过shuffle到reduce时需要解压缩,保证单个数据还可以被解压)
      --> hadoop支持的压缩格式:zlib/gzip/bzip2/lzo/lz4/snappy
    6. hadoop中编译snappy压缩
      --> Linux安装snappy库 
      --> 下载hadoop-snappy-master.zip 编译生成支持hadoop的snappy.so
      --> 将生成的jar包放到hadoop目录下的lib
      --> 添加配置文件
      core-site.xml
        <property>
          <name>io.compression.codecs</name>
          <value>
            org.apache.hadoop.io.compress.GzipCodec,
            org.apache.hadoop.io.compress.DefaultCodec,
            org.apache.hadoop.io.compress.BZip2Codec,
            org.apache.hadoop.io.compress.SnappyCodec
          </value>
        </property>
    
  • 相关阅读:
    webpack 5 之持久化缓存
    前端资源加载失败优化
    如何用 JS 实现二叉堆
    简单解析一下扫码登陆原理,简单到你想不到!
    实战:Express 模拟 CSRF 攻击
    Yarn 的 Plug&#39;n&#39;Play 特性
    为什么现在我更推荐 pnpm 而不是 npm/yarn?
    小米3移动版刷安卓6.0-小米手机3 移动版 Flyme 6.7.11.24R beta
    小米5手机最后一版安卓6.0 MIUI8 6.11.10 小米5s手机最后一版安卓6.0 MIUI8 7.6.8
    vim格式转换
  • 原文地址:https://www.cnblogs.com/eRrsr/p/6098454.html
Copyright © 2011-2022 走看看