zoukankan      html  css  js  c++  java
  • Hadoop_常用存储与压缩格式

    HDFS文件格式

    file_format:
      TEXTFILE    默认格式
      RCFILE     hive 0.6.0 和以后的版本
      ORC       hive 0.11.0 和以后的版本
      PARQUET     hive 0.13.0 和以后的版本,该数据格式企业中最常用
      AVRO      hive 0.14.0 和以后的版本        
    

     数据存储的方式

    1. 按行存储 textfile
    2. 按列存储 orc/parqurt
      --orcfile
        每列数据有类似于元数据的索引信息,可以确定列内容,需要某列信息时可以直接锁定列内容,效率优于按行存储
        压缩出来的文件比例最小,以时间换存储
      --parquet
        比较复杂,支持嵌套数据结构和高效其种类丰富的算法(以应对不同值分布特征的压缩)
        压缩率不如orcfile,时间与压缩比适中
      压缩率
      TEXTFILE(不压缩) RCFILE(14%) parquet(62%) orcfile(78%) 其中ORCFILE是RCFILE一个升级
    

     常见的压缩技术

    1. 压缩格式: bzip2,gzip,lzo,lz4,snappy等
    2. 压缩比: bzip2>gzip>lzo bzip2最节省存储空间
    3. 解压速度: lzo>gzip>bzip2 lzo解压速度最快
    4. mapreduce
        --> input --> map --> shuffle --> reduce --> output
          --> shuffle
            --> map shuffle
              --> spill
              --> partition: 决定map的输出交给那个reduce处理
              --> sort: 两种方式,WritableComparable/Comparable
              --> combiner: map端的reduce
              --> 压缩
            --> reduece shuffle
              -->merger
              --> 分组: 将相同key的value进行合并			
    5. hadoop中的压缩
      --> 减少网络IO
      --> 减少了磁盘IO存储
      --> 注意压缩必须有可分割性(在map输出经过shuffle到reduce时需要解压缩,保证单个数据还可以被解压)
      --> hadoop支持的压缩格式:zlib/gzip/bzip2/lzo/lz4/snappy
    6. hadoop中编译snappy压缩
      --> Linux安装snappy库 
      --> 下载hadoop-snappy-master.zip 编译生成支持hadoop的snappy.so
      --> 将生成的jar包放到hadoop目录下的lib
      --> 添加配置文件
      core-site.xml
        <property>
          <name>io.compression.codecs</name>
          <value>
            org.apache.hadoop.io.compress.GzipCodec,
            org.apache.hadoop.io.compress.DefaultCodec,
            org.apache.hadoop.io.compress.BZip2Codec,
            org.apache.hadoop.io.compress.SnappyCodec
          </value>
        </property>
    
  • 相关阅读:
    驱动模块的加载与卸载
    设备驱动操作函数
    Ubuntu驱动程序开发5-根文件系统构建
    Ubuntu驱动程序开发4-内核移植和配置
    Ubuntu驱动程序开发3-Uboot移植和配置
    bootargs环境变量解析
    Shell脚本(2)
    Shell脚本(1)
    Linux环境变量
    Linux系统中ps -l命令显示的英文含义
  • 原文地址:https://www.cnblogs.com/eRrsr/p/6098454.html
Copyright © 2011-2022 走看看