zoukankan html css js c++ java

Hive 存储类型 StoreType

file_format:
  : SEQUENCEFILE
  | TEXTFILE    -- (Default, depending on hive.default.fileformat configuration)
  | RCFILE      -- (Note: Available in Hive 0.6.0 and later)
  | ORC         -- (Note: Available in Hive 0.11.0 and later)
  | PARQUET     -- (Note: Available in Hive 0.13.0 and later)
  | AVRO        -- (Note: Available in Hive 0.14.0 and later)
  | INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname

TEXTFILE 文本文件
SEQUENCEFILE 序列化文件（compressed） 压缩存储可提升查询效率并节省磁盘空间。

经过Gzip 或 Bzip2压缩后的文本文件可直接以TEXTFILE的格式存储至HIVE表中，查询时会自动检测该压缩文件并在线解压缩。

CREATE TABLE raw (line STRING)
   ROW FORMAT DELIMITED FIELDS TERMINATED BY '	' LINES TERMINATED BY '
';
 
LOAD DATA LOCAL INPATH '/tmp/weblogs/20090603-access.log.gz' INTO TABLE raw;

上表存储为TEXTFILE（默认），但以这种方式进行存储时，hadoop无法将文件进行分区以至于不支持mapreduce的并行计算。

推荐做法是将该表的数据导入到另一个SEQUENCEFILE的表中，其压缩后仍支持并行计算

CREATE TABLE raw (line STRING)
   ROW FORMAT DELIMITED FIELDS TERMINATED BY '	' LINES TERMINATED BY '
';
 
CREATE TABLE raw_sequence (line STRING)
   STORED AS SEQUENCEFILE;
 
LOAD DATA LOCAL INPATH '/tmp/weblogs/20090603-access.log.gz' INTO TABLE raw;
 
SET hive.exec.compress.output=true;
SET io.seqfile.compression.type=BLOCK; -- NONE/RECORD/BLOCK (see below)
INSERT OVERWRITE TABLE raw_sequence SELECT * FROM raw;

io.seqfile.compression.type 定义如何压缩

查看全文

相关阅读:
【算法】三角形最小路径债务
 【阿米巴】债务
 【JTA】JTA允许应用程序执行分布式事务处理
 【算法】代码面试最常用的10大算法
 【Git 】$ ./gradlew idea 构建一个idea的项目
 【git】切换分支获取代码
 【springmvc Request】 springmvc请求接收参数的几种方法
 【gradle】入门
 项目经理眼中优秀开发人员的标准
 MAC系统介绍

原文地址：https://www.cnblogs.com/Dhouse/p/5892984.html