Hive数仓中建表尽量都采用压缩,采用压缩能极大的节省存储空间,减少成本消耗。
一般建表采用orc snappy压缩格式。如果load数据或者sqoop导入数据到hive中,不能直接使用压缩,可以建临时中间表,查询插入到压缩表中。总之,能节省成本就节省成本,压缩是个不错的选择。
同时也支持对表后期更改为压缩格式。
示例:
set更改压缩:
alter table 表名称 set tblproperties('orc.compress'='SNAPPY')
注:压缩snappy大小写敏感,根据实际情况而定 。
一般建表采用方式为:
create table tmp (name string) stored as orc tblproperties ('orc.compress' = 'SNAPPY');