[Hive_8] Hive 设计优化

zoukankan html css js c++ java

[Hive_8] Hive 设计优化
0. 说明

　　在 Hive 中，数据库是一个文件夹，表也是文件夹

　　partition，是一个字段，是文件

　　前提：在 Hive 进行 where 子句查询的时候，会将条件语句和全表进行比对，搜索出所需的数据，性能极差，partition 就是为了避免全表扫描

　　bucket（桶表）

　　避免多级分区导致分区目录过多，以指定字段进行 hash 分桶

　　新型数据结构，以文件段的形式在分区表内部按照指定字段进行分隔

　　重要特性：优化 join 的速度

1. 分区

　　1.1 创建非分区表 user_nopar
create table user_nopar (id int, name string, age int, province string, city string) row format delimited fields terminated by ' ';
　　1.2 加载数据
load data local inpath '/home/centos/files/user_nopar.txt' into table user_nopar;
　　1.3 创建分区表 user_par
create table user_par(id int, name string, age int) partitioned by(province string, city string) row format delimited fields terminated by ' ';
　　1.4 手动添加分区
　　alter table user_par add partition(province='beijing',city='beijing');
　　1.5 将数据加载到指定分区(分区可以不存在)
　　load data local inpath '/home/centos/files/customers.txt'
　　into table user_par
　　partition (province='shanxi',city='taiyuan');
　　1.6 将表清空
truncate table user_par;
　　1.7 设置动态分区非严格模式，无需指定静态分区
　　set hive.exec.dynamic.partition.mode=nonstrict;
　　1.8 插入数据动态指定分区
insert into user_par partition(province,city) select * from user_nopar;
　　(PS: 在动态插入分区字段时注意，字段顺序必须要和分区顺序保持一致，和字段名称无关)

　　1.9 删除分区
alter table user_par2 drop partition(province='sichuan');
　　1.10 insert 数据到分区表
insert into user_par2 partition(province='USA', city='NewYork') select 10,'jerry',30;
　　1.11 查看指定表的分区
　　show partitions user_par2;
　　1.12 建立分区的依据
1. 以日期或时间进行分区比如 year, month, and day
2. 以位置进行分区比如 country, territory, state, and city
3. 以业务逻辑进行分区
2. 分桶

　　2.1 创建桶表
create table user_bucket(id int, name string, age int) CLUSTERED BY (id) INTO 2 BUCKETS row format delimited fields terminated by ' ';
　　2.2 在桶表中转储数据
　　insert into user_bucket select id, name , age from user_par2;
　　2.3 查看 HDFS 中桶表的数据结构

　　2.4 将桶表和分区表一同使用建立新表 user_new, 分区在前
create table user_new(id int, name string, age int) partitioned by (province string, city string) CLUSTERED BY (id) INTO 2 BUCKETS row format delimited fields terminated by ' ';
　　2.5 通过 load 加载数据

　　load 并不会修改表中的数据结构，在桶表中的体现，就是没有将数据进行分段
load data local inpath '/home/centos/files/customers.txt' into table user_new partition (province='sichaun',city='chengdu');
　　2.6 insert 数据
insert into user_new partition(province='USA', city='NewYork') select 10,'jerry',30;
　　2.7 指定分桶字段

　　通过 join 字段进行桶字段的确定，在以下场景中分桶字段 a => no , b => uid
SELECT a.no, a.name, b.oname, b.oprice from customers a inner join orders b on a.no=b.uid;
3. 内部表 & 外部表

　　3.1 内部表

　　删除内部表的同时也会删除元数据，删除真实数据
　　MANAGED_TABLE 也叫托管表，是默认表类型

　　3.2 外部表

　　删除外部表的同时只删除元数据，不删除真实数据
　　场景：为了防止 drop 或者 truncate 表的时候数据丢失的问题
　　创建 external table
create external table user_external(id int, name string, age int); insert into user_external select id,name,age from user_par;
查看全文

相关阅读:
基于jQuery的上下无缝滚动应用(单行或多行)
表单验证
 中国剩余定理 ( 的学习 )
扩展欧几里德算法--学习笔记
 Vijos P1794 文化之旅
 1336 : Matrix Sum (hihocoder)
nyoj 1030 hihocoder 1338
多重邻接表
 图的存储 ( 十字链表 )
01背包的变形

原文地址：https://www.cnblogs.com/share23/p/10225549.html

[Hive_8] Hive 设计优化

0. 说明

1. 分区

1.1 创建非分区表 user_nopar

1.2 加载数据

1.3 创建分区表 user_par

1.4 手动添加分区

1.5 将数据加载到指定分区(分区可以不存在)

1.6 将表清空

1.7 设置动态分区非严格模式，无需指定静态分区

1.8 插入数据动态指定分区

1.9 删除分区

1.10 insert 数据到分区表

1.11 查看指定表的分区

1.12 建立分区的依据

2. 分桶

2.1 创建桶表

2.2 在桶表中转储数据

2.3 查看 HDFS 中桶表的数据结构

2.4 将桶表和分区表一同使用建立新表 user_new, 分区在前

2.5 通过 load 加载数据

2.6 insert 数据

2.7 指定分桶字段

3. 内部表 & 外部表

3.1 内部表

3.2 外部表

　　1.1 创建非分区表 user_nopar

　　1.2 加载数据

　　1.3 创建分区表 user_par

　　1.4 手动添加分区

　　1.5 将数据加载到指定分区(分区可以不存在)

　　1.6 将表清空

　　1.7 设置动态分区非严格模式，无需指定静态分区

　　1.8 插入数据动态指定分区

　　1.9 删除分区

　　1.10 insert 数据到分区表

　　1.11 查看指定表的分区

　　1.12 建立分区的依据

　　2.1 创建桶表

　　2.2 在桶表中转储数据

　　2.3 查看 HDFS 中桶表的数据结构

　　2.4 将桶表和分区表一同使用建立新表 user_new, 分区在前

　　2.5 通过 load 加载数据

　　2.6 insert 数据

　　2.7 指定分桶字段

　　3.1 内部表

　　3.2 外部表