zoukankan html css js c++ java

Hive学习01-快速了解hive以及常见的面试问题

cloudera公司发行的CDH中 
hive的有三种角色：gateway、hiveserver2、hive metastore三种角色
其中hive metastore主要用于客户端连接 默认端口
hive  server2 主要用于jdbc连接（很多bi产品都靠jdbc连接，比如hue，帆软等软件）
gateway 是client的一个代理，主要用于更新hive的客户端配置

apache社区的hive中也分为客户端，hiveserver2和hive metastore
启动 metastore ：   hive --service metastore 

启动hive ：hive --service hiveserver2

理论：

什么是hive：

1. Hive旨在实现轻松的数据汇总，即时查询和分析大量数据。

2. 它提供了SQL，使用户可以轻松地进行临时查询，汇总和数据分析。

3. Hive可以使用用户定义函数（UDF）。

4. 使用率：实际开发中，80%操作使用Hive完成，20%使用MapReduce。

5. 与MapReduce相比，Hive特点：稳定、代码精简、易于维护。

6. HiveQL：未严格实现SQL-92标准。

7. 本质：将HiveQL转化为一个或多个MapReduce作业并在集群上运行，但并不是所有HiveQL都会转为MapReduce作业。

常见问题：

1、hive 内部表：加载数据到 hive 所在的 hdfs 目录，删除时，元数据和数据文件都删除
　 hive外部表：不加载数据到 hive 所在的 hdfs 目录，删除时，只删除表结构

2、分区作用：防止数据倾斜

3、sort by和order by之间的区别？distribute by？cluster by？ group by？

sort by 是单个reduce内部的排序；

order by 是全局排序，只触发一个reduce

distribute by ：按照指定的字段对数据进行划分输出到不同的reduce中，通常与sort by 连用

cluster by ：除了具有distribute by 的功能外还兼具sort by 的功能

group  by 通常用于做聚合函数操作 count（*） sum（xx）

4.Hive中追加导入数据的4种方式是什么

#hdfs
load data inpath 'hdfs://xxx/xxx' into (overwrite) table a
#本地
load data local inpath '/xxx/xx' into (overwrite) table a
#查询导入
create table student as select * from student1;
#查询结果导入
insert (overwrite) into table student select user_id,user_name from student2;

5.hive导出数据

#导出到hdfs 会递归创建文件夹 (注意文件夹如果存在，数据会被清空)高危操作
insert overwrite directory '/liuzhimin/test2/a' row format delimited fields terminated by '	' select * from u_data_new;
#导出到本地（高危操作）
insert overwrite local directory '/home/dip/a' row format delimited fields terminated by '	' select * from u_data_new;
#bash
hive -e "use cslc; select * from u_data_new ;"> a.txt

6.数据倾斜怎么办？

倾斜原因： map输出数据按Key Hash分配到reduce中,由于key分布不均匀、或者业务数据本身的特点。等原因造成的reduce上的数据量差异过大。key分布不均匀、业务数据本身的特性、SQL语句造成数据倾斜；

解决办法：①参数调节：
set hive.map.aggr=true
set hive.groupby.skewindata=true
有数据倾斜的时候进行负载均衡，当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，
并输出结果，这样处理的结果是相同Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；
第二个MR Job在根据预处理的数据结果按照 Group By Key 分布到Reduce中(这个过程可以保证相同的 Group By Key 被分布到同一个Reduce中)，最后完成最终的聚合操作。

②SQL语句调节：
大小表join，小表进内存；

大表Join大表：把空值的Key变成一个字符串加上一个随机数，把倾斜的数据分到不同的reduce上，由于null值关联不上，处理后并不影响最终的结果

count distinct大量相同特殊值：count distinct时，将值为空的情况单独处理，如果是计算count distinct，可以不用处理，直接过滤，在做后结果中加1。
如果还有其他计算，需要进行group by，可以先将值为空的记录单独处理，再和其他计算结果进行union.

bin [bɪn] 详细X

基本翻译

n. 垃圾箱；箱子，容器；瓶酒搁架；统计堆栈；（非正式）精神病院

v. 把……扔进垃圾桶；把……放入容器中；拒绝；把（酒等）放进搁架；把（数据）归入统计堆

n. (Bin) （美、意）本（人名）

网络释义

Hyun Bin: 玄彬

Bin Packing: 装箱问题

garbage bin: 垃圾箱

查看全文

相关阅读:
HBase Cassandra比较
 重新认识HBase，Cassandra列存储——本质是还是行存储，只是可以动态改变列（每行对应的数据字段）数量而已，当心不是parquet
HBase底层存储原理——我靠，和cassandra本质上没有区别啊！都是kv 列存储，只是一个是p2p另一个是集中式而已！
Cassandra 数据模型设计，根据你的查询来制定设计——反范式设计本质：空间换时间
 【LeetCode】【Python解决问题的方法】Best Time to Buy and Sell Stock II
LVM逻辑卷管理命令
 Java引进和应用的包装类
 Android 4.0新组件：GridLayout详细说明
 【剑指offer】打印单列表从尾部到头部
 原因以及如何避免产生僵尸进程

原文地址：https://www.cnblogs.com/students/p/9594484.html