Hive 查询语句的一些优化

zoukankan html css js c++ java

Hive 查询语句的一些优化

声明：本文内容中的效率对比都是参照大佬博客写的，我只是一个搬运工。。。

group by 和 distinct 去重

区别

俩者都有去重的作用，用法上当然也有区别：

distinct：

distinct是将所有查询的字段进行对比去重，所有字段都完全相同才会去重

　　　　distinct 必须放在查询字段开头进行查询，这样就会导致如果后面还有字段，解析器会默认将它也划入去重的字段中，如 select distinct name,id from user，只有名字和id相同才会去重

所以在实际应用中，我们经常结合count （）来返回不重复数据的条数————count(distinct id)

group by：

group by 根据字段进行去重，字段相同就会去重

如果想进行统计行数的操作，还得再嵌套一个表

就效率而言，

不管是加不加索引 group by 都比 distinct 快。因此使用的时候建议选 group by

参考链接：

https://www.cnblogs.com/zox2011/archive/2012/09/12/2681797.html

https://blog.csdn.net/dm_source/article/details/80246586

count （*）、count（1）、count （column）

首先讲一下用法：

（1）count(*)---包括所有列，返回表中的记录数，相当于统计表的行数，在统计结果的时候，不会忽略列值为NULL的记录。

（2）count(1)---忽略所有列，1表示一个固定值，也可以用count(2)、count(3)代替，在统计结果的时候，不会忽略列值为NULL的记录。与count（*）作用相同

（3）count(列名)---只包括列名指定列，返回指定列的记录数，在统计结果的时候，会忽略列值为NULL的记录（不包括空字符串和0），即列值为NULL的记录不统计在内。

（4）count(distinct 列名)---只包括列名指定列，返回指定列的不同值的记录数，在统计结果的时候，在统计结果的时候，会忽略列值为NULL的记录（不包括空字符串和0），即列值为NULL的记录不统计在内。

执行效率比较：

（1）如果列为主键，count(列名)效率优于count(1)

（2）如果列不为主键，count(1)效率优于count(列名)

（3）如果表中存在主键，count(主键列名)效率最优

（4）如果表中只有一列，则count(*)效率最优

（5）如果表有多列，且不存在主键，则count(1)效率优于count(*)

参考博客https://www.cnblogs.com/-flq/p/10302965.html

查看全文

相关阅读:
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
 基于SpringBoot开发一个Restful服务，实现增删改查功能
 大数据学习系列之八----- Hadoop、Spark、HBase、Hive搭建环境遇到的错误以及解决方法
 一个两年java程序猿的2017个人总结
 大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
 大数据学习系列之六 ----- Hadoop+Spark环境搭建
 大数据学习系列之五 ----- Hive整合HBase图文详解
 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
使用VMware安装linux虚拟机以及相关配置
 大数据学习系列之三 ----- HBase Java Api 图文详解

原文地址：https://www.cnblogs.com/yangxusun9/p/12686007.html

Hive 查询语句的一些优化

group by 和 distinct 去重

区别

distinct：

distinct是将所有查询的字段进行对比去重，所有字段都完全相同才会去重

distinct 必须放在查询字段开头进行查询，这样就会导致如果后面还有字段，解析器会默认将它也划入去重的字段中，如 select distinct name,id from user，只有名字和id相同才会去重

group by：

group by 根据字段进行去重，字段相同就会去重

count （*） 、count（1）、count （column）

　　　　distinct 必须放在查询字段开头进行查询，这样就会导致如果后面还有字段，解析器会默认将它也划入去重的字段中，如 select distinct name,id from user，只有名字和id相同才会去重

count （*）、count（1）、count （column）