zoukankan      html  css  js  c++  java
  • Hive 查询语句的一些优化

    声明:本文内容中的效率对比都是参照大佬博客写的,我只是一个搬运工。。。

    group  by  和  distinct 去重

    区别

    俩者都有去重的作用,用法上当然也有区别:

    distinct:

    distinct是将所有查询的字段进行对比去重,所有字段都完全相同才会去重

        distinct 必须放在查询字段开头进行查询,这样就会导致如果后面还有字段,解析器会默认将它也划入去重的字段中,如 select distinct name,id from user,只有名字和id相同才会去重

    所以在实际应用中,我们经常结合count ()来返回不重复数据的条数————count(distinct id)

    group by:

    group by 根据字段进行去重,字段相同就会去重

    如果想进行统计行数的操作,还得再嵌套一个表

    就效率而言,

    不管是加不加索引 group by 都比 distinct 快。因此使用的时候建议选 group by

    参考链接:

    https://www.cnblogs.com/zox2011/archive/2012/09/12/2681797.html

    https://blog.csdn.net/dm_source/article/details/80246586

    count (*) 、count(1)、count (column)

    首先讲一下用法:

    (1)count(*)---包括所有列,返回表中的记录数,相当于统计表的行数,在统计结果的时候,不会忽略列值为NULL的记录。

    (2)count(1)---忽略所有列,1表示一个固定值,也可以用count(2)、count(3)代替,在统计结果的时候,不会忽略列值为NULL的记录。与count(*)作用相同

    (3)count(列名)---只包括列名指定列,返回指定列的记录数,在统计结果的时候,会忽略列值为NULL的记录(不包括空字符串和0),即列值为NULL的记录不统计在内。

    (4)count(distinct 列名)---只包括列名指定列,返回指定列的不同值的记录数,在统计结果的时候,在统计结果的时候,会忽略列值为NULL的记录(不包括空字符串和0),即列值为NULL的记录不统计在内。

    执行效率比较:

    (1)如果列为主键,count(列名)效率优于count(1)

    (2)如果列不为主键,count(1)效率优于count(列名)

    (3)如果表中存在主键,count(主键列名)效率最优

    (4)如果表中只有一列,则count(*)效率最优

    (5)如果表有多列,且不存在主键,则count(1)效率优于count(*)

    参考博客https://www.cnblogs.com/-flq/p/10302965.html

  • 相关阅读:
    Python(二)
    Python(三)
    Python(一)
    shell(计算机壳层)(一)
    web.xml中 /和/*的区别
    dubbo-admin监控搭建2.6.0版本
    Centos7安装maven
    Dubbo启动时qos-server can not bind localhost:22222错误解决
    Centos7安装zookeeper
    mysql5和mysql8连接数据库的配置
  • 原文地址:https://www.cnblogs.com/yangxusun9/p/12686007.html
Copyright © 2011-2022 走看看