声明:本文内容中的效率对比都是参照大佬博客写的,我只是一个搬运工。。。
group by 和 distinct 去重
区别
俩者都有去重的作用,用法上当然也有区别:
distinct:
distinct是将所有查询的字段进行对比去重,所有字段都完全相同才会去重
distinct 必须放在查询字段开头进行查询,这样就会导致如果后面还有字段,解析器会默认将它也划入去重的字段中,如 select distinct name,id from user,只有名字和id相同才会去重
所以在实际应用中,我们经常结合count ()来返回不重复数据的条数————count(distinct id)
group by:
group by 根据字段进行去重,字段相同就会去重
如果想进行统计行数的操作,还得再嵌套一个表
就效率而言,
不管是加不加索引 group by 都比 distinct 快。因此使用的时候建议选 group by
参考链接:
https://www.cnblogs.com/zox2011/archive/2012/09/12/2681797.html
https://blog.csdn.net/dm_source/article/details/80246586
count (*) 、count(1)、count (column)
首先讲一下用法:
(1)count(*)---包括所有列,返回表中的记录数,相当于统计表的行数,在统计结果的时候,不会忽略列值为NULL的记录。
(2)count(1)---忽略所有列,1表示一个固定值,也可以用count(2)、count(3)代替,在统计结果的时候,不会忽略列值为NULL的记录。与count(*)作用相同
(3)count(列名)---只包括列名指定列,返回指定列的记录数,在统计结果的时候,会忽略列值为NULL的记录(不包括空字符串和0),即列值为NULL的记录不统计在内。
(4)count(distinct 列名)---只包括列名指定列,返回指定列的不同值的记录数,在统计结果的时候,在统计结果的时候,会忽略列值为NULL的记录(不包括空字符串和0),即列值为NULL的记录不统计在内。
执行效率比较:
(1)如果列为主键,count(列名)效率优于count(1)
(2)如果列不为主键,count(1)效率优于count(列名)
(3)如果表中存在主键,count(主键列名)效率最优
(4)如果表中只有一列,则count(*)效率最优
(5)如果表有多列,且不存在主键,则count(1)效率优于count(*)