zoukankan      html  css  js  c++  java
  • Hive Group By 常见错误

    Expression not in GROUP BY key ‘ xxx’

    遇到这么一个需求,输入数据为一个ID对应多个name,要求输出数据为ID是唯一的,name随便取一个就可以。

    执行以下hive ql语句:

    会报错:

    查了一下,HIVE有这么一个函数collect_set,类似于mysql的group_concat函数,把每个分组的其他字段,按照逗号进行拼接,得到一个最终字符串:

    将上述的QL语句改一下:

    结果是这样的:

    这个时候,我们就可以针对第二列做一些计数、求和操作,分别对应到Hive的聚合函数count、sum。

    对应到本文的目的,直接从数组获取第一个元素就达到目的了,这样做:

    结果如下:

    总结:

    1. Hive不允许直接访问非group by字段;
    2. 对于非group by字段,可以用Hive的collect_set函数收集这些字段,返回一个数组;
    3. 使用数字下标,可以直接访问数组中的元素;

    参考文章:http://wangjunle23.blog.163.com/blog/static/117838171201310222309391/

    本文地址:http://www.crazyant.net/1600.html

  • 相关阅读:
    [note]抽象类和接口的相同点和不同点
    百度竞价门再跟踪:违规医疗广告数量仍大幅增加
    获取拼音的第一个字母的方法
    一个分页存储过程
    正则表达式(Regular Expressions)
    四个故事
    Oracle 常用
    我很喜欢的一个[帖子]:从现在起,我开始还债。
    DataGrid 中的 HyperLinkColumn (可以携带多个Get参数)
    100 statements in English.
  • 原文地址:https://www.cnblogs.com/Allen-rg/p/9371100.html
Copyright © 2011-2022 走看看