spark sql correlated scalar subqueries must be aggregated 错误解决

zoukankan html css js c++ java

spark sql correlated scalar subqueries must be aggregated 错误解决
最近在客户中使用spark sql 做一些表报处理，但是在做数据关联时，老是遇到 “correlated scalar subqueries must be aggregated” 错误

举一个例子，这个sql 在oracle 或者 postgresql 都是可以正常运行的，但是在spark sql 就会报错“correlated scalar subqueries must be aggregated”
SELECT A.dep_id, A.employee_id, A.age, (SELECT age FROM employee B WHERE A.dep_id = B.dep_id) max_age FROM employee A ORDER BY 1,2
在参考博客参考博客中就有一个解决方案
SELECT A.dep_id, A.employee_id, A.age, (SELECT MAX(age) FROM employee B WHERE A.dep_id < B.dep_id) max_age FROM employee A ORDER BY 1,2
- 问题分析
实际上，发生问题的地方是子查询 “SELECT age FROM employee B WHERE A.dep_id = B.dep_id”。

为什么会发生这个错误呢？

因为在spark sql 中，执行select 的关键字地方，如果sql 中依然包括子查询，这个时候有一个问题，就是如果子查询返回多个结果集会有不可预期的结果，所以就会报错：

“correlated scalar subqueries must be aggregated”。

然后解决的思路就是简单了，如果spark sql 担心select 关键字中当有子查询并且会返回多个记录，那么我们只要保证子查询只会返回一个结果，就能够完美解决这个问题，所以我们改造的思路就是在子查询中，增加 Max() 函数，这样就可以确保子查询返回结果只有一个。
查看全文

相关阅读:
day02_1spring3
day01_2spring3
动态代理的介绍
 day04_1hibernate
day03_2hibernate
Oracle11gR2安装完成后不手动配置监听的使用方法
 css的样式和选择符的优先权
 调用css时，link和@import url的区别
 jquery 获取和修改img标签的src属性
 正则表达式实现6-10位密码由数字和字母混合组成

原文地址：https://www.cnblogs.com/chenfool/p/11179438.html

最新文章
扩展方法
 整理笔记学习
 JS笔记03
一天一篇博客
 JS笔记02
JS笔记01
别特么偷懒，宁可多麻烦
 MySQL笔记 02
css笔记01
HTML笔记01