1,怎么评价数仓的好坏
2,数仓是怎么组织的?规范是什么?
2,哪个阶段可能会发生shuffle
3,用两个key关联会有几个MR
4,数据倾斜怎么处理的?你是怎么发现的呢? explai查看语句后,里面用的什么算法?
5,
4,删除表发现类似死机现象有什么原因造成的
5,断层排序(实现出排序的效果)
stu_id 是否有效 排序
123 1 1
234 1 2
23456 1 3
324 0 1
213 0 2
657 1 1
8765 1 2
8769 1 3
GROUPING SETS 和group by 的区别
GROUPING SETS在遇到多个条件时,聚合是一次性从数据库中取出所有需要操作的数据,在内存中对数据库进行聚合操作并生成结果。而UNION ALL是多次扫描表,将返回的结果进行UNION操作.这也就是为什么GROUPING SETS和UNION操作所返回的数据顺序是不同的.
grouping sets的执行方式在group by后面有多列的时候,grouping sets带来的性能提升非常明显
1,面试这个岗位你有什么优势?
2,你最难忘/最满意的项目是哪个?
3,你觉得你在上家公司的欠缺是什么?
4,你对我们公司打分能打几分?为什么 有哪些需要改进的地方?
5,相比如现在,你最想在我们公司有哪些成长,最看中什么?
Hive怎么实现行转列:
1、问题
hive如何将
a b 1
a b 2
a b 3
c d 4
c d 5
c d 6
变为:
a b 1,2,3
c d 4,5,6
处理:
select
col1,
col2,
concat_ws(',',collect_set(col3))
from
tmp_bsf_test
group by
col1,col2;