由於 Hive 經驗不多,大致上只能建議您往幾個方向去查:
1. 使用 EXPLAIN 指令,查看Hive 對 HQL 的解析情況
代碼:
explain extended <HQL 語法>
2. 嘗試使用 SUBQUERY 搭配 EXPLAIN 看解析出來的 MapReduce 邏輯有無不同
SELECT COUNT(A.name) FROM ( SELECT A.name FROM A JOIN B ON (A.name = B.name) )
3. 採用不同的 SerDe (SequenceFile , RCFile , .....) :也許會因為資料特性不同而有加速效果。