zoukankan      html  css  js  c++  java
  • hive 连接(join)查询

    1、内连接

    hive> select b.*,a.name from userinfo2 b,userinfo a  where a.userid=b.userid;

    hive> select b.*,a.name from userinfo2 b join userinfo a on a.userid=b.userid;

    2、外连接

    #左联
    select
    b.*,a.name from userinfo2 b left join userinfo a on a.userid=b.userid; #右联 hive> select a.*,b.name from userinfo b right join userinfo2 a on a.userid=b.userid;

    全连接,两边都全显示

    hive> select a.*,b.name from userinfo b right join userinfo2 a on a.userid=b.userid;

    3、半连接

    hive> select * from userinfo2 a where a.userid in (select userid from userinfo);
    
    #left semi join必须遵守一个规则:右表(userinfo)只能在on子句里出现,也不能在where子句以及select中出现
    hive> select * from userinfo2 a left semi join userinfo b on (a.userid=b.userid);

    4、map连接

    在之前的内联查询中:
    select b.*,a.name from userinfo2 b join userinfo a on a.userid=b.userid;
    如果有一个连接表小到可以放入内存,例如userinfo表,hive就可以较小的表放入每个mapper的内存中来执行连接,这就是map连接。
    
    执行这个查询不使用reducer,因此这个查询对right和full join无效,因为只有在对所有输入上进行聚集的步骤(即reduce)才能检测到哪个数据行无法匹配。
    
    map连接可以利用分桶表,需要设置hive.optimize.bucketmapjoin=true

     5、子查询,Hive只支持在FROM子句中使用子查询,子查询必须有名字,并且列必须唯一:SELECT ... FROM(subquery) name ...

    某些情况子查询可以出现在where子句中,本文中第三点半连接就是子查询,子查询可以出现在where的in或者是exists中。

    #子查询的列名必须有唯一的列名。
    hive> select year,avg(max_data) from (select year,max(data) as max_data from weather_data group by year) mt group by year;
  • 相关阅读:
    修改oracle用户密码永不过期
    mysql中的union操作(整理)
    mysql条件查询and or使用实例及优先级介绍
    vue实现购物清单列表添加删除
    vue实现全选框效果
    vue实现穿梭框效果
    legend3---13、vue是真的好用
    黑马在线教育项目---34-37、webuploader实现用户头像的异步上传
    lareval重命名created_at和updated_at字段
    js的dom操作(整理)(转)
  • 原文地址:https://www.cnblogs.com/asker009/p/10503438.html
Copyright © 2011-2022 走看看