zoukankan      html  css  js  c++  java
  • Hive_Join语句

    1、等值Join

    Hive支持通常的SQL JOIN语句,但是只支持等值连接,不支持非等值连接。

    案例实操

    (1)根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称

    hive (default)> select e.empno, e.ename, d.deptno, d.dname from emp e join dept d 
    on e.deptno = d.deptno;

    2、表的别名

    1.好处

    (1)使用别名可以简化查询。

    (2)使用表名前缀可以提高执行效率。

    2.案例实操

    合并员工表和部门表

    hive (default)> select e.empno, e.ename, d.deptno from emp e join dept d 
    on e.deptno
    = d.deptno;

    3、内连接

    内连接:只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。

    hive (default)> select e.empno, e.ename, d.deptno from emp e join dept d 
    on e.deptno = d.deptno;

    4、左外连接

    左外连接:JOIN操作符左边表中符合WHERE子句的所有记录将会被返回。

    hive (default)> select e.empno, e.ename, d.deptno from emp e left join dept d 
    on e.deptno = d.deptno;

    5、右外连接

    右外连接:JOIN操作符右边表中符合WHERE子句的所有记录将会被返回。

    hive (default)> select e.empno, e.ename, d.deptno from emp e right join dept d 
    on e.deptno = d.deptno;

    6 满外连接

    满外连接:将会返回所有表中符合WHERE语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话,那么就使用NULL值替代。

    hive (default)> select e.empno, e.ename, d.deptno from emp e full join dept d 
    on e.deptno
    = d.deptno;

    7、多表连接

    注意:连接 n个表,至少需要n-1个连接条件。例如:连接三个表,至少需要两个连接条件。

    1. 数据准备

    1700    Beijing
    1800    London
    1900    Tokyo

    2. 创建位置表

    create table if not exists location(
    loc int,
    loc_name string
    )
    row format delimited fields terminated by '	';

    3. 导入数据

    hive (default)> load data local inpath '/opt/module/datas/location.txt' into table location;

    4. 多表连接查询

    hive (default)>SELECT e.ename, d.dname, l.loc_name
    FROM   emp e 
    JOIN   dept d
    ON     d.deptno = e.deptno 
    JOIN   location l
    ON     d.loc = l.loc;

    大多数情况下,Hive会对每对JOIN连接对象启动一个MapReduce任务。本例中会首先启动一个MapReduce job对表e和表d进行连接操作,然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l;进行连接操作。

    注意:为什么不是表d和表l先进行连接操作呢?这是因为Hive总是按照从左到右的顺序执行的

    优化:当对3个或者更多表进行join连接时,如果每个on子句都使用相同的连接键的话,那么只会产生一个MapReduce job。

    8、笛卡尔积

    1.笛卡尔集会在下面条件下产生

    (1)省略连接条件

    (2)连接条件无效

    (3)所有表中的所有行互相连接

    2.案例实操

    hive (default)> select empno, dname from emp, dept;

    9、连接谓词中不支持or

    hive join目前不支持在on子句中使用谓词or

    hive (default)> select e.empno, e.ename, d.deptno from emp e join dept d 
    on e.deptno
    = d.deptno or e.ename=d.ename; 错误的
    学习中,博客都是自己学习用的笔记,持续更新改正。。。
  • 相关阅读:
    网站备案 应该找域名商还是空间商备案
    备案的问题
    js发送邮件确定email地址
    How to Create a First Shell Script
    虚拟主机和网站空间有什么区别?
    linux 单引号,双引号,反引号
    linux 中的单引号 和双引号有什么区别吗
    linux awk命令详解
    shell中$0,$?,$!等的特殊用法
    深圳测试协会第二次管理层会议成功召开!
  • 原文地址:https://www.cnblogs.com/Tunan-Ki/p/11802104.html
Copyright © 2011-2022 走看看