zoukankan      html  css  js  c++  java
  • hive的union,hive连接查询的优化,mapjoin的设置参数

    1.union

           union的使用场景

                     当hive使用连接查询时它有一个必要的限制,必须要两个结果集有关系才能进行连接,

                     当两个结果集没有任何关系时可以用union关键字进行两个结果集的集合展示

           union的特性

                      union在查出结果集会对结果集进行排序,这是mapreduce的特性

                      union使用时候可以去重,如果不希望去重可以使用union all,但是union all不排序

                      union使用的前提是每个结果集使用的表头必须是相同的字段

    2.hiveSQL的优化措施

           hive中使用mapjoin提高sql语句的执行效率的原理是:它会把小表全部读入内存中,在map的时候

           直接拿另外一张表的数据和内存中的数据做匹配,进行join操作,这样省去了reduce

          (1)设置参数来优化

                       在同一个sql中的不同job是否可以同时运行,加快SQL执行的速度

                       set hive.exec.parallel=true;

                       增加同一个sql允许并行任务的最大县城数

                       set hive.exec.parallel.thread.number=8;

           (2)用mapjoin的设置参数

                        是否忽略mapjoin标记

                        hive.ignore.mapjoin.hint=true

                        开启自动mapjoin

                        hive.auto.convert.join = true

             (3)mapjoin的配置参数

                       set hive.auto.convert.join=true;    将小表刷入内存中,默认true

                       set hive.ignore.mapjoin.hint=true;   是否忽略mapjoin hint  即mapjoin标记,默认true

                       set hive.mapjoin.smalltable.filesize=2500000;    表示2500000以下的都叫小表

             (4)mapjoin的注意实现

                        left outer join的左边必须是大表

                        right outer join的右表必须是大表

                        inner join左表或右表均可以是大表

                        full outer  join不能使用mapjoin

                        mapjoin支持小表为子查询

                        mapjoin可以使用不等值连接或者使用or连接多个条件

  • 相关阅读:
    Django之信号
    Django缓存
    git简介
    Django request.path
    Django loaction.pathname 属性
    Ajax
    Anaconda 执行命令报ssl错误
    几行代码快速去掉迅雷临时文件的后缀
    win7 64 位安装 python,提示: 0x80240017-未指定的错误
    系统变量 %USERPROFILE%
  • 原文地址:https://www.cnblogs.com/simpledu/p/14463111.html
Copyright © 2011-2022 走看看