zoukankan      html  css  js  c++  java
  • Hive join优化

    MapJoin是Hive的一种优化操作,其适用于小表JOIN大表的场景,由于表的JOIN操作是在Map端且在内存进行的,所以其并不需要启动Reduce任务也就不需要经过shuffle阶段,从而能在一定程度上节省资源提高JOIN效率

    方法一:

    在Hive0.11前,必须使用MAPJOIN来标记显示地启动该优化操作,由于其需要将小表加载进内存所以要注意小表的大小

    SELECT /*+ MAPJOIN(smalltable)*/  .key,value

    FROM smalltable JOIN bigtable ON smalltable.key = bigtable.key

    方法二:

    在Hive0.11后,Hive默认启动该优化,也就是不在需要显示的使用MAPJOIN标记,其会在必要的时候触发该优化操作将普通JOIN转换成MapJoin,可以通过以下两个属性来设置该优化的触发时机

    hive.auto.convert.join

    默认值为true,自动开户MAPJOIN优化

    hive.mapjoin.smalltable.filesize

    默认值为2500000(25M),通过配置该属性来确定使用该优化的表的大小,如果表的大小小于此值就会被加载进内存中

    0: jdbc:hive2://localhost:10000/cookie> set hive.auto.convert.join;


     hive.auto.convert.join=true 

    1 row selected (0.418 seconds)


    0: jdbc:hive2://localhost:10000/cookie> set hive.mapjoin.smalltable.filesize;


     hive.mapjoin.smalltable.filesize=25000000 

    1 row selected (0.022 seconds)

    方法一:
    在Hive0.11前,必须使用MAPJOIN来标记显示地启动该优化操作,由于其需要将小表加载进内存所以要注意小表的大小
    SELECT /*+ MAPJOIN(smalltable)*/  .key,value
    FROM smalltable JOIN bigtable ON smalltable.key = bigtable.key
  • 相关阅读:
    ryu 下发流表配置
    openstack kolla 部署---不同的节点采用不同的物理接口
    kolla 安装
    Ubuntu add-apt-repository: command not found
    大前端发展趋势
    这些优化技巧可以避免我们在 JS 中过多的使用 IF 语句
    asap异步执行实现原理
    为什么 JS 对象内部属性遍历的顺序乱了
    你可能忽略的 async/await 问题
    深入浅出JS原型链
  • 原文地址:https://www.cnblogs.com/songyuejie/p/12675167.html
Copyright © 2011-2022 走看看