Hive join优化 - 走看看

zoukankan html css js c++ java

Hive join优化
MapJoin是Hive的一种优化操作，其适用于小表JOIN大表的场景，由于表的JOIN操作是在Map端且在内存进行的，所以其并不需要启动Reduce任务也就不需要经过shuffle阶段，从而能在一定程度上节省资源提高JOIN效率

方法一：

在Hive0.11前，必须使用MAPJOIN来标记显示地启动该优化操作，由于其需要将小表加载进内存所以要注意小表的大小

SELECT /*+ MAPJOIN(smalltable)*/ .key,value

FROM smalltable JOIN bigtable ON smalltable.key = bigtable.key

方法二：

在Hive0.11后，Hive默认启动该优化，也就是不在需要显示的使用MAPJOIN标记，其会在必要的时候触发该优化操作将普通JOIN转换成MapJoin，可以通过以下两个属性来设置该优化的触发时机

hive.auto.convert.join

默认值为true，自动开户MAPJOIN优化

hive.mapjoin.smalltable.filesize

默认值为2500000(25M),通过配置该属性来确定使用该优化的表的大小，如果表的大小小于此值就会被加载进内存中

0: jdbc:hive2://localhost:10000/cookie> set hive.auto.convert.join;

hive.auto.convert.join=true

1 row selected (0.418 seconds)

0: jdbc:hive2://localhost:10000/cookie> set hive.mapjoin.smalltable.filesize;

hive.mapjoin.smalltable.filesize=25000000

1 row selected (0.022 seconds)

方法一：

在Hive0.11前，必须使用MAPJOIN来标记显示地启动该优化操作，由于其需要将小表加载进内存所以要注意小表的大小
SELECT /*+ MAPJOIN(smalltable)*/ .key,value FROM smalltable JOIN bigtable ON smalltable.key = bigtable.key
查看全文

相关阅读:
控制器生命周期逻辑调用
 数据持久化
 Mac屏幕录制Gif
iOS开发应用上架必读最新苹果审核规则
 过滤字符串中的非汉字、字母、数字
 文字加描边
 博客全局修改需求
 iOS Xcode12 运行iOS15系统程序卡在启动页要等很久才能进入主页
 macOS环境：安装Go（21-10-22完）
关闭WIN10自动配置 IPV4 地址 169.254解决方法

原文地址：https://www.cnblogs.com/songyuejie/p/12675167.html