大数据框架Hive优化方法 - 走看看

zoukankan html css js c++ java

大数据框架Hive优化方法
常规调优手段
- Fetch抓取
- 本地模式
- JVM重用　　
  
  对于大量小文件，可开启JVM重用，即多个任务共用一个JVM而不用频繁开启和关闭
- 推测执行
- 严格模式（开启后Hive自动对某些操作做一定的限制，以免过低的查询效率）
- count distinct 用 group by替换
- 空key过滤（大表join大表）
- join的时候尽量将小表放大表左边（现版本Hive对其进行自动的优化。）
数据倾斜的解决
- 开启数据倾斜时均衡负载，同一个key分道不同的reduce处理，然后开启第二个MR根据与处理数据结果再按照groupbykey分不到reduce中完成最终的聚合操
- 合理设置map、reduce个数；小文件合并等常规MR优化
  
  增大map数：减少切片大小
  
  增大reduce个数
  
  1.设置调小每个reduce处理最大数据量/2.增大每个任务最大的reduce个数（reduce个数：N=min（参数2，总数据量/参数1））
  
  直接设置set mapreduce.job.reduces = 15;
- 开启map端预先聚合，combine
- 小表存入内存，将reduce join转化为map join
  
  许指定mapjoin参数为true，然后调整小表的阈值让hive自动判断小表情况进行map join转换
查看全文

相关阅读:
无人值守安装linux
数组中只出现过一次的数字牛客网剑指Offer
数组中出现次数超过一半的数字牛客网剑指Offer
数据流中的中位数牛客网剑指Offer
数字在排序数组中出现的次数牛客网剑指Offer
数值的整数次方牛客网剑指Offer
按之字形顺序打印二叉树牛客网剑指Offer
把数组排成最小的数牛客网剑指Offer
把字符串转换成整数牛客网剑指Offer
把二叉树打印成多行牛客网剑指Offer

原文地址：https://www.cnblogs.com/cun-yu/p/12762784.html

Copyright © 2011-2022 走看看