Hive调优 - 走看看

zoukankan html css js c++ java

Hive调优
cd /opt
vi test.sh
#!/bin/bash datetime=(date′+source/etc/profilehive−e"loaddatalocalinpath′/opt/datame.txt′intotableshujuku.tablenamepartition(dt= (date '+%Y%m%d%H')source /etc/profilehive -e "load data local inpath '/opt/datame.txt' into table shujuku.table_name partition(dt=(date ′ +source/etc/profilehive−e"loaddatalocalinpath ′ /opt/datame.txt ′ intotableshujuku.table n amepartition(dt=datetime) "
作用：每过一小时就上传一下，把同一时间段的作为一个分区

2.hive调优
—建表的注意事项
(1)分区，分桶 —一般是按照业务日期进行分区，每天的数据放在一个分区里
(2)一般使用外部表，避免数据误删
(3)选择适当的文件压缩格式
(4)命名要规范
(5)数据分层，表分离，但是不要分的太散

—查询调优
(1)分区裁剪where过滤，先过滤，后join
(2)分区分桶，合并小文件
(3)适当的子查询
mapjoin(1.2以后自动默认启动mapjoin)
select /+mapjoin(b)/ a.xx,b.xx from a left outer join b on a.uid=b.uid
左连的时候：大表在左边，小表在右边
(4)
order by 是全局排序
sort by 是单reduce排序
distribute by 是分区字段排序
cluster by:
可以确保类似的数据分发到同一个reduce task中，并且保证数据有序防止所有的数据分发
到同一个reduce上，导致整体的job时间延迟
cluster by的等价语句：
distribute by Word sort by Word ASC

—数据倾斜优化
(1)数据倾斜解决
看下key的分布
原因 --------一个节点完成80%(举例)的任务，它当然不行了
1)key分布不均匀(实际上还是重复)，比如group by 或者distinct的时候
2)数据重复，join 笛卡尔积数据膨胀，表现如下：
任务进度长时间维持在99%(或100%)，查看任务监控页面，发现只有少量(1个或几个)
reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。
单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。最长时长远大于平均时长
解决方案：
1)看下业务上，数据源头能否对数据进行过滤，比如key为null的
2)找到key重复的具体值，进行拆分，hash。异步求和。
//案例（解决数据倾斜方法之一）：
select city_id,count(*) from test group by city_id ;

select if(city_id=‘66666’,hash(rand()),0),city_id from test limit 10 ; //去掉count看一下输出的样式
假入输出为：
1234 x1
1234 x2
6666 0
6666 0

select if(city_id=‘66666’,hash(rand()),city_id),city_id,count(*) from test group by city_id,if(city_id=‘66666’,hash(rand()),0) limit 10 ;
假入输出为：
1234 x1 1
1234 x2 1
6666 0 2

select a.city,sum(a.cnt) from (
select if(city_id=‘66666’,hash(rand()),city_id),city_id,count(*) as cnt from test group by city_id,if(city_id=‘66666’,hash(rand()),0)) a group by a.city_id limit 10 ;

----作业优化
调整mapper和reduce的数量
太多map导致启动产生过多开销
按照输入数据量大小确定reduce数目set mapred.reduce.tasks=3(默认)
dfs -count /分区目录/*
hive.exec.reducers.max设置阻止资源过度消耗

参数调节
set hive.map.aggr=true(hive2默认开启)
Map端部分聚合，相当于Combiner
hive.groupby.skewindata=true
查看全文

相关阅读:
微信小程序错误码参考大全
 关于vagrant一个虚拟机搭建多个项目配置（总结）
Vagrant安装完lnmp后，配置linux和windows共享文件并配置虚拟主机访问项目
 vagrant的centos镜像，怎么用root用户登录？
Vagrant系列(二)----Vagrant的配置文件Vagrantfile详解
 过滤数组中的空数组array_filter()
getMessage(),getFile,getLine获取异常用法
 测试工程师的福利！各远程移动测试平台对比分析
 学习这篇总结后，你也能做出天天快报一样的推荐系统
 别被官方文档迷惑了！这篇文章帮你详解yarn公平调度

原文地址：https://www.cnblogs.com/wyh-study/p/12091187.html