Hive 常见设置 - 走看看

zoukankan html css js c++ java

Hive 常见设置
1. Hive中 null 太多会占用大量空间 , 用这个可以减少占用
alter table test_null set serdeproperties('serialization.null.format' = '');
2. 使用 sqoop 从mysql 和HIVE的互相导入

mysql 中空底层是用 null 表示

hive 中空底层是用 /N 表示

3. HIVE支持 tez 引擎 , 比MapReduce 引擎更快

4.建立MapReduce 任务的时候 , 文件太多 , 可以设置

set mapred.max.split.size=100000000;
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

这是将碎文件合并之后, 再处理

因为一般情况下 , 如果有100个1M的文件 , 会有100个map 任务开启 , 优化

之后 , 直接将100个小文件合并成一个100M的文件 , 再进行处理

5. HIVE 也可以设置reduce 个数 . 然后也就是会有几个文件

6.
查看全文

相关阅读:
数据仓库建设随笔（2）
实战剖析三层架构2：实例代码
 数据仓库建设随笔（1）
如何正确地死磕一个问题
 finally块中的代码一定会执行吗
 eclipse中任务进度的使用
 如何在单元测试编码实现类的访问器？这里给出一个答案
 SplitContainer.SplitterDistance属性值设置应注意的与FixedPanel有关
 再谈ReportingService报表中数据源类型为存储过程的数据集如何使用多值参数
 工作流加载及本地通信服务常见的异常

原文地址：https://www.cnblogs.com/alpha-cat/p/12965963.html

Copyright © 2011-2022 走看看