zoukankan      html  css  js  c++  java
  • Hive 常见设置

    1. Hive中 null 太多会占用大量空间 , 用这个可以减少占用

    alter table test_null set serdeproperties('serialization.null.format' = '');

    2.  使用 sqoop 从mysql 和HIVE的 互相导入

     mysql 中  空 底层是用 null 表示

     hive 中   空  底层是用   /N 表示

    3. HIVE支持 tez  引擎 , 比MapReduce 引擎更快

    4.建立MapReduce 任务的时候 , 文件太多 , 可以设置

    set mapred.max.split.size=100000000;
    set mapred.min.split.size.per.node=100000000;
    set mapred.min.split.size.per.rack=100000000;
    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

    这是将碎文件合并之后, 再处理

    因为一般情况下 , 如果有100个1M的文件 , 会有100个map 任务开启 , 优化

    之后 , 直接将100个小文件合并成一个100M的文件 , 再进行处理

    5. HIVE 也可以设置reduce 个数 . 然后也就是会有几个文件

    6.

  • 相关阅读:
    matplotlib实例笔记
    matplotlib笔记3
    pandas之时间重采样笔记
    pandas之时间序列笔记
    pandas之数据IO笔记
    pandas之聚合运算
    pandas之分组计算笔记
    算术运算符合
    数据类型 概况 (字符串,列表)
    for 循环
  • 原文地址:https://www.cnblogs.com/alpha-cat/p/12965963.html
Copyright © 2011-2022 走看看