zoukankan      html  css  js  c++  java
  • hive 配置文件以及join中null值的处理

    一、Hive的參数设置

    1.  三种设定方式:配置文件

    ·   用户自己定义配置文件:$HIVE_CONF_DIR/hive-site.xml

    ·   默认配置文件:$HIVE_CONF_DIR/hive-default.xml

    用户自己定义配置会覆盖默认配置。

    另外,Hive也会读入Hadoop的配置,由于Hive是作为Hadoop的client启动的,Hadoop的配置文件包含

    ·   $HADOOP_CONF_DIR/hive-site.xml

    ·   $HADOOP_CONF_DIR/hive-default.xml

    Hive的配置会覆盖Hadoop的配置。

    配置文件的设定对本机启动的全部Hive进程都有效。

    2.  命令行參数 ,

    bin/hive -hiveconf hive.root.logger=INFO,console

    这一设定对本次启动的Session(对于Server方式启动。则是全部请求的Sessions)有效。

    3.  參数声明

    set mapred.reduce.tasks=100;

    这一设定的作用域也是Session级的

    二、使用hive一些注意的地方

    1.  Hive使用的字符集默认是UTF-8。hive中没有转换字符编码的这样的函数

    hive.exec.compress.output 这个參数, 默认是 false。

    可是非常多时候貌似要单独显式设置一遍。否则会对结果做压缩的,假设你的这个文件后面还要在hadoop下直接操作, 那么就不能压缩了

    2.  Join中处理null值的语义差别

    这里的特殊逻辑指的是,Hive的Join中,作为Joinkey的字段比較。null=null是有意义的。且返回值为true。检查下面查询:

    select u.uid, count(u.uid)

    from t_weblog l join t_user u on (l.uid = u.uid) groupby u.uid;

    查询中,t_weblog表中uid为空的记录将和t_user表中uid为空的记录做连接。即l.uid = u.uid=null成立。

    假设须要与标准一致的语义。我们须要改写查询手动过滤null值的情况:

    select u.uid, count(u.uid)

    from t_weblog l join t_user u

    on (l.uid = u.uid and l.uid is not null and u.uid is notnull)

    group by u.uid;

    实践中,这一语义差别也是常常导致数据倾斜的原因之中的一个。

  • 相关阅读:
    接口测试基础operation
    关于Fiddler常见问题之一
    接口测试用例编写规则
    Codeforces 959E. Mahmoud and Ehab and the xor-MST 思路:找规律题,时间复杂度O(log(n))
    Codeforces 930A. Peculiar apple-tree (dfs)
    51nod 2020 排序相减(暴力解法)
    《汇编语言(第三版)》pushf 和 popf 指令,以及标志寄存器在 Debug 中的表示
    DF标志和串传送指令
    《汇编语言(第三版)》cmp指令
    《汇编语言(第三版)》标志寄存器
  • 原文地址:https://www.cnblogs.com/yxwkf/p/5323589.html
Copyright © 2011-2022 走看看