zoukankan      html  css  js  c++  java
  • HIVE常用命令之MSCK REPAIR TABLE

    MSCK REPAIR TABLE命令主要是用来解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。
    我们知道hive有个服务叫metastore,这个服务主要是存储一些元数据信息,比如数据库名,表名或者表的分区等等信息。如果不是通过hive的insert等插入语句,很多分区信息在metastore中是没有的,如果插入分区数据量很多的话,你用 ALTER TABLE table_name ADD PARTITION 一个个分区添加十分麻烦。这时候MSCK REPAIR TABLE就派上用场了。只需要运行MSCK REPAIR TABLE命令,hive就会去检测这个表在hdfs上的文件,把没有写入metastore的分区信息写入metastore。

    测试一下:

    第一步:

    CREATE TABLE  test (name STRING) PARTITIONED BY (DT STRING);
    INSERT INTO TABLE test PARTITION(dt="20191206") VALUES ("zhang");
    SHOW PARTITIONS test;

    第二步:

    echo "wang" > test.txt
    hadoop  fs  -mkdir -p hdfs://bigdata:8020/user/hive/warehouse/sdata.db/test/dt=20191205
    hadoop  fs -put -f test.txt hdfs://bigdata:8020/user/hive/warehouse/sdata.db/test/dt=20191205/
    hadoop fs -ls -R hdfs://bigdata:8020/user/hive/warehouse/sdata.db/test

    这个时候,我们在查看分区:

     依旧还是一个分区在,查询表的数据,还是一样的的。

    在Hive中执行:

    msck repair table test

    结果显示:

    select * from test;

     看来是可以的。增加新分区到表中。

    然后,如果我删除20191205的分区在hdfs上:

    hadoop  fs  -rm -r  hdfs://bigdata:8020/user/hive/warehouse/sdata.db/test/dt=20191205
    执行:
    MSCK REPAIR TABLE TEST
    SHOW PARTITIONS TEST

    查看分区还是有 20191205 20191206两天的分区,但是表里的数据只有一天的了。看来,这个命令只能获取新增的分区信息,针对于删除的分区,无法及时更新。

    问题:

    分区数据没有,但是分区存在,尚未解决。无法统一。

    --眼睛太疼了,难受的不行。。。。。。。。

  • 相关阅读:
    delete 用法总结
    js数组去重的常用方法总结
    学习中 常用到的string内置对象方法的总结
    Array 对象常用的方法总结
    javascript中运算符有哪些? 他们的优先级 呢?
    那些年前端经典面试题
    HHVM 3.0 发布,执行 PHP 的虚拟机
    【问底】徐汉彬:PHP7和HHVM的性能之争 (真是学到了很多)
    mysql 简单sql语句
    【问底】王帅:深入PHP内核(一)——弱类型变量原理探究
  • 原文地址:https://www.cnblogs.com/hello-wei/p/11996646.html
Copyright © 2011-2022 走看看