zoukankan      html  css  js  c++  java
  • hive表新增字段后,新字段无法写入的问题 -- cascade

    转自:https://blog.csdn.net/lele5000/article/details/89856355

    给hive表新增了三个字段,重新insert overwrite了历史有数据的分区,但是select 新增字段仍然没有数据,值一直为NULL,莫名其妙

    我的修改表结构的sql是这样子的

    alter table app_dlink_project_temp add columns(media_name string COMMENT '媒介名称');
    

    可是新增的这个字段的值总是NULL

    解决办法很简单,将修改表结构的sql改成这样

    alter table app_dlink_project_temp add columns(media_name string COMMENT '媒介名称') cascade;
    

    然后重新insert overwrite,再查询就新增字段就会有数据了。

    另外一种解决方式:

    可以手动使用如下命令来对分区添加 alter table 表名 partition(dt='2019-04-26') add columns(字段名 类型);
    

    或者也可以直接将分区数据删除,然后重新insert,这样新的字段也会有了

    官方文档描述如下:

    The CASCADE|RESTRICT clause is available in Hive 1.1.0. ALTER TABLE ADD|REPLACE COLUMNS with CASCADE command changes the columns of a table's metadata, and cascades the same change to all the partition metadata. RESTRICT is the default, limiting column changes only to table metadata.

    如上所述,在1.1.0中表和分区的元数据就是分开处理的,在增加字段的时候添加CASCADE能同时更新表和分区 对于,在添加字段的时候没有指定的cascade的情况

    因为我们在重跑数据的时候,虽然HDFS上的数据更新了,但是我们查询的时候仍然查询的是旧的元数据信息(即Mysql中的信息)

    注意:对于执行了add column语句之后新生成的分区,是不会有问题的,Hive会自动维护新分区中的元数据。

  • 相关阅读:
    异步FIFO总结
    异常检测参考
    Java数据库连接技术
    Eclipse Decompiler不生效解决办法
    mysql常用操作
    时间序列预测——Tensorflow.Keras.LSTM
    AR(I)MA时间序列建模过程——步骤和python代码
    MySQL优化实例
    MySQL性能优化经验
    高性能MySQL笔记 第6章 查询性能优化
  • 原文地址:https://www.cnblogs.com/zhangqian27/p/12654067.html
Copyright © 2011-2022 走看看