Hive中导入Amazon S3中的分区表数据的操作

zoukankan html css js c++ java

Hive中导入Amazon S3中的分区表数据的操作
Hive中创建S3的外部表

数据在S3存放的数据是按时间纬度存放的，每天的数据存放在各自的目录下，目录结构如下截图：

每个目录下面的数据是CSV文件，现在将其导入到Hive中进行查询，通过创建对应的表结构：

[sql] view plain copy

CREATE EXTERNAL TABLE `palmplay_log_pv_s3_csv`(

  `meta_id` string COMMENT 'from deserializer',

  `brand` string COMMENT 'from deserializer',

  `channel` string COMMENT 'from deserializer',

  `countrycode` string COMMENT 'from deserializer')

partitioned by (dt String)

ROW FORMAT SERDE

  'org.apache.hadoop.hive.serde2.OpenCSVSerde'

WITH SERDEPROPERTIES (

   "separatorChar" = " ",

   "quoteChar"     = "'",

   "escapeChar"    = "\"

)

STORED AS TEXTFILE

LOCATION

  's3a://palmplay_log_pv_csv';

然后通过如下语句进行查询：

[sql] view plain copy

select * from palmplay_log_pv_s3_csv limit 10;

select * from palmplay_log_pv_s3_csv where dt='2018-04-09' limit 10;

此时是查询不到结果，因为这个时候分区表的分区信息并没有加载到Hive的Metastore中，需要先执行将分区信息加载到Metastore中，才可以查询到数据。

加载表的分区信息到Metastore中

从S3中将表的分区信息加载到Hive的Metastore中，这个同从HDFS中加载表的分区信息是一样的，执行以下命令进行加载：

[plain] view plain copy

MSCK REPAIR TABLE palmplay_log_pv_s3_csv;

然后再执行select查询就可以查询到数据了。

  注：可以使用hive.metastore.fshandler.threads参数（缺省值为15，配置在hive-site.xml中）来增加用于在MSCK阶段中扫描分区的线程数。

如果你想了解大数据的学习路线，想学习大数据知识以及需要免费的学习资料可以加群：784789432.欢迎你的加入。每天下午三点开直播分享基础知识，晚上20:00都会开直播给大家分享大数据项目实战。

对表进行分析
在Amazon S3上处理数据时，分析表的步骤与在HDFS中处理数据时的步骤相同。
可以通过设置hive.stats.autogather = true或运行analyze table table_name compute statistics命令自动收集表统计信息，例如：
ANALYZE TABLE table_name PARTITION（dt ='2018-04-09'）COMPUTE STATISTICS;
但是，列统计信息只能通过运行列命令的分析表测试计算统计信息来收集，例如：

[sql] view plain copy

ANALYZE TABLE table_name PARTITION（ds ='2018-04-09'）COLUMNS;

有关更多信息和示例，请参阅Apache文档。

参考：https://hortonworks.github.io/hdp-aws/s3-hive/index.html
查看全文

相关阅读:
PL/SQL 训练05--游标
 PL/SQL 训练04--事务
 PL/SQL 训练03 --异常
 PL/SQL 训练02--集合数组
 PL/SQL 训练01--基础介绍
 25 mysql怎么保证高可用
 pt工具之pt-archiver
Oracle日常性能问题查看
 Oracle的cursor
Oracle 索引扫描的几种情况

原文地址：https://www.cnblogs.com/xuexiqun784789432/p/9151336.html