首先,这里说的Hive指的是Hive on Mapreduce。(此外,还有Hive on Spark,区别只是后者把执行计划放到spark集群上运行。)
Hive是一种数据仓库软件,能够协助读写、管理那些存储在分布式存储系统上的大数据集。
Hive架构在Hadoop之上,底层存储在HDFS上,底层计算通过MapReduce。
Hive定义了一种类似SQL的查询语言,被称为HQL。因此,Hive的出现可以让那些精通SQL技能,但是编程能力较弱,以及不擅长Java语言的用户能够在HDFS大规模数据集上很方便地利用类SQL语言查询、汇总、分析数据。
由于Hadoop本身是一个批处理,高延迟的计算框架,Hive使用Hadoop作为执行引擎,自然也就有了批处理,高延迟的特点。此外,Hive对事物的支持不够好,原因是HDFS本身就设计为一次写入,多次读取的分布式存储系统,因此,不能使用Hive来完成诸如DELETE、UPDATE等在线事务处理的需求。因此,Hive适合处理离线的,非实时的大数据。
Hive的一些重要概念:
1,Database:数据库。概念等同于关系型数据库的Schema。在hdfs中表现为${hive.metastore.warehouse.dir}目录下的一个文件夹。
2,Table:内部表。概念等同于关系型数据库的表。数据由hive管理,当使用drop删除表时,会把表的元数据和数据一起删除,数据无法恢复。在hdfs中表现所属db目录下一个文件夹。
3,External Table:外部表。数据不由Hive管理,使用drop命令删除一个表时,只是把表的元数据给删除了,而表的数据不会删除。
4,Partitions:分区。按表定义的分区字段,把具有相同字段值的数据存储到一个目录中。在hdfs中表现为table目录下的子目录。
5,Buckets (or Clusters):分桶。同一个分区内的数据还可以细分,将相同的KEY再划分至一个桶中,有点类似于HASH分区。在hdfs中表现为同一个表目录下根据hash散列之后的多个文件。