一.什么是hive
hive是hadoop的数据仓库的工具,将结构化的数据映射为一张表,提供类似sql的查询功能,是不太熟悉mapreduce的同学可以借助工具来使用
二. 为什么使用hive
* hadoop所面临的的问题:
学习成本高
项目开发周期长
mapreduce复杂查询开发难
*为什么用hive
接口采用sql查询,提高开发效率
不用在写mapreduce
扩展功能方便
三.hive特点
1,可扩展
hive能够自由扩展集群的规模,不需要重启服务
2.延展性
支持自定义函数
3.容错性
节点出现问题,sql依然可以执行成功
四,hive基本组成
1.用户接口包括:CLI,JDBC/ODBC,WebGUi
cli 是shell命令,jdbc是hive的java实现,webgui是通过浏览器访问
2.元数据存贮 关系型数据库mysql,Derby
元数据是hive将元数据存贮在数据库中,元数据包括表名,列分区和属性,表的数据所在的目录
3.解释器,编译器,优化器,执行器
五. hive和hadoop的关系