Hive快速入门

zoukankan html css js c++ java

Hive快速入门

一.简介

　　Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

　　Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

　　Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上，控制分隔符，也允许用户指定数据格式。

二.架构

　　1.用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。在启动 Client模式的时候，需要指出Hive Server所在节点，并且在该节点启动Hive Server。 WUI是通过浏览器访问Hive。

　　2.Hive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

　　3.解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有MapReduce调用执行。　　4.Hive的数据存储在HDFS中，大部分的查询、计算由MapReduce完成（包含*的及类似的查询除外，比如select * from tbl不会生成MapRedcue任务）。

三.HQL解释过程

　　

四.Hive搭建模式

　　1.local模式

　　　　此模式连接到一个In-memory的数据库Derby，一般用于Unit Test。

　　　　

　　

　　2.单用户模式

　　　　通过网络连接到一个数据库中，是最经常使用到的模式

　　　　

　　3.远程服务器模式/多用户模式

　　　　用于非Java客户端访问元数据库，在服务器端启动MetaStoreServer，客户端利用Thrift协议通过MetaStoreServer访问元数据库

　　　　

五.Hive集群搭建

　　1.配置hive元数据

　　　　

　　2.配置临时目录等相关信息

　　　　

　　3.配置数据库信息

　　　　

　　　　

　　　　

　　　　

　　4.上传mysql连接工具包

　　　　

　　5.创建hive-env.sh【从hive-env.sh.template重命名】

　　　　

六.启动及测试

　　1.mysql数据库初始化　　　　

　　　　

　　执行成功之后可以看见Hive数据仓库以及生成metastore元数据表

　　　　

　　2.启动Hive　

　　　　

　　3.操作Hive

　　　　

　　　　

　　4.创建库，表及导入数据

　　　　建库zhen

　　　　

　　　　建表zhen_user

　　　　

　　　　load数据

　　　　

　　　　查看

　　　　

查看全文

相关阅读:
MyEclipse中选择一行的快捷键
 myeclipse选中一行的内容，快速移动复制到某一行。
为什么做java的web开发我们会使用struts2，springMVC和spring这样的框架?
webpack-dev-server
webpack-clean-webpack-plugin
--save-dev和--save的区别
 extract-text-webpack-plugin 的使用及安装
 this 指向详细解析（箭头函数）
CSS三：CSS的三种引入方式
 Webpack中的css-loader 和style-loader

原文地址：https://www.cnblogs.com/yszd/p/10523820.html

一.简介

二.架构

三.HQL解释过程

四.Hive搭建模式

五.Hive集群搭建

六.启动及测试