第 2 章 Hive 安装
2.1 Hive 安装地址
1.Hive 官网地址
http://hive.apache.org/
2.文档查看地址
https://cwiki.apache.org/confluence/display/Hive/GettingStarted
3.下载地址
http://archive.apache.org/dist/hive/
2.2 Hive 安装部署
1.Hive 安装及配置
(1)把 apache-hive-1.2.1-bin.tar.gz 上传到 linux 的/opt/software 目录下 (2)解压 apache-hive-1.2.1-bin.tar.gz 到/opt/module/目录下面 [atguigu@hadoop102 software]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/ (3)修改 apache-hive-1.2.1-bin.tar.gz 的名称为 hive [atguigu@hadoop102 module]$ mv apache-hive-1.2.1-bin/ hive (4)修改/opt/module/hive/conf 目录下的 hive-env.sh.template 名称为 hive-env.sh [atguigu@hadoop102 conf]$ mv hive-env.sh.template hive-env.sh (5)配置 hive-env.sh 文件 (a)配置 HADOOP_HOME 路径 export HADOOP_HOME=/opt/module/hadoop-2.7.2 (b)配置 HIVE_CONF_DIR 路径 export HIVE_CONF_DIR=/opt/module/hive/conf 尚硅谷大数据技术之 Hive
2.Hadoop 集群配置
(1)必须启动 hdfs 和 yarn [atguigu@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh [atguigu@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh (2)在 HDFS 上创建/tmp 和/user/hive/warehouse 两个目录并修改他们的同组权限可写 (可不操作,系统会自动创建) [atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs -mkdir /tmp [atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs -mkdir -p /user/hive/warehouse [atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs -chmod g+w /tmp [atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs -chmod g+w /user/hive/warehouse
3.Hive 基本操作
(1)启动 hive
[atguigu@hadoop102 hive]$ bin/hive
(2)查看数据库
hive> show databases;
(3)打开默认数据库
1 hive> use default; 2 (4)显示 default 数据库中的表 3 hive> show tables; 4 (5)创建一张表 5 hive> create table student(id int, name string); 6 (6)显示数据库中有几张表 7 hive> show tables; 8 (7)查看表的结构 9 hive> desc student; 10 (8)向表中插入数据 11 hive> insert into student values(1000,"ss"); 12 (9)查询表中数据 13 hive> select * from student; 14 (10)退出 hive 15 hive> quit;
2.3 将本地文件导入 Hive 案例
需求
将本地/opt/module/data/student.txt 这个目录下的数据导入到 hive 的 student(id int, name
string)表中。
1.数据准备
在/opt/module/data 这个目录下准备数据
(1)在/opt/module/目录下创建 data [atguigu@hadoop102 module]$ mkdir data (2)在/opt/module/datas/目录下创建 student.txt 文件并添加数据 尚硅谷大数据技术之 Hive
[atguigu@hadoop102 datas]$ touch student.txt [atguigu@hadoop102 datas]$ vi student.txt 1001 zhangshan 1002 lishi 1003 zhaoliu
注意以 tab 键间隔。
2.Hive 实际操作
(1)启动 hive [atguigu@hadoop102 hive]$ bin/hive (2)显示数据库 hive> show databases; (3)使用 default 数据库 hive> use default; (4)显示 default 数据库中的表 hive> show tables; (5)删除已创建的 student 表 hive> drop table student; (6)创建 student 表, 并声明文件分隔符’\t’ hive> create table student(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; (7)加载/opt/module/data/student.txt 文件到 student 数据库表中。 hive> load data local inpath '/opt/module/data/student.txt' into table student;
(8)Hive 查询结果
hive> select * from student; OK 1001 zhangshan 1002 lishi 1003 zhaoliu Time taken: 0.266 seconds, Fetched: 3 row(s)
3.遇到的问题
再打开一个客户端窗口启动 hive,会产生 java.sql.SQLException 异常。
Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClien t at org.apache.hadoop.hive.ql.session.SessionState.start(Session State.java:522) at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:677) at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:621 ) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAcce 尚硅谷大数据技术之 Hive ssorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMe thodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:606) at org.apache.hadoop.util.RunJar.run(RunJar.java:221) at org.apache.hadoop.util.RunJar.main(RunJar.java:136) Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClien t at org.apache.hadoop.hive.metastore.MetaStoreUtils.newInstance( MetaStoreUtils.java:1523) at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.<in it>(RetryingMetaStoreClient.java:86) at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.get Proxy(RetryingMetaStoreClient.java:132) at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.get Proxy(RetryingMetaStoreClient.java:104) at org.apache.hadoop.hive.ql.metadata.Hive.createMetaStoreClien t(Hive.java:3005) at org.apache.hadoop.hive.ql.metadata.Hive.getMSC(Hive.java:302 4) at org.apache.hadoop.hive.ql.session.SessionState.start(Session State.java:503) ... 8 more
原因是,Metastore 默认存储在自带的 derby 数据库中,推荐使用 MySQL 存储 Metastore;