Hive
Hive 是基于 Hadoop 的⼀个数据仓库,可以将结构化的数据⽂件映射为⼀张表,并提供类 sql 查询功 能,Hive 底层将 sql 语句转化为 MapReduce 任务运⾏。
1.Hive官⽹地址 http://hive.apache.org/ 2.⽂档查看地址 https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3.下载地址 http://archive.apache.org/dist/hive/
参考
1.安装部署
-
在/opt目录下新建hive文件夹,将文件apache-hive-2.3.7-bin.tar.gz上传,并进行解压
#在/opt/hive目录下
tar -zxvf apache-hive-2.3.7-bin.tar.gz -
设置环境变量vim /etc/profile 添加以下
#hive
export HIVE_HOME=/opt/hive/apache-hive-2.3.7-bin
export PATH=$PATH:$HIVE_HOME/bin-
使变量生效source /etc/profile
-
输入hive --version查看版本,是否安装成功
1.如果不成功(
启用hive时报以下错误:
Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path1
解决方法:
cd ~/apache-hive-2.3.7-bin/conf/
cp hive-env.sh.template hive-env.sh在hive-env.sh文件里加下面的内容:
vim hive-env.sh
export HADOOP_HOME=/opt/hadoop/hadoop-2.7.3
export HIVE_HOME=/opt/hive/apache-hive-2.3.7-bin ##Hive安装路径
export HIVE_CONF_DIR=$HIVE_HOME/conf ##Hive配置⽂件
source hive-env.sh -
配置hive-site.xml
配置文件在
-
-
必须启动hdfs和yarn
#cd /opt/hadoop/hadoop-2.7.3/sbin
./start-dfs.sh
./start-yarn.sh
3.运行Hive
-
从 Hive 2.1 版本开始, 在启动 Hive 之前需运⾏ schematool 命令来执⾏初始化操作:
schematool -dbType mysql -initSchema
-
启动Hive,输入命令hive
hive
-
启动失败(
4.测试Hive
-
创建一个表
create table test_hive(id int, name string) row format delimited fields terminated by ' ' stored as textfile;
-
show databases;进行测试
5.进行文件分发
scp -r /opt/hive slave1:/opt scp -r /opt/hive slave2:/opt
重复1.安装部署