Hive入门

zoukankan html css js c++ java

Hive入门
第一章 Hive 基本概念

1.1 什么是 Hive

Apache Hive是一款建立在Hadoop之上的开源数据仓库系统，可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表，基于表提供了一种类似SQL的查询模型，称为Hive查询语言（HQL），用于访问和分析存储在Hadoop文件中的大型数据集。

Hive核心是将HQL转换为MapReduce程序，然后将程序提交到Hadoop群集执行。Hive由Facebook实现并开源。

1.2 为什么使用Hive

使用Hadoop MapReduce直接处理数据所面临的问题
- 人员学习成本太高需要掌握java语言
- MapReduce实现复杂查询逻辑开发难度太大
使用Hive处理数据的好处
- 操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）
- 避免直接写MapReduce，减少开发人员的学习成本
- 支持自定义函数，功能扩展很方便
- 背靠Hadoop，擅长存储分析海量数据集
1.3 Hive与Hadoop的关系

从功能来说，数据仓库软件，至少需要具备下述两种能力：
- 存储数据的能力
- 分析数据的能力
Apache Hive作为一款大数据时代的数据仓库软件，当然也具备上述两种能力。只不过Hive并不是自己实现了上述两种能力，而是借助Hadoop。

Hive利用HDFS存储数据，利用MapReduce查询分析数据。

这样突然发现Hive没啥用，不过是套壳Hadoop罢了。其实不然，Hive的最大的魅力在于用户专注于编写HQL，Hive帮您转换成为MapReduce程序完成对数据的分析。

1.4 Hive与Mysql

Hive虽然具有RDBMS数据库的外表，包括数据模型、SQL语法都十分相似，但应用场景却完全不同。Hive只适合用来做海量数据的离线分析。Hive的定位是数据仓库，面向分析的OLAP系统。
因此时刻告诉自己，Hive不是大型数据库，也不是要取代Mysql承担业务数据处理。
更直观的对比请看下面这幅图：

第二章 Hive架构、组件

2.1 Hive架构图

2.2 Hive组件

用户接口：包括 CLI、JDBC/ODBC、WebGUI。其中，CLI(command line interface)为shell命令行；Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互，类似于JDBC或ODBC协议。WebGUI是通过浏览器访问Hive。

元数据存储：通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

Driver驱动程序，包括语法解析器、计划编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有执行引擎调用执行。

执行引擎：Hive本身并不直接处理数据文件。而是通过执行引擎处理。当下Hive支持MapReduce、Tez、Spark3种执行引擎。

第三章 Hive数据模型

数据模型：用来描述数据、组织数据和对数据进行操作，是对现实世界数据特征的描述。Hive的数据模型类似于RDBMS库表结构，此外还有自己特有模型。
Hive中的数据可以在粒度级别上分为三类：
- Table 表
- Partition分区
- Bucket 分桶
3.1 Databases

Hive作为一个数据仓库，在结构上积极向传统数据库看齐，也分数据库（Schema），每个数据库下面有各自的表组成。默认数据库default。

Hive的数据都是存储在HDFS上的，默认有一个根目录，在hive-site.xml中，由参数hive.metastore.warehouse.dir指定。默认值为/user/hive/warehouse。

因此，Hive中的数据库在HDFS上的存储路径为：${hive.metastore.warehouse.dir}/databasename.db

比如，名为itcast的数据库存储路径为：/user/hive/warehouse/itcast.db

3.2 Tables

Hive表与关系数据库中的表相同。Hive中的表所对应的数据是存储在Hadoop的文件系统中，而表相关的元数据是存储在RDBMS中。
在Hadoop中，数据通常驻留在HDFS中，尽管它可以驻留在任何Hadoop文件系统中，包括本地文件系统或S3。Hive有两种类型的表：
- Managed Table内部表、托管表
- External Table外部表
创建表时，默是内部表。关于内部表和外部表的区别，我们后续知识点再做展开探讨。Hive中的表的数据在HDFS上的存储路径为：${hive.metastore.warehouse.dir}/databasename.db/tablename

比如,itcast的数据库下t_user表存储路径为：/user/hive/warehouse/itcast.db/t_user

3.3 Partitions

Partition分区是hive的一种优化手段表。分区是指根据分区列（例如“日期day”）的值将表划分为不同分区。这样可以更快地对指定分区数据进行查询。

分区在存储层面上的表现是:table表目录下以子文件夹形式存在。

一个文件夹表示一个分区。子文件命名标准：分区列=分区值

Hive还支持分区下继续创建分区，所谓的多重分区。关于分区表的使用和详细介绍，后面模块会单独展开详细讲解。

3.4 Buckets

Bucket分桶表是hive的一种优化手段表。分桶是指根据表中字段（例如“编号ID”）的值,经过hash计算规则将数据文件划分成指定的若干个小文件。

分桶规则：hashfunc(ID) % 桶个数，余数相同的分到同一个文件。

分桶的好处是可以优化join查询和方便抽样查询。Bucket分桶表在hdfs中表现为同一个表目录下数据根据hash散列之后变成多个文件。关于桶表以及分桶操作，后面模块会单独展开详细讲解。

第四章 Hive 安装

4.1 元数据相关名词

Metadata

Metadata即元数据。元数据包含用Hive创建的database、table、表的位置、类型、属性，字段顺序类型等元信息。元数据存储在关系型数据库中。如hive内置的Derby、或者第三方如MySQL等。

Metastore

Metastore即元数据服务。Metastore服务的作用是管理metadata元数据，对外暴露服务地址，让各种客户端通过连接metastore服务，由metastore再去连接MySQL数据库来存取元数据。

有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore 服务即可。某种程度上也保证了hive元数据的安全。

4.2 metastore三种配置方式

metastore服务配置有3种模式：内嵌模式、本地模式、远程模式。区分3种配置方式的关键是弄清楚两个问题：
- Metastore服务是否需要单独配置、单独启动？
- Metadata是存储在内置的derby中，还是第三方RDBMS,比如Mysql。
内嵌模式

内嵌模式（Embedded Metastore）是metastore默认部署模式。此种模式下，元数据存储在内置的Derby数据库，并且Derby数据库和metastore服务都嵌入在主HiveServer进程中，当启动HiveServer进程时，Derby和metastore都会启动。不需要额外起Metastore服务。

但是一次只能支持一个活动用户，适用于测试体验，不适用于生产环境。

本地模式

本地模式（Local Metastore）下，Hive Metastore服务与主HiveServer进程在同一进程中运行，但是存储元数据的数据库在单独的进程中运行，并且可以在单独的主机上。metastore服务将通过JDBC与metastore数据库进行通信。
本地模式采用外部数据库来存储元数据，推荐使用MySQL。

hive根据hive.metastore.uris 参数值来判断，如果为空，则为本地模式。
缺点是：每启动一次hive服务，都内置启动了一个metastore。

远程模式

远程模式（Remote Metastore）下，Metastore服务在其自己的单独JVM上运行，而不在HiveServer的JVM中运行。如果其他进程希望与Metastore服务器通信，则可以使用Thrift Network API进行通信。

在生产环境中，建议用远程模式来配置Hive Metastore。在这种情况下，其他依赖hive的软件都可以通过Metastore访问hive。由于还可以完全屏蔽数据库层，因此这也带来了更好的可管理性/安全性。

远程模式下，需要配置hive.metastore.uris 参数来指定metastore服务运行的机器ip和端口，并且需要单独手动启动metastore服务。

4.3 Mysql的安装

相关mysql和jar
链接：https://pan.baidu.com/s/1Y76xSBscsB9_qQa1gwXLVA
提取码：lqi4

1）检查当前系统是否安装过Mysql
[atguigu@hadoop102 ~]$ rpm -qa|grep mariadb mariadb-libs-5.5.56-2.el7.x86_64 //如果存在通过如下命令卸载 [atguigu @hadoop102 ~]$ sudo rpm -e --nodeps mariadb-libs //用此命令卸载mariadb
2）将MySQL安装包拷贝到/opt/software/mysql-lib目录下

3）解压MySQL安装包
//解压*.tar包，参数只需要-xf; 解压*.tar.gz，参数：-zxvf [atguigu @hadoop102 mysql-lib]$ tar -xf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar -C
4）在安装目录下执行rpm安装，要以下按照顺序依次执行
[atguigu @hadoop102 mysql-lib]$ sudo rpm -ivh mysql-community-common-5.7.28-1.el7.x86_64.rpm [atguigu @hadoop102 mysql-lib]$ sudo rpm -ivh mysql-community-libs-5.7.28-1.el7.x86_64.rpm [atguigu @hadoop102 mysql-lib]$ sudo rpm -ivh mysql-community-libs-compat-5.7.28-1.el7.x86_64.rpm [atguigu @hadoop102 mysql-lib]$ sudo rpm -ivh mysql-community-client-5.7.28-1.el7.x86_64.rpm [atguigu @hadoop102 mysql-lib]$ sudo rpm -ivh mysql-community-server-5.7.28-1.el7.x86_64.rpm
如果Linux是最小化安装的，在安装mysql-community-server-5.7.28-1.el7.x86_64.rpm时可能会出现如下错误:
[atguigu@hadoop102 software]$ sudo rpm -ivh mysql-community-server-5.7.28-1.el7.x86_64.rpm 警告：mysql-community-server-5.7.28-1.el7.x86_64.rpm: 头V3 DSA/SHA1 Signature, 密钥 ID 5072e1f5: NOKEY 错误：依赖检测失败： libaio.so.1()(64bit) 被 mysql-community-server-5.7.28-1.el7.x86_64 需要 libaio.so.1(LIBAIO_0.1)(64bit) 被 mysql-community-server-5.7.28-1.el7.x86_64 需要 libaio.so.1(LIBAIO_0.4)(64bit) 被 mysql-community-server-5.7.28-1.el7.x86_64 需要
通过yum安装缺少的依赖,然后重新安装mysql-community-server-5.7.28-1.el7.x86_64 即可
[atguigu@hadoop102 mysql-lib] yum install -y libaio
5）删除/etc/my.cnf文件中datadir指向的目录下的所有内容,如果有内容的情况下需要删除

查看datadir的值

datadir=/var/lib/mysql
[atguigu@hadoop102 mysql-lib]$ vim /etc/my.cnf # For advice on how to change settings please see # http://dev.mysql.com/doc/refman/5.7/en/server-configuration-defaults.html [mysqld] # # Remove leading # and set to the amount of RAM for the most important data # cache in MySQL. Start at 70% of total RAM for dedicated server, else 10%. # innodb_buffer_pool_size = 128M # # Remove leading # to turn on a very important data integrity option: logging # changes to the binary log between backups. # log_bin # # Remove leading # to set options mainly useful for reporting servers. # The server defaults are faster for transactions and fast SELECTs. # Adjust sizes as needed, experiment to find the optimal values. # join_buffer_size = 128M # sort_buffer_size = 2M # read_rnd_buffer_size = 2M datadir=/var/lib/mysql
删除/var/lib/mysql目录下的所有内容:
[atguigu @hadoop102 mysql]# cd /var/lib/mysql [atguigu @hadoop102 mysql]# sudo rm -rf ./* //注意执行命令的位置
6）初始化数据库
[atguigu @hadoop102 opt]$ sudo mysqld --initialize --user=mysql
7）查看临时生成的root用户的密码
[atguigu @hadoop102 opt]$ sudo cat /var/log/mysqld.log
8）启动mysql服务
[atguigu @hadoop102 opt]$ sudo systemctl start mysqld
9）登录mysql数据库
[atguigu @hadoop102 opt]$ mysql -uroot -p Enter password: 输入临时生成的密码
必须先修改root用户的密码,否则执行其他的操作会报错, 记住自己设置的密码
mysql> set password = password("123456");
10）修改mysql库下的user表中的root用户允许任意ip连接，可以客户端远程登录
mysql> update mysql.user set host='%' where user='root'; mysql> flush privileges;
11）通过navicat远程登录验证

4.4 Hive 安装地址

1）Hive 官网地址
http://hive.apache.org/
2）文档查看地址
https://cwiki.apache.org/confluence/display/Hive/GettingStarted
3）下载地址
http://archive.apache.org/dist/hive/
4）github 地址
https://github.com/apache/hive

4.5 Hive 安装部署

安装 Hive

1）把 apache-hive-3.1.2-bin.tar.gz 上传到 linux 的/opt/software 目录下
2）解压 apache-hive-3.1.2-bin.tar.gz 到/opt/module/目录下面
[atguigu@hadoop102 software]$ tar -zxvf /opt/software/apache-hive-3.1.2-bin.tar.gz -C /opt/module/
3）修改 apache-hive-3.1.2-bin.tar.gz 的名称为 hive
[atguigu@hadoop102 software]$ mv /opt/module/apache-hive-3.1.2-bin/ /opt/module/hive
4）修改/etc/profile.d/my_env.sh，添加环境变量
[atguigu@hadoop102 software]$ sudo vim /etc/profile.d/my_env.sh
5）添加内容
#HIVE_HOME export HIVE_HOME=/opt/module/hive export PATH=$PATH:$HIVE_HOME/bin
source一下
source /etc/profile
6）解决日志 Jar 包冲突
[atguigu@hadoop102 software]$ mv $HIVE_HOME/lib/log4j-slf4j-impl-2.10.0.jar $HIVE_HOME/lib/log4j-slf4j-impl-2.10.0.bak
Hive的元数据配置到Mysql

1）拷贝驱动

将MySQL的JDBC驱动拷贝到Hive的lib目录下
[atguigu@hadoop102 software]$ cp /opt/software/mysql-connector-java-5.1.37.jar $HIVE_HOME/lib
2）配置Metastore到MySql

在$HIVE_HOME/conf目录下新建hive-site.xml文件
[atguigu@hadoop102 software]$ vim $HIVE_HOME/conf/hive-site.xml
添加如下内容
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration>  <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://hadoop102:3306/metastore?useSSL=false</value> </property>  <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property>  <property> <name>javax.jdo.option.ConnectionUserName</name> <value>root</value> </property>  <property> <name>javax.jdo.option.ConnectionPassword</name> <value>123456</value> </property>  <property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> </property>  <property> <name>hive.metastore.schema.verification</name> <value>false</value> </property>  <property> <name>hive.metastore.uris</name> <value>thrift://hadoop102:9083</value> </property>  <property> <name>hive.server2.thrift.port</name> <value>10000</value> </property>  <property> <name>hive.server2.thrift.bind.host</name> <value>hadoop102</value> </property>  <property> <name>hive.metastore.event.db.notification.api.auth</name> <value>false</value> </property> </configuration>
注意：主机ip，mysql登录的用户密码不要配错了

Hive的启动

1）初始化元数据库

登录Mysql
[atguigu@hadoop102 software]$ mysql -uroot -p123456
创建Hive的元数据库，然后退出
mysql> create database metastore; mysql> quit;
初始化Hive元数据库
[atguigu@hadoop102 software]$ schematool -initSchema -dbType mysql -verbose
2）启动metastore和hiveserver2

Hive 2.x以上版本，要先启动这两个服务，否则会报错：
FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
（1）启动metastore
[atguigu@hadoop202 hive]$ hive --service metastore 2021-11-24 16:58:08: Starting Hive Metastore Server
注意: 启动后窗口不能再操作，需打开一个新的shell窗口做别的操作

（2）启动 hiveserver2
[atguigu@hadoop202 hive]$ hive --service hiveserver2 which: no hbase in (/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/opt/module/jdk1.8.0_212/bin:/opt/module/hadoop-3.1.3/bin:/opt/module/hadoop-3.1.3/sbin:/opt/module/hive/bin:/home/atguigu/.local/bin:/home/atguigu/bin) 2021-11-24 17:00:19: Starting HiveServer2
注意: 启动后窗口不能再操作，需打开一个新的shell窗口做别的操作

3）编写hive服务启动脚本
由于前台启动的方式导致需要打开多个shell窗口，过于复杂，可以使用通过nohup后台启动

nohup: 放在命令开头，表示不挂起,也就是关闭终端进程也继续保持运行状态 2>&1 : 表示将错误重定向到标准输出上 &: 放在命令结尾,表示后台运行一般会组合使用: nohup [xxx命令操作]> file 2>&1 & ，表示将xxx命令运行的结果输出到file中，并保持命令启动的进程在后台运行。 [atguigu@hadoop202 hive]$ nohup hive --service metastore 2>&1 & [atguigu@hadoop202 hive]$ nohup hive --service hiveserver2 2>&1 &
编写脚本

创建脚本myhive.sh
[atguigu@hadoop102 hive]$ vim $HIVE_HOME/bin/myhive.sh #!/bin/bash HIVE_LOG_DIR=$HIVE_HOME/logs if [ ! -d $HIVE_LOG_DIR ] then mkdir -p $HIVE_LOG_DIR fi #检查进程是否运行正常，参数1为进程名，参数2为进程端口 function check_process() { pid=$(ps -ef 2>/dev/null | grep -v grep | grep -i $1 | awk '{print $2}') ppid=$(netstat -nltp 2>/dev/null | grep $2 | awk '{print $7}' | cut -d '/' -f 1) echo $pid [[ "$pid" =~ "$ppid" ]] && [ "$ppid" ] && return 0 || return 1 } function hive_start() { metapid=$(check_process HiveMetastore 9083) cmd="nohup hive --service metastore >$HIVE_LOG_DIR/metastore.log 2>&1 &" cmd=$cmd" sleep 4; hdfs dfsadmin -safemode wait >/dev/null 2>&1" [ -z "$metapid" ] && eval $cmd || echo "Metastroe服务已启动" server2pid=$(check_process HiveServer2 10000) cmd="nohup hive --service hiveserver2 >$HIVE_LOG_DIR/hiveServer2.log 2>&1 &" [ -z "$server2pid" ] && eval $cmd || echo "HiveServer2服务已启动" } function hive_stop() { metapid=$(check_process HiveMetastore 9083) [ "$metapid" ] && kill $metapid || echo "Metastore服务未启动" server2pid=$(check_process HiveServer2 10000) [ "$server2pid" ] && kill $server2pid || echo "HiveServer2服务未启动" } case $1 in "start") hive_start ;; "stop") hive_stop ;; "restart") hive_stop sleep 2 hive_start ;; "status") check_process HiveMetastore 9083 >/dev/null && echo "Metastore服务运行正常" || echo "Metastore服务运行异常" check_process HiveServer2 10000 >/dev/null && echo "HiveServer2服务运行正常" || echo "HiveServer2服务运行异常" ;; *) echo Invalid Args! echo 'Usage: '$(basename $0)' start|stop|restart|status' ;; esac
添加执行权限
[atguigu@hadoop102 hive]$ chmod +x $HIVE_HOME/bin/myhive.sh
启动Hive后台服务(需先启动hadoop)
[atguigu@hadoop102 hive]$ myhive.sh start
等一会查看hive启动状态：myhive.sh status

4.6 Hive客户端使用

Hive Client、Hive Beeline Client

Hive发展至今，总共历经了两代客户端工具。

第一代客户端（deprecated不推荐使用）：$HIVE_HOME/bin/hive, 是一个 shellUtil。主要功能：一是可用于以交互或批处理模式运行Hive查询；二是用于Hive相关服务的启动，比如metastore服务。

第二代客户端（recommended 推荐使用）：$HIVE_HOME/bin/beeline，是一个JDBC客户端，是官方强烈推荐使用的Hive命令行工具，和第一代客户端相比，性能加强安全性提高

Beeline Shell在嵌入式模式和远程模式下均可工作。在嵌入式模式下，它运行嵌入式 Hive(类似于Hive Client)，而远程模式下beeline通过 Thrift 连接到单独的 HiveServer2 服务上，这也是官方推荐在生产环境中使用的模式。
那么问题来了，HiveServer2是什么？HiveServer1哪里去了？

HiveServer、HiveServer2服务

HiveServer、HiveServer2都是Hive自带的两种服务，允许客户端在不启动CLI的情况下对Hive中的数据进行操作，且两个都允许远程客户端使用多种编程语言如java，python等向hive提交请求，取回结果。

但是，HiveServer不能处理多于一个客户端的并发请求。因此在Hive-0.11.0版本中重写了HiveServer代码得到了HiveServer2，进而解决了该问题。HiveServer已经被废弃。

HiveServer2支持多客户端的并发和身份认证，旨在为开放API客户端如JDBC、ODBC提供更好的支持。

Hive服务和客户端关系梳理

HiveServer2通过Metastore服务读写元数据。所以在远程模式下，启动HiveServer2之前必须先首先启动metastore服务。
特别注意：远程模式下，Beeline客户端只能通过HiveServer2服务访问Hive。而Hive Client是通过Metastore服务访问的。具体关系如下：

1）通过hive自带的beeline客户端访问

在启动hive后，使用JDBC的方式访问hive
[atguigu@hadoop102 hive]$ bin/beeline -u jdbc:hive2://hadoop102:10000 -n atguigu
看到如下界面
Connecting to jdbc:hive2://hadoop102:10000 Connected to: Apache Hive (version 3.1.2) Driver: Hive JDBC (version 3.1.2) Transaction isolation: TRANSACTION_REPEATABLE_READ Beeline version 3.1.2 by Apache Hive
0: jdbc:hive2://hadoop102:10000>
如果这里出问题了，参考：https://blog.csdn.net/u011495642/article/details/84305944

原因可能是在hadoop的core.site.xml缺少代理对象设置。

主要原因是hadoop引入了一个安全伪装机制，使得hadoop 不允许上层系统直接将实际用户传递到hadoop层，而是将实际用户传递给一个超级代理，由此代理在hadoop上执行操作，避免任意客户端随意操作hadoop。

2）hive脚本访问
[atguigu@hadoop202 hive]$ bin/hive
第五章 Hive初体验

5.1 Hive使用起来和Mysql差不多吗？

背景

对于初次接触Apache Hive的人来说，最大的疑惑就是：Hive从数据模型看起来和关系型数据库mysql等好像。包括Hive SQL也是一种类SQL语言。那么实际使用起来如何？

过程

体验步骤：按照mysql的思维，在hive中创建、切换数据库，创建表并执行插入数据操作，最后查询是否插入成功。
create database itcast;--创建数据库 show databases;--列出所有数据库 use itcast;--切换数据库
-建表 create table t_student(id int,name varchar(255)); --插入一条数据 insert into table t_student values(1,"allen"); --查询表数据 select * from t_student;
在执行插入数据的时候，发现插入速度极慢，sql执行时间很长，为什么？

最终插入一条数据，历史30秒的时间。

查询表数据，显示数据插入成功

验证

首先登陆Hadoop YARN上观察是否有MapReduce任务执行痕迹。
YARN Web UI: http://resourcemanager_host:8088/
然后登陆Hadoop HDFS浏览文件系统，根据Hive的数据模型，表的数据最终是存储在HDFS和表对应的文件夹下的。
HDFS Web UI: http://namenode_host:9870/

结论
- Hive SQL语法和标准SQL很类似,使得学习成本降低不少。
- Hive底层是通过MapReduce执行的数据插入动作,所以速度慢。
- 如果大数据集这么一条一条插入的话是非常不现实的，成本极高。
- Hive应该具有自己特有的数据插入表方式，结构化文件映射成为表。
5.2 体验2：如何才能将结构化数据映射成为表？

背景

在Hive中，使用insert+values语句插入数据，底层是通过MapReduce执行的，效率十分低下。此时回到Hive的本质上：可以将结构化的数据文件映射成为一张表，并提供基于表的SQL查询分析。
假如，现在有一份结构化的数据文件，如何才能映射成功呢？在映射成功的过程中需要注意哪些问题？不妨猜想文件的存储路径？字段类型？字段顺序？字段之间的分隔符问题？

过程

在HDFS根目录下创建一个结构化数据文件user.txt，里面内容如下
1,zhangsan,18,beijing 2,lisi,25,shanghai 3,allen,30,shanghai 4,woon,15,nanjing 5,james,45,hangzhou 6,tony,26,beijing
在hive中创建一张表t_user。注意：字段的类型顺序要和文件中字段保持一致。
create table t_user(id int,name varchar(255),age int,city varchar(255));
验证

执行数据查询操作，发现表中并没有数据。
猜想：难道数据文件要放置在表对应的HDFS路径下才可以成功？

再次执行查询操作，显示如下，都是null：

表感知到结构化文件的存在，但是并没有正确识别文件中的数据。猜想：还需要指定文件中字段之间的分隔符？重建张新表，指定分隔符。
--建表语句增加分隔符指定语句 create table t_user_1(id int,name varchar(255),age int,city varchar(255)) row format delimited fields terminated by ','; --关于分隔符语法后续学习展开 #把user.txt文件从本地文件系统上传到hdfs hadoop fs -put user.txt /user/hive/warehouse/itcast.db/t_user_1/ --执行查询操作 select * from t_user_1;
此时再创建一张表，保存分隔符语法，但是故意使得字段类型和文件中不一致。
--建表语句增加分隔符指定语句 create table t_user_2(id int,name int,age varchar(255),city varchar(255)) row format delimited fields terminated by ','; #把user.txt文件从本地文件系统上传到hdfs hadoop fs -put user.txt /user/hive/warehouse/itcast.db/t_user_2/ --执行查询操作 select * from t_user_2;
此时发现，有的列显示null，有的列显示正常。

name字段本身是字符串，但是建表的时候指定int，类型转换不成功；age是数值类型，建表指定字符串类型，可以转换成功。说明hive中具有自带的类型转换功能，但是不一定保证转换成功。

结论
- 要想在hive中创建表跟结构化文件映射成功，需要注意以下几个方面问题：
- 创建表时，字段顺序、字段类型要和文件中保持一致。
- 如果类型不一致，hive会尝试转换，但是不保证转换成功。不成功显示null。
- 文件好像要放置在Hive表对应的HDFS目录下，其他路径可以吗？
- 建表的时候好像要根据文件内容指定分隔符，不指定可以吗？
5.3 体验3：使用hive进行小数据分析如何？

背景

因为Hive是基于HDFS进行文件的存储，所以理论上能够支持的数据存储规模很大，天生适合大数据分析。假如Hive中的数据是小数据，再使用Hive开展分析效率如何呢？

过程

之前我们创建好了一张表t_user_1,现在通过Hive SQL找出当中年龄大于20岁的有几个。

验证
--执行查询操作 select count(*) from t_user_1 where age > 20;
发现又是通过MapReduce程序执行的数据查询功能。

结论
- Hive底层的确是通过MapReduce执行引擎来处理数据的
- 执行完一个MapReduce程序需要的时间不短
- 如果是小数据集，使用hive进行分析将得不偿失，延迟很高
- 如果是大数据集，使用hive进行分析，底层MapReduce分布式计算，很爽
作者：王陸

出处：https://www.cnblogs.com/wkfvawl/

-------------------------------------------

个性签名：罔谈彼短，靡持己长。做一个谦逊爱学的人！

本站使用「署名 4.0 国际」创作共享协议，转载请在文章明显位置注明作者及出处。鉴于博主处于考研复习期间，有什么问题请在评论区中提出，博主尽可能当天回复，加微信好友请注明原因
查看全文

相关阅读:
LoadRunner 技巧之集合点设置
 LoadRunner 技巧之 IP欺骗（推荐）
JMeter 聚合报告之 90% Line 参数说明
 python基础学习笔记（二）
LoadRunner 技巧之HTML 与 URL两种录制模式分析
 LoadRunner 技巧之检查点
 LoadRunner 技巧之思考时间设置
 一个JSlider的例子
 JApplet添加图片
 java.util.Arrays.asList 的小问题

原文地址：https://www.cnblogs.com/wkfvawl/p/15594717.html

第一章 Hive 基本概念

1.1 什么是 Hive

1.2 为什么使用Hive

1.3 Hive与Hadoop的关系

1.4 Hive与Mysql

第二章 Hive架构、组件

2.1 Hive架构图

2.2 Hive组件

第三章 Hive数据模型

3.1 Databases

3.2 Tables

3.3 Partitions

3.4 Buckets

第四章 Hive 安装

4.1 元数据相关名词

Metadata

Metastore

4.2 metastore三种配置方式

内嵌模式

本地模式

远程模式

4.3 Mysql的安装

4.4 Hive 安装地址

4.5 Hive 安装部署

安装 Hive

Hive的元数据配置到Mysql

Hive的启动

4.6 Hive客户端使用

Hive Client、Hive Beeline Client

HiveServer、HiveServer2服务

Hive服务和客户端关系梳理

第五章 Hive初体验

5.1 Hive使用起来和Mysql差不多吗？

背景

过程

验证

结论

5.2 体验2：如何才能将结构化数据映射成为表？

背景

过程

验证

结论

5.3 体验3：使用hive进行小数据分析如何？

背景

过程

验证

结论