SparkSQL & Spark on Hive & Hive on Spark

zoukankan html css js c++ java

SparkSQL & Spark on Hive & Hive on Spark
刚开始接触Spark被Hive在Spark中的作用搞得云里雾里，这里简要介绍下，备忘。

参考：https://blog.csdn.net/zuochang_liu/article/details/82292076

SparkSQL：是一个完全不依赖Hive的SQL引擎。

Spark On Hive

通过sparksql，加载hive的配置文件，获取到hive的元数据信息；spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据；接下来就可以通过spark sql来操作hive表中的数据。也就是说仅仅是将Hive作为一个数据仓库，并没有用到Hive的SQL执行引擎的能力。代码在内核代码spark-hive_2.11工程中。

Hive On Spark

是把hive查询从mapreduce 的mr (hadoop 计算引擎)操作替换为spark rdd 操作；将HQL翻译成分布式可以执行的Spark程序。Hive和SparkSQL都不负责计算。也就是一个为Spark计算框架定制的Hive。和Hive基本上没有关系，耦合之处为：HQL、元数据库、UDF、序列化、反序列化机制。它是一个单独的工程，和Spark内核代码独立，但是Spark依赖于Hive On Spark， Spark中的某些模块执行过程中会调用Hive on Spark. 例如Spark JDBCServer：

Hive原来的计算模型是MR，频繁操作磁盘（将中间结果写入到HDFS中）效率低。而Hive On Spark中使用了RDD（Dataframe）,然后运行在spark集群上面。元数据保存在mysql中，其中包含了hive表的描述信息，描述了那些数据库、表，以及表有多少列，每一列都是什么类型，还要描述表的数据保存在HDFS的什么位置。

Hive元数据库的功能

　　hive的元数据（metadata）建立了一种映射关系，执行HQL是，先到Mysql元数据库中查找描述信息，然后根据描述信息生成任务，然后将任务下发到spark集群中执行。hive on spark使用的仅仅是hive的标准和规范，不需要有hive数据库一样可以使用。要使用Hive的标准需要将hive的配置文件放在spark的conf目录下。没有安装Hive组件也没有影响。

要在Spark-Submit进程中使用开启spark对hive的支持：
val session = SparkSession.builder() .master("local") .appName("xx") .enableHiveSupport() .getOrCreate()
　　
查看全文

相关阅读:
keepalived排错
 shell脚本记录
 mysql(mariadb)主从配置
 添加硬盘设备
 天数
 centos7网络配置总结
 Keepalibed监控nginx
zabbix安装
 基于JWT的web api身份验证及跨域调用
 C# webapi 权限验证

原文地址：https://www.cnblogs.com/maxigang/p/10324513.html