大数据入门第二十三天——SparkSQL（二）结合hive

zoukankan html css js c++ java

大数据入门第二十三天——SparkSQL（二）结合hive
一、SparkSQL结合hive

　　1.首先通过官网查看与hive匹配的版本

　　　　

　　　　这里可以看到是1.2.1

　　2.与hive结合

　　spark可以通过读取hive的元数据来兼容hive，读取hive的表数据，然后在spark引擎中进行sql统计分析，从而，通过sparksql与hive结合实现数据分析将成为一种最佳实践。

　　3.hive安装与配置

　　　　略，之前已经安装

　　4.spark配置

　　　　将hive配置文件拷贝给spark：
cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf/
　　　　// 这里记得配置一下SPARK_HOME等！

　　　　将MySQL驱动拷贝给spark：
cp $HIVE_HOME/lib/mysql-connector-java-5.1.42.jar $SPARK_HOME/lib/
　　　　// hive不是分布式的，只有一台机器

　　　　启动发现频繁报错，找到解决办法：https://www.cnblogs.com/bianqi/p/7244036.html

2. 在$SPARK_HOME/conf/目录中，修改spark-env.sh，添加
    export HIVE_HOME=/usr/local/apache-hive-0.13.1-bin

  注:切记SPARK_CLASSPATH这一行必须的配置:（否则报错）
    export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-5.1.15-bin.jar:$SPARK_CLASSPATH

　　也就是在spark-env.sh中添加如下配置：
export HIVE_HOME=/home/hadoop/apps/hive-1.2.1 export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-5.1.42.jar:$SPARK_CLASSPATH
　　　5.启动

　　　　可以以spark-shell的方式启动，然后通过sqlContext.sql等方式执行

　　　　也可以直接启动spark-sql，更简单直接
查看全文

相关阅读:
什么是单例模式？
下拉列表（web）,用jQuery实现
 PS基础
 C#笔记
 C#基础篇--文件（流）
C#基础篇03
今天自学了网页上注册某某时的倒计时设置
 主数据管理的Jill Dyche, Evan Levy六层次模型
 scala akka 修炼之路6(scala函数式柯里化风格应用场景分析)
OpenWrt mt7620n双SSID实现原理

原文地址：https://www.cnblogs.com/jiangbei/p/8746441.html

大数据入门第二十三天——SparkSQL（二）结合hive

一、SparkSQL结合hive