zoukankan      html  css  js  c++  java
  • 大数据入门第二十三天——SparkSQL(二)结合hive

    一、SparkSQL结合hive

      1.首先通过官网查看与hive匹配的版本

        

        这里可以看到是1.2.1

      2.与hive结合

      spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过sparksql与hive结合实现数据分析将成为一种最佳实践。

      3.hive安装与配置

        略,之前已经安装

       4.spark配置

        将hive配置文件拷贝给spark:

    cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf/

        // 这里记得配置一下SPARK_HOME等!

        将MySQL驱动拷贝给spark:

    cp $HIVE_HOME/lib/mysql-connector-java-5.1.42.jar $SPARK_HOME/lib/

        // hive不是分布式的,只有一台机器

        启动发现频繁报错,找到解决办法:https://www.cnblogs.com/bianqi/p/7244036.html

    2. 在$SPARK_HOME/conf/目录中,修改spark-env.sh,添加
        export HIVE_HOME=/usr/local/apache-hive-0.13.1-bin

      注:切记SPARK_CLASSPATH这一行必须的配置:(否则报错)
        export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-5.1.15-bin.jar:$SPARK_CLASSPATH

      也就是在spark-env.sh中添加如下配置:

    export HIVE_HOME=/home/hadoop/apps/hive-1.2.1
    export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-5.1.42.jar:$SPARK_CLASSPATH

       5.启动

        可以以spark-shell的方式启动,然后通过sqlContext.sql等方式执行

        也可以直接启动spark-sql,更简单直接

  • 相关阅读:
    什么是单例模式?
    下拉列表(web),用jQuery实现
    PS基础
    C#笔记
    C#基础篇--文件(流)
    C#基础篇03
    今天自学了网页上注册某某时的倒计时设置
    主数据管理的Jill Dyche, Evan Levy六层次模型
    scala akka 修炼之路6(scala函数式柯里化风格应用场景分析)
    OpenWrt mt7620n双SSID实现原理
  • 原文地址:https://www.cnblogs.com/jiangbei/p/8746441.html
Copyright © 2011-2022 走看看