zoukankan      html  css  js  c++  java
  • 大数据入门第二十三天——SparkSQL(二)结合hive

    一、SparkSQL结合hive

      1.首先通过官网查看与hive匹配的版本

        

        这里可以看到是1.2.1

      2.与hive结合

      spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过sparksql与hive结合实现数据分析将成为一种最佳实践。

      3.hive安装与配置

        略,之前已经安装

       4.spark配置

        将hive配置文件拷贝给spark:

    cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf/

        // 这里记得配置一下SPARK_HOME等!

        将MySQL驱动拷贝给spark:

    cp $HIVE_HOME/lib/mysql-connector-java-5.1.42.jar $SPARK_HOME/lib/

        // hive不是分布式的,只有一台机器

        启动发现频繁报错,找到解决办法:https://www.cnblogs.com/bianqi/p/7244036.html

    2. 在$SPARK_HOME/conf/目录中,修改spark-env.sh,添加
        export HIVE_HOME=/usr/local/apache-hive-0.13.1-bin

      注:切记SPARK_CLASSPATH这一行必须的配置:(否则报错)
        export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-5.1.15-bin.jar:$SPARK_CLASSPATH

      也就是在spark-env.sh中添加如下配置:

    export HIVE_HOME=/home/hadoop/apps/hive-1.2.1
    export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-5.1.42.jar:$SPARK_CLASSPATH

       5.启动

        可以以spark-shell的方式启动,然后通过sqlContext.sql等方式执行

        也可以直接启动spark-sql,更简单直接

  • 相关阅读:
    钢镚开发的第7天
    钢镚儿开发的第六天
    钢镚儿开发的第五天
    钢镚儿开发第三、第四天
    4.18第九周学习进度
    人与神话阅读笔记02
    钢镚儿开发第二天
    热词云
    钢镚儿开发第一天
    [Usaco2006 Mar]Mooo 奶牛的歌声
  • 原文地址:https://www.cnblogs.com/jiangbei/p/8746441.html
Copyright © 2011-2022 走看看