Spark On Hive 配置步骤
在Spark客户端安装包下的conf目录中创建文件hive-site.xml,配置hive的metastore路径
<configuration> <property> <name>hive.metastore.uris</name> <value>thrift://node01:9083</value> </property> </configuration>
后台启动Hive的metastore服务
nobup hive --service metastore &
启动zookeeper集群,启动Hadoop集群
启动SparkShell 读取Hive中的表总数,对比hive中查询同一表查询总数测试时间
注意
如果使用Spark on Hive 查询数据时,出现错误:
找不到Hadoop集群路径,要在客户端机器conf/spark-env.sh中设置Hadoop的路径:
总结
上面写了一大堆,其实总体就两步:
配置hive的metastore路径
设置Hadoop路径