整合:
1,需要将hive-site.xml文件拷贝到Spark的conf目录下,这样就可以通过这个配置文件找到Hive的元数据以及数据存放位置。
2,如果Hive的元数据存放在Mysql中,我们还需要准备好Mysql相关驱动,比如:mysql-connector-java-5.1.35.jar。
测试:
先启动hadoop集群,在启动spark集群,确保启动成功之后执行命令:
spark-sql --master spark://bigdata-01:7077 --executor-memory 1g --total-executor-cores 2 --conf spark.sql.warehouse.dir=hdfs://bigdata-01:9000/user/hive/warehouse
--spark.sql.warehouse.dir=hdfs://bigdata-01:9000/user/hive/warehouse 是把warehose元数据信息放到hdfs上
日志太多,我们可以修改spark的日志输出级别(conf/log4j.properties)。