spark windows环境下spark安装和运行(1)

zoukankan html css js c++ java

spark windows环境下spark安装和运行(1)

本文主要记录windows系统上安装spark，scala，和intelj IDEA，并实现本地spark运行。同时介绍了利用maven构建工具对spark工程构建的方法。本地运行需要本地安装scala，spark，hadoop。而如果利用maven构建工具则只需要再maven的pom.xml配置好需要的scala，spark，hadoop版本信息，构建时自动导入相应依赖，常用于企业级的项目开发中。

一，安装篇
这部分介绍常规spark本地运行的必要软件安装。而如果你使用的是Maven构建工具，那么下面的步骤3，4，5都可以略过（由maven根据配置文件自动构建），我们只用安装最基本的1，2以及6环境变量中与JAVA相关的部分。maven安装见本节7。

本地安装部分更详细的可以参考：https://blog.csdn.net/u011513853/article/details/52865076

1，安装jdk,需要是jdk8（也被称为jdk1.8）

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

环境变量：

创建JAVA_HOME：C:Program FilesJavajdk1.8.0_181

创建CLASSPATH：.;%JAVA_HOME%lib;%JAVA_HOME%lib ools.jar(前面有个点号)

Path添加：%JAVA_HOME%in;

测试是否安装成功：打开cmd命令行，输入java -version

2，安装intelj IDEA并配置scala插件

https://www.jetbrains.com/idea/

IDEA安装完成后，安装scala插件：启动intelj -> 点击启动页configuration -> Plugins，或者file->setting->Plugins，搜索scala并安装插件。如果搜不到，可能是需要代理：Install JetBrains plugin... -> HTTP Proxy Settings设置代理。

安装完成后要重启IDEA。

3，安装spark

下载后解压到指定目录即可，这里我们选择2.4.5 版本

http://spark.apache.org/downloads.html

环境变量：

创建SPARK_HOME：D:spark-2.4.5-bin-hadoop2.7

Path添加：%SPARK_HOME%in

测试是否安装成功：打开cmd命令行，输入spark-shell

spark-shell时报错：error not found：value sqlContext。参考：https://www.liyang.site/2017/04/19/20170419-spark-error-01/

4，安装Hadoop

说明：如果你只是玩Spark On Standalone的话，就不需要安装hadoop，如果你想玩Spark On Yarn或者是需要去hdfs取数据的话，就应该先装hadoop。关于spark和hadoop的关系，强烈推荐这篇博客：Spark是否会替代Hadoop?

安装上面spark对应版本的hadoop 2.7:http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz

解压到指定目录即可。

环境变量：

创建HADOOP_HOME：D:hadoop-2.7.7

Path添加：%HADOOP_HOME%in

测试是否安装成功：打开cmd命令行，输入hadoop

hadoop测试时报错：Error: JAVA_HOME is incorrectly set。参考：https://blog.csdn.net/qq_24125575/article/details/76186309

打开E:hadoop-2.7.3etchadoophadoop-env.cmd(你的文件在哪就去哪找)

原来是配置文件的问题，我的JAVA_HOME目录是C:Program FilesJavajdk1.8.0_121，因为Program Files中存在空格，所以出现错误，只需要用
PROGRA~1代替Program Files即可，即改为C:PROGRA~1Javajdk1.8.0_121，当然，你也可以讲jdk装到根目录或者不存在空格等目录下。

5，安装scala SDK

其版本应与上面spark/jars/中scala版本一致，2.2.0版本spark对应的scala版本位2.11.8，https://www.scala-lang.org/download/2.11.8.html

上面链接中提到了多种scala的安装方式，比较省事的是通过已经安装好scala插件的intelj IDEA安装scala SDK（注意区分插件和SDK）：File => New => Project，选择scala，输入工程名，如果是第一次新建scala工程，会有一个scala SDK的Create按钮，然后选择需要的版本安装。

而我使用的是安装包安装方式：

环境变量：

创建SCALA_HOME: C:Program Files (x86)scala

Path添加：;%SCALA_HOME%in; %JAVA_HOME%in;;%HADOOP_HOME%in

测试是否安装成功：打开cmd命令行，输入scala

7，maven构建工具安装（如果不用maven构建工具，不用装）

http://maven.apache.org/download.cgi

也是下载后解压即可。

环境变量：

MAVEN_HOME = D:apache-maven-3.5.4

MAVEN_OPTS = -Xms128m -Xmx512m

path添加：%MAVEN_HOME%in

测试是否安装成功：打开cmd，输入mvn help:system

8. 问题解决：

spark-shell命令报错：

关于 winutils.exe 文件：下载路径：https://github.com/cdarlint/winutils 码云： https://gitee.com/leolzi/winutils

下载下来后找到对应的bin 下的文件拷贝进去

查看全文

相关阅读:
[opencv] 生成标定棋盘格
 [opencv] cmake编译opencv并去窗口边框
 [opencv] matlab生成opencv可读的xml
[matlab] vc++和matlab混合编程
 全息摄影
 [opencv&opengl]多窗口显示
 CPLEX
ios读取设备姿态并传输
 python: 基本知识记录
 css: position的使用；

原文地址：https://www.cnblogs.com/leolzi/p/12726174.html