Spark 在 Window 环境下的搭建

zoukankan html css js c++ java

Spark 在 Window 环境下的搭建

1.java/scala的安装 - 安装JDK
下载：
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
jdk-8u151-windows-x64
双击傻瓜式一步一步安装，需要等一点时间，最终安装在C:Program FilesJava目录下
JRE： Java Runtime Environment
JDK：Java Development Kit
配置环境变量(右击我的电脑- 属性- 高级系统设置 - 环境变量 )：
新增JAVA_HOME=C:Program FilesJavajdk1.8.0_151
在系统变量Path中追加 %JAVA_HOME%/bin;
打开cmd验证java -version是否安装成功

2java/scala的安装 - 安装scala
下载： http://www.scala-lang.org/download/2.11.8.html
scala-2.11.8.zip
将下载下来的zip包放置C:Program Filesscala，然后解压
配置环境变量(右击我的电脑- 属性- 高级系统设置 - 环境变量 )：
新增SCALA_HOME=C:Program Filesscalascala-2.11.8
在系统变量Path中追加 %SCALA_HOME%/bin;
打开cmd验证scala是否安装成功

3.安装hadoop
下载
http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz
hadoop-2.6.5.tar.gz
将包hadoop-2.6.5.tar.gz放置在D:spark下，并且解压
配置环境变量(右击我的电脑- 属性- 高级系统设置 - 环境变量 )：
新增HADOOP_HOME=D:sparkhadoop-2.6.5hadoop-2.6.5
将hadoop的插件包放入到HADOOP_HOME/bin下(mac和linux系统不需要做这一步)
4.安装maven

下载：http://maven.apache.org/download.cgi
apache-maven-3.5.0-bin.tar.gz
将下载下来的包放置在D:spark中，并且解压
配置conf/settings.xml的仓储
配置环境变量(右击我的电脑- 属性- 高级系统设置 - 环境变量 ):
M2_HOME=D:sparkapache-maven-3.5.0
且将%M2_HOME%/bin追加到系统变量Path中
打开cmd运行mvn -version，看看是否安装成功

5.eclipse - scala/java语言开发

下载： http://www.eclipse.org/
eclipse-inst-win64
双击安装eclipse-inst-win64，选择“Eclipse IDE for Java Developers”
选择初始化目录为：D:eclipse-java，然后点击INSTALL, 开始安装，需要一点点时间
安装完，则点击桌面快捷方式，选择workspace为：D:workspaceeclipse，点击launch
集成maven
6.eclipse集成scala
help -> Eclipse Marketplace 搜索scala，然后install Scala IDE
保证eclipse集成了maven。默认是支持的
设置Group Id: net.alchim31.maven Artifact Id: scala-archetype-simple Version:1.6
第一种方式：maven配置添加：http://repo1.maven.apache.org/maven2/archetype-catalog.xml

可以将这个archetype-catalog.xml下载到本地，然后在设置local archetypem模式
第二种方式：安装m2-scala
help -> Install New Software -> http://alchim31.free.fr/m2e-scala/update-site/

新建maven项目 - spark-wordcount-eclipse
设置开发spark应用需要的相关依赖
开发spark应用
本地调试spark应用

7.IntelliJ IDEA - java/scala语言开发

下载： https://www.jetbrains.com/idea/download/#section=windows
ideaIC-2017.2.5

双击ideaIC-2017.2.5，然后一步一步安装，需要一点时间,
最终安装在C:Program FilesJetBrainsIntelliJ IDEA Community Edition 2017.2.5
idea集成scala，在plugins中搜索scala，并且install，安装完这个插件就重启IDEA
idea集成maven
新建maven项目 - spark-wordcount-idea
设置开发spark应用需要的相关依赖
开发spark应用
本地调试spark应用

8.本地安装spark 2.x

下载 http://spark.apache.org/downloads.html
spark-2.2.0-bin-hadoop2.6.tgz
将包spark-2.2.0-bin-hadoop2.6.tgz放置在D:spark下，并且解压
配置环境变量：
新增SPARK_HOME=D:sparkspark-2.2.0-bin-hadoop2.6
在系统变量Path中追加 %SPARK_HOME%/bin;

9.本地启动spark-shell
在cmd中执行：
D:sparkhadoop-2.6.5inwinutils.exe chmod 777 D: mphive
cmd进入到D:spark目录下，然后执行spark-shell

10.安装python

下载： https://www.python.org/downloads/release/python-2710/
python-2.7.10.amd64
双击python-2.7.10.amd64，然后一步一步安装，需要一点时间，
python将默认安装到C:Python27目录下
配置环境变量：将python的安装路径追加到Path中
打开cmd,输入python，看看python是否安装成功

11.PyCharm – python语言开发

下载： https://www.jetbrains.com/pycharm/download/#section=windows
pycharm-community-2017.2.3
双击pycharm-community-2017.2.3，然后一步一步安装，需要一点时间
新建python项目，spark-wordcount-python
在pycharm中将开发spark依赖的python设置到PYTHONPATH中
PYTHONPATH
D:sparkspark-2.2.0-bin-hadoop2.6python;D:sparkspark-2.2.0-bin-hadoop2.6pythonlibpy4j-0.10.4-src.zip
项目关联py4j-some-version.zip和pyspark.zip两个zip包

12.PyCharm – python语言开发

开发spark应用
本地调试spark应用

13.集群spark-submit提交应用

将spark应用打成jar包，用filezilla工具将jar包上传至服务器
用xshell连上服务器，用下面的命令进行提交scala/java spark应用
hadoop fs -rm -r hdfs://master:9999/user/hadoop-twq/wordcount
spark-submit
--class com.twq.WordCountScala
--master spark://master:7077
--deploy-mode client
--driver-memory 1g
--executor-memory 1g
--num-executors 2
--conf spark.wordcount.dataPath=hdfs://master:9999/user/hadoop-twq/
spark-wordcount-idea-1.0-SNAPSHOT.jar

14.集群spark-submit提交应用

将spark应用打成zip包，用filezilla工具将zip包上传至服务器
用xshell连上服务器，用下面的命令进行提交python spark应用
hadoop fs -rm -r hdfs://master:9999/user/hadoop-twq/wordcount
spark-submit
--master spark://master:7077
--deploy-mode client
--driver-memory 1g
--executor-memory 1g
--num-executors 2
wordcount.py hdfs://master:9999/user/hadoop-twq

15.spark源码环境搭建

git客户端下载和安装
https://git-for-windows.github.io/
打开git客户端，执行git clone https://github.com/apache/spark.git
打开IDEA，设置git
将源代码导入到IDEA中

查看全文

相关阅读:
bzoj 3155: Preprefix sum
bzoj 1854: [Scoi2010]游戏
 UVA1608 不无聊的序列 Non-boring sequences
UVA1747 【Swap Space】
Luogu P5550 Chino的数列
 bzoj 1799: [Ahoi2009]self 同类分布
 bzoj 1054: [HAOI2008]移动玩具
 MATLAB工具箱，应用程序，软件和资源的精选清单
 论文格式排版Issue及解决办法
 《将博客搬至CSDN》

原文地址：https://www.cnblogs.com/gylhaut/p/9192799.html