zoukankan      html  css  js  c++  java
  • Spark 在 Window 环境下的搭建

    1.java/scala的安装 - 安装JDK
    下载:
    http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
    jdk-8u151-windows-x64
    双击傻瓜式一步一步安装,需要等一点时间,最终安装在C:Program FilesJava目录下
    JRE: Java Runtime Environment
    JDK:Java Development Kit
    配置环境变量(右击我的电脑- 属性- 高级系统设置 - 环境变量 ):
    新增JAVA_HOME=C:Program FilesJavajdk1.8.0_151
    在系统变量Path中追加 %JAVA_HOME%/bin;
    打开cmd验证java -version是否安装成功

    2java/scala的安装 - 安装scala
    下载: http://www.scala-lang.org/download/2.11.8.html
    scala-2.11.8.zip
    将下载下来的zip包放置C:Program Filesscala,然后解压
    配置环境变量(右击我的电脑- 属性- 高级系统设置 - 环境变量 ):
    新增SCALA_HOME=C:Program Filesscalascala-2.11.8
    在系统变量Path中追加 %SCALA_HOME%/bin;
    打开cmd验证scala是否安装成功

    3.安装hadoop
    下载
    http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz 
    hadoop-2.6.5.tar.gz
    将包hadoop-2.6.5.tar.gz放置在D:spark下,并且解压
    配置环境变量(右击我的电脑- 属性- 高级系统设置 - 环境变量 ):
    新增HADOOP_HOME=D:sparkhadoop-2.6.5hadoop-2.6.5
    将hadoop的插件包放入到HADOOP_HOME/bin下(mac和linux系统不需要做这一步)
    4.安装maven

    下载:http://maven.apache.org/download.cgi
    apache-maven-3.5.0-bin.tar.gz
    将下载下来的包放置在D:spark中,并且解压
    配置conf/settings.xml的仓储
    配置环境变量(右击我的电脑- 属性- 高级系统设置 - 环境变量 ):
    M2_HOME=D:sparkapache-maven-3.5.0
    且将%M2_HOME%/bin追加到系统变量Path中
    打开cmd运行mvn -version,看看是否安装成功

    5.eclipse - scala/java语言开发

    下载: http://www.eclipse.org/ 
    eclipse-inst-win64
    双击安装eclipse-inst-win64,选择“Eclipse IDE for Java Developers”
    选择初始化目录为:D:eclipse-java,然后点击INSTALL, 开始安装,需要一点点时间
    安装完,则点击桌面快捷方式,选择workspace为:D:workspaceeclipse,点击launch
    集成maven
    6.eclipse集成scala
    help -> Eclipse Marketplace 搜索scala,然后install Scala IDE
    保证eclipse集成了maven。默认是支持的
    设置Group Id: net.alchim31.maven Artifact Id: scala-archetype-simple Version:1.6
    第一种方式:maven配置添加 :http://repo1.maven.apache.org/maven2/archetype-catalog.xml

    可以将这个archetype-catalog.xml下载到本地,然后在设置local archetypem模式
    第二种方式:安装m2-scala
    help -> Install New Software -> http://alchim31.free.fr/m2e-scala/update-site/

    新建maven项目 - spark-wordcount-eclipse
    设置开发spark应用需要的相关依赖
    开发spark应用
    本地调试spark应用

    7.IntelliJ IDEA - java/scala语言开发

    下载: https://www.jetbrains.com/idea/download/#section=windows
    ideaIC-2017.2.5

    双击ideaIC-2017.2.5,然后一步一步安装,需要一点时间,
    最终安装在C:Program FilesJetBrainsIntelliJ IDEA Community Edition 2017.2.5
    idea集成scala, 在plugins中搜索scala,并且install, 安装完这个插件就重启IDEA
    idea集成maven
    新建maven项目 - spark-wordcount-idea
    设置开发spark应用需要的相关依赖
    开发spark应用
    本地调试spark应用

    8.本地安装spark 2.x

    下载 http://spark.apache.org/downloads.html
    spark-2.2.0-bin-hadoop2.6.tgz
    将包spark-2.2.0-bin-hadoop2.6.tgz放置在D:spark下,并且解压
    配置环境变量:
    新增SPARK_HOME=D:sparkspark-2.2.0-bin-hadoop2.6
    在系统变量Path中追加 %SPARK_HOME%/bin;

    9.本地启动spark-shell
    在cmd中执行 :
    D:sparkhadoop-2.6.5inwinutils.exe chmod 777 D: mphive
    cmd进入到D:spark目录下,然后执行spark-shell

    10.安装python

    下载: https://www.python.org/downloads/release/python-2710/
    python-2.7.10.amd64
    双击python-2.7.10.amd64,然后一步一步安装,需要一点时间,
    python将默认安装到C:Python27目录下
    配置环境变量:将python的安装路径追加到Path中
    打开cmd,输入python,看看python是否安装成功

    11.PyCharm – python语言开发

    下载: https://www.jetbrains.com/pycharm/download/#section=windows
    pycharm-community-2017.2.3
    双击pycharm-community-2017.2.3,然后一步一步安装,需要一点时间
    新建python项目,spark-wordcount-python
    在pycharm中将开发spark依赖的python设置到PYTHONPATH中
    PYTHONPATH
    D:sparkspark-2.2.0-bin-hadoop2.6python;D:sparkspark-2.2.0-bin-hadoop2.6pythonlibpy4j-0.10.4-src.zip
    项目关联py4j-some-version.zip和pyspark.zip两个zip包

    12.PyCharm – python语言开发

    开发spark应用
    本地调试spark应用

    13.集群spark-submit提交应用

    将spark应用打成jar包,用filezilla工具将jar包上传至服务器
    用xshell连上服务器,用下面的命令进行提交scala/java spark应用
    hadoop fs -rm -r hdfs://master:9999/user/hadoop-twq/wordcount
    spark-submit
    --class com.twq.WordCountScala
    --master spark://master:7077
    --deploy-mode client
    --driver-memory 1g
    --executor-memory 1g
    --num-executors 2
    --conf spark.wordcount.dataPath=hdfs://master:9999/user/hadoop-twq/
    spark-wordcount-idea-1.0-SNAPSHOT.jar

    14.集群spark-submit提交应用

    将spark应用打成zip包,用filezilla工具将zip包上传至服务器
    用xshell连上服务器,用下面的命令进行提交python spark应用
    hadoop fs -rm -r hdfs://master:9999/user/hadoop-twq/wordcount
    spark-submit
    --master spark://master:7077
    --deploy-mode client
    --driver-memory 1g
    --executor-memory 1g
    --num-executors 2
    wordcount.py hdfs://master:9999/user/hadoop-twq

    15.spark源码环境搭建

    git客户端下载和安装
    https://git-for-windows.github.io/
    打开git客户端,执行git clone https://github.com/apache/spark.git
    打开IDEA,设置git
    将源代码导入到IDEA中

  • 相关阅读:
    关于最短路算法
    牛客网练习赛7-D-无向图(bfs,链式前向星)
    51nod蜥蜴与地下室(1498)(暴力搜索)
    poj1062昂贵的聘礼(枚举+最短路)
    训练题(代码未检验)(序列前k大和问题)
    两个序列求前k大和
    欧拉回路
    hdu 6063 RXD and math
    hdu 6066 RXD's date
    bzoj 4300 绝世好题
  • 原文地址:https://www.cnblogs.com/gylhaut/p/9192799.html
Copyright © 2011-2022 走看看