zoukankan      html  css  js  c++  java
  • Linux 下spark安装

    一.安装前提:

    1.java环境(jdk1.8)

    2.scala环境(2.0)

    3.python 环境(3.5)  :注如果使用pyspark的话,这个才是必须的。

    二、spark安装

    在官网下载安装包:http://spark.apache.org/downloads.html

    创建并进入目录:/usr/software/spark目录下

    cd /usr/software/spark
    wget https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz
    

    解压安装包:

    tar -xf    spark-***-bin-hadoop**.tgz(对应着你下载的版本号)
    

    更新profile文件:

    sudo vi ~/etc/profile
    

    在profile文件中配置spark的环境变量

    #SET SPARK_HOME
    export SPARK_HOME=/usr/software/spark/spark-2.2.0-bin-hadoop2.7  
    export PATH=$SPARK_HOME/bin:$PATH
    

    注:路径  SPARK_HOME=/usr/software/spark/spark-2.2.0-bin-hadoop2.7 中的

      spark-2.2.0-bin-hadoop2.7 是解压后的目录

    三、运行pyspark

    进入spark安装位置, 然后进入spark中的 bin 文件夹

    cd  /usr/software/spark/spark-2.2.0-bin-hadoop2.7 /bin
    pyspark
    

    若是想用python程序直接启动pyspark的话,需要在/etc/profile文件中配置如下:

    # python can call pyspark directly
    export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/pyspark:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
    

     

    此时已配置好。

    四:注意事项

    自己当时安装时,出现了一个java.notfoundclass的异常,这个是配置问题。导致无法启动pyspark。

    解决方法:

    在/etc/host文件中绑定主机名和主机地址

    主机名:127.0.0.1

    主机地址:10.70.31.100 root@xxx后的XXX

    问题的解决地址  :https://stackoverflow.com/questions/23353477/trouble-installing-pyspark

  • 相关阅读:
    面向对象程序设计六大原则
    获取View的快照
    Xcode调试之exc_bad_access以及 message sent to deallocated instance
    OOA/OOD/OOP
    检测网络是否有效
    图像IO
    iOS应用性能调优的25个建议和技巧
    iOS围绕某点缩放或旋转的AnchorPoint的设定
    NPOI导出Excel2007板
    不同三级域名与二级域名之间互相共享Cookie
  • 原文地址:https://www.cnblogs.com/lyr2015/p/7988661.html
Copyright © 2011-2022 走看看