zoukankan      html  css  js  c++  java
  • Linux 下spark安装

    一.安装前提:

    1.java环境(jdk1.8)

    2.scala环境(2.0)

    3.python 环境(3.5)  :注如果使用pyspark的话,这个才是必须的。

    二、spark安装

    在官网下载安装包:http://spark.apache.org/downloads.html

    创建并进入目录:/usr/software/spark目录下

    cd /usr/software/spark
    wget https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz
    

    解压安装包:

    tar -xf    spark-***-bin-hadoop**.tgz(对应着你下载的版本号)
    

    更新profile文件:

    sudo vi ~/etc/profile
    

    在profile文件中配置spark的环境变量

    #SET SPARK_HOME
    export SPARK_HOME=/usr/software/spark/spark-2.2.0-bin-hadoop2.7  
    export PATH=$SPARK_HOME/bin:$PATH
    

    注:路径  SPARK_HOME=/usr/software/spark/spark-2.2.0-bin-hadoop2.7 中的

      spark-2.2.0-bin-hadoop2.7 是解压后的目录

    三、运行pyspark

    进入spark安装位置, 然后进入spark中的 bin 文件夹

    cd  /usr/software/spark/spark-2.2.0-bin-hadoop2.7 /bin
    pyspark
    

    若是想用python程序直接启动pyspark的话,需要在/etc/profile文件中配置如下:

    # python can call pyspark directly
    export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/pyspark:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
    

     

    此时已配置好。

    四:注意事项

    自己当时安装时,出现了一个java.notfoundclass的异常,这个是配置问题。导致无法启动pyspark。

    解决方法:

    在/etc/host文件中绑定主机名和主机地址

    主机名:127.0.0.1

    主机地址:10.70.31.100 root@xxx后的XXX

    问题的解决地址  :https://stackoverflow.com/questions/23353477/trouble-installing-pyspark

  • 相关阅读:
    图像有用区域--------深搜和广搜的第一次二选一
    24Pointgame-----24点游戏
    CAP定理和BASE理论
    并查集
    七桥问题和一笔画
    组合数问题--------一种新的 搜索 思路
    最少换乘 之简化版
    吝啬的国度 ---用vector 来构图
    WGZX:javaScript 学习心得--1
    eclipse Maven -->web project
  • 原文地址:https://www.cnblogs.com/lyr2015/p/7988661.html
Copyright © 2011-2022 走看看