zoukankan      html  css  js  c++  java
  • PySpark环境搭建

    PySpark环境搭建需要以下的安装包或者工具:

    • Anaconda
    • JDK1.8
    • hadoop2.6
    • hadooponwindows-master
    • spark2.0
    • py4j
    • pyspark扩展包

    1、hadoop

    这里不详细说明Anaconda、JDK的安装与配置过程,主要说明与spark相关内容,提供的安装包:

    链接:https://pan.baidu.com/s/15NBgNWCGxIQ3tA_vLLMOww
    提取码:sx81

    下载后:

       将其进行解压,注意的是hadoop与spark这样的包无法在windows上进行运行,所以引入hadooponwindows-master包,首先我们需要对解压后的hadoop文件夹中的biN目录进行覆盖,使用hadooponwindows-master中的bin目录进行覆盖。

    (1)拷贝

     将hadooponwindows-master中的bin目录进行拷贝。

    (2)覆盖

     将hadoop中的bin目录进行替换

    (3)系统环境变量

    这里不要忘记系统环境变量的配置

     加入到path中:

    2、spark

    spark需要配置一下系统环境变量,与上面基本一样:

     加入到path中:

    3、py4j

    利用anaconda新建一个虚拟环境:

    conda  create -n pyspark_study python=3.5.2

    进入虚拟环境安装py4j包,它是用于Java与Python进行交互使用的包:

    (pyspark_study) C:UsersAdministrator>conda install py4j

    4、pyspark扩展包

    在上述虚拟环境的sitepackage下新建pyspark.pth文件,里面写入spark中python的路径:

    (1)查看spark路径

     (2)安装pyspark扩展包

    进入虚拟环境的sitepackage下新建pyspark.pth,并写入上述路径:

    写入路径:

    I:hadoop-pysparkspark-2.0.2-bin-hadoop2.6python

    这样环境就配置好了,此时可以在cmd命令行窗口进行启动pyspark了。

    4、启动pyspark

    启动命令:

    C:UsersAdministrator>pyspark

  • 相关阅读:
    leetcode211
    leetcode209
    leetcode201
    leetcode1396
    leetcode1395
    leetcode1394
    leetcode1386
    leetcode1387
    leetcode1382
    leetcode1376
  • 原文地址:https://www.cnblogs.com/shenjianping/p/12589043.html
Copyright © 2011-2022 走看看