zoukankan      html  css  js  c++  java
  • PySpark 安装教程 使用 Jupyter 作编辑器

    Spark 的安装并不依赖于安装 Hadoop。 当在本地运行Spark的时候,Hadoop并不是必要条件,但依然在运行spark的时候会有一些错误,但你忽略即可,无伤大雅。 只有在集群上运行Spark的时候,才需要 Hadoop

    环境:Windows 10

    安装分为以下步骤:

    • Java的安装(JDK)
    • Python的安装(Anaconda)
    • pyspark的安装
    • Jupyter的设置

    JDK 的安装

    在JDK官网(OpenJDK, oraclejdk都行)下载安装包,依次点击下一步即可。此处是用的OpenJDK, 安装后将 C:Program FilesAdoptOpenJDKjdk-14.0.1.7-hotspotin 添加进系统的path

    path 的添加步骤是: 计算机->右击->属性->系统属性->高级->环境变量->系统变量->找到path

    成功的标准是在 powershell 中是否可以识别 java 命令:

    java

    python 的安装

    此处使用 anaconda , 在官网下载最近安装包,注意过程中将 conda 的命令添加进入 path 方便使用。

    anaconda 安装成功的标志是可以识别 python 命令, conda 命令。

    python

    conda

    Spark 的安装

    在 spark 官网下载安装包,名字大概是叫这个: spark-3.0.0-bin-hadoop3.2.tgz,用 7zip 解压,成为tar,再解压一次成为文件夹。我解压到了E:spark-3.0.0-bin-hadoop3.2,进入E:spark-3.0.0-bin-hadoop3.2in 将这个路径添加上path,和上方一样的步骤。

    安装成功的标志是在powershell中输入 pyspark 可以识别命令。出现类型下面的图就行了,不用管上方的错误提示。

    spark

    pyspark 的安装

    先更改conda的源到清华的镜像,否则慢到抓狂。 见这个链接: https://www.cnblogs.com/heenhui2016/p/12375305.html

    打开一个powershell, 输入 conda install pyspark, 确认输入y,等待下载与安装。

    评价是否安装成功的标准是输出以下命令没有报错:

    import pyspark
    

    jupyter 的设置

    • 添加PYSPARK_DRIVER_PYTHON=jupyter到系统变量
    • 添加PYSPARK_DRIVER_PYTHON_OPTS=lab到系统变量

    jupyetr_var

    注意,我是用 jupyter lab 做编辑器,而不是 jupyter notebook,若是以 notebook 作编辑器,将 PYSPARK_DRIVER_PYTHON_OPTS=notebook 添加到系统变量即可。

    成功的标志是运行以下代码没有出毛病:

    from pyspark import SparkContext
    sc = SparkContext("local", "Hello World App")
    

    查看版本和相关信息

    sparkversion

    如图中有个 sparkUI 的链接,点进去可查看Spark的运行情况等。

  • 相关阅读:
    使用SHA256WithRSA来签名和验签(.NET/C#)
    对2个hex(16进制)字符串进行异或操作
    Java DESede 加解密("DESede/ECB/PKCS5Padding")
    获取公钥证书的DN(Distinguished Name)
    Java DES 加解密("DES/EBC/NoPadding")
    Porting .Net RSA xml keys to Java
    Linux使用Shell脚本实现ftp的自动上传下载
    Lombok 安装、入门
    一段对16进制字符串进行异或的代码
    一个封装的使用Apache HttpClient进行Http请求(GET、POST、PUT等)的类。
  • 原文地址:https://www.cnblogs.com/heenhui2016/p/13355686.html
Copyright © 2011-2022 走看看