zoukankan      html  css  js  c++  java
  • 1 在本机上创建单机版pyspark

    1 安装java

    pyspark需要java支持, 首先必须安装java,  至少安装java8,或者更高版本, 推荐java8

    安装教程:https://www.runoob.com/java/java-environment-setup.html

    记得配置环境变量:java_home

    安装成功如下:

     2 下载spark并解压放在一个新的文件夹下

    spark官网:https://archive.apache.org/dist/spark/

    一定要下载比较老的版本,作者下载的是spark-2.3.1,参考的是国外一个印度小哥的视频,所以下载的和他一样。

    j记得配置环境变量:spark_home

    解压出来如下图:

    3 winutils安装

    windows环境下还需要装个东西来替换掉spark里的bin文件才行
    https://github.com/steveloughran/winutils
    替换完成后

     4 第一次检验

    cmd pyspark, 如果找不到就说明spark_home环境变量没有配置好。打开如下这种是说python的环境没有激活, 

    好, 那你现在用anaconda prompt打开, 再试试

    这次并没有说未激活, 但是还是报错。按说明用的python的版本过高,spark不支持你目前的python, 比如我这里是python 3.8.8, 版本太高。

    想法是降低python版本。

    5 创建低python版本的虚拟环境

    1 打开anaconda rprompt 

    2 先更换镜像源, 让后面创建的时候快起来。

    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    conda config --set show_channel_urls yes

    用户目录下创建 .condarc 文件,然后把这个文件的 -default删除(针对windows),不然后面又要报错

    3 创建虚拟环境
    conda create --name pyspark_env python=3.6.9 

    创建虚拟环境的名字是pyspark_env, python 版本3.6.9, 也是外国的小哥一样。

    这里会让选择, 记得敲y. 回车。

    4 为这个虚拟环境装其他包

    pip install numpy
    pip install pandas
    pip install matplotlib
    pip install seaborn
    pip install numpy
    pip install warings
    pip install scipy
    pip install scikit-learn
    pip install requests
    pip install notebook
    pip install jupyterlab
    pip install pyarrow
    pip install Py4J -i https://pypi.douban.com/simple
    pip install pyspark -i https://pypi.douban.com/simple

    都可以加上镜像源, 或者用已经换源的conda都行,作者习惯pip。

    6 进入虚拟环境再进入pyspark

    成功。搞一天了,已经凌晨,赶紧记下来,。

    补充:py4j版本有点高, 更换成下面这个版本。

     成功

  • 相关阅读:
    [置顶] 一道经典的sql面试题不同的写法
    Spring框架下的单元测试方法
    [Oracle] 参数修改小结
    linux之chdir函数解析
    windows media player 中播放pls的方法
    服务器管理十大误区
    AsyncTask 与 对话框显示 view.WindowManager$BadTokenException: Unable to add window…is not valid; is your a
    php用apc实现的临界区 解决并发,资源互斥同步访问
    Windows无需CygWin 使用NDK开发
    poj 2305(指定进制,大数取模)
  • 原文地址:https://www.cnblogs.com/LUOyaXIONG/p/15056826.html
Copyright © 2011-2022 走看看