zoukankan      html  css  js  c++  java
  • 记录解决python在spark运行加载第三方库的问题

    一般写python的我们经常会import一些常用的库,然后有时集群环境上的python没有这些库,怎么办呢?

    通过一段时间的摸索发现有二种方式可以解决这个问题:

    第一种方法:

    下载对应python的pypi里面库的文件,注意这个要求是wheel后缀或者是zip的,然后上传到python的py文件

    对应的目录下面:

    可以看到解压后的文件是上面形式的,在这个文件目录下面import numpy 是没有问题的!!!

    这个也是python package支持的一种形式,它会默认把当前路径加入到可执行的路径path,这样的话import就可以找到对应的库文件进行import。

    第二种方法:

    在第一种方法的基础上,我发现package的path默认是在python的lib的site-packages这个文件夹里面,so 我们可以这样做:

    首先下载这些包:setuptools-36.6.0-py2.py3-none-any.whl

    pip-8.1.0.tar.gz

    然后把setuptools的文件解压到site-packages目录下:

    解压tar -zxvf pip-8.1.0.tar.gz -C /op/

    cd pip-8.1.0

    python setup.py install

    成功安装pip

    然后就可以离线安装一些库了,下载wheel文件之后直接pip install ***.whl

    可以看到可以import sklearn这个python常用的机器学习库了!!!

    接下来我们测试一下pyspark可不可以import:

    接下来就可以用库在spark上面调用,畅游spark吧。

  • 相关阅读:
    hihocoder 1049 后序遍历
    hihocoder 1310 岛屿
    Leetcode 63. Unique Paths II
    Leetcode 62. Unique Paths
    Leetcode 70. Climbing Stairs
    poj 3544 Journey with Pigs
    Leetcode 338. Counting Bits
    Leetcode 136. Single Number
    Leetcode 342. Power of Four
    Leetcode 299. Bulls and Cows
  • 原文地址:https://www.cnblogs.com/Kaivenblog/p/7683170.html
Copyright © 2011-2022 走看看