zoukankan      html  css  js  c++  java
  • Spark集群 Python Package管理

    具体问题:

    1. 不同的数据分析人员/开发团队需要不同版本的Python版本执行PySpark。
    2. 同一Python版本下,需要安装多个Python库,甚至需要不同版本的库。

    针对问题2的一个解决办法是将Python依赖库打包成*.egg文件,在运行pyspark或者spark-submit时使用–py-files加载egg文件。此解决方案的问题在于许多Python库都包含native code,编译时对平台依赖,并且对于一些复杂依赖的库(如Pandas)

    1.github 下载pandas https://codeload.github.com/pandas-dev/pandas/zip/master
    2.生成编译python setup.py bdist_egg就会创建一个egg出来了
    3.如果需要gcc 请自行安装gcc
        yum -y install gcc gcc-c++ kernel-devel





    参考:
    http://blog.csdn.net/gongbi917/article/details/52369025
    http://blog.csdn.net/willdeamon/article/details/53159548
  • 相关阅读:
    字符菱形
    字符三角形
    10:超级玛丽游戏
    09:字符菱形
    08:字符三角形
    07:输出浮点数
    06:空格分隔输出
    05:输出保留12位小数的浮点数
    04:输出保留3位小数的浮点数
    02:输出第二个整数
  • 原文地址:https://www.cnblogs.com/zle1992/p/7242525.html
Copyright © 2011-2022 走看看