Spark集群 Python Package管理 - 走看看

zoukankan html css js c++ java

Spark集群 Python Package管理
具体问题：
1. 不同的数据分析人员/开发团队需要不同版本的Python版本执行PySpark。
2. 同一Python版本下，需要安装多个Python库，甚至需要不同版本的库。
针对问题2的一个解决办法是将Python依赖库打包成*.egg文件，在运行pyspark或者spark-submit时使用–py-files加载egg文件。此解决方案的问题在于许多Python库都包含native code，编译时对平台依赖，并且对于一些复杂依赖的库（如Pandas）
```
1.github 下载pandas https://codeload.github.com/pandas-dev/pandas/zip/master
2.生成编译python setup.py bdist_egg就会创建一个egg出来了
3.如果需要gcc 请自行安装gcc
```
```
    yum -y install gcc gcc-c++ kernel-devel
```
```
参考：
http://blog.csdn.net/gongbi917/article/details/52369025
http://blog.csdn.net/willdeamon/article/details/53159548
```
查看全文

相关阅读:
课下作业（ucosii、catuserlist、ls实现、stat实现等）-20175204张湲祯
 2019-2020-2 20175235 泽仁拉措《网络对抗技术》 Exp9 web安全基础
 2019-2020
2019-2020
2019-2020
2019-2020
2019-2020
2019-2020-2 网络对抗技术 exp3 免杀原理与实践
 2019-2020-2《网络对抗技术》20175235 Exp2 后门原理与实践
 2019-2020-2 2 20175235 泽仁拉措《网络对抗技术》实验一 PC平台逆向破解

原文地址：https://www.cnblogs.com/zle1992/p/7242525.html

Copyright © 2011-2022 走看看