zoukankan      html  css  js  c++  java
  • hadoop 上跑 python job 引入 第三方依赖的解决办法

    1,首先要确保hadoop上的python 版本和自己开发机器上最好是统一版本。

    2,在hadoop上引入第三方库时,可以将job 依赖的所有第三方的third-party package都放进 ./lib 中

       使用tar 打包 成 tgz格式(注意如果此处没有使用 -z而命名为tgz,使用--archives提交该文件的时候,会引起job的失败 )

    3, --archives 参数 参考hadoop streaming的指南文档,会自动上传到job 的task目录并且自动解压缩,可以使用#表示解压缩后的文件夹名称

    4,注意在python 脚本中添加sys.path.insert(0,'lib_Path') 把打包解压之后的lib路径添加进去。

    5, 最后还要注意python脚本的第一行要写#!/usr/bin/env python 否则提示 import x server error!

  • 相关阅读:
    最后一周作业
    第十四,十五周作业
    第七周作业
    第六周作业
    第四周作业
    第三周作业
    第二周作业
    二学期第三次作业
    二学期第二次作业
    二学期第一次作业
  • 原文地址:https://www.cnblogs.com/harveyaot/p/3205403.html
Copyright © 2011-2022 走看看