zoukankan      html  css  js  c++  java
  • Hadoop streaming使用自定义python版本和第三方库

    在使用Hadoop的过程中,遇到了自带python版本比较老的问题.

    下面以python3.7为例,演示如何在hadoop上使用自定义的python版本以及第三方库.

    1.在https://www.python.org下载Python-3.7.2.gz包

    2.在linux环境下:

    tar -xvf Pthon-3.7.2 #解压文件
    cd Python-3.7.2 
    ./configure -- prefix=~/python37 #这里是你刚刚解压的路径
    make -j
    make install

    3.这样就生成了一个python37文件夹

    4.在本地python安装路径的site-packages中(你的包管理工具不同,本地包安装路径也不同)复制自己需要的第三方库的文件,放入python37/lib/python3.7/site-packages中

    5.在linux环境下:

    cd /home/username #路径可以自选
    tar czf python37.tar.gz python37 #打包成tar.gz文件 
    ${HADOOP_HOME}/bin/hadoop dfs -copyFromLocal python37.tar.gz username/python37.tar.gz #上传到HADOOP

    6.将这个包含第三方库的python37.tar.gz文件上传到hadoop上

    7.在mapreduce的sh脚本中用如下代码使用刚刚上传的python环境

    PYTHON_DEPEND=username/python37.tar.gz #刚刚上传的hadoop中对应地址
    depend_python="${PYTHON_DEPEND}"
    ${HADOOP_BIN} streaming 
        -cacheArchive "${depend_python}#python" 
        -input "${INPUT_PATH}" 
        -output "${OUTPUT_PATH}" 
        -mapper "python/python37/bin/python3 mapper.py"

    reducer也是同理~

  • 相关阅读:
    php 后端跨域请求
    IIS服务器文件跨域问题(几乎可以解决大多数跨域问题)
    JavaScript中的execCommand
    [原创] 利用前端+php批量生成html文件,传入新文本,输出新的html文件
    javascript 生成 uuid
    zabbix安装 检测环境 PHP bcmath off
    mysql中间件-amoeba
    MySQL备份
    ELK日志分析
    SAMBA配置文件详解
  • 原文地址:https://www.cnblogs.com/limitlessun/p/10374298.html
Copyright © 2011-2022 走看看