Hadoop streaming使用自定义python版本和第三方库 - 走看看

zoukankan html css js c++ java

Hadoop streaming使用自定义python版本和第三方库
在使用Hadoop的过程中,遇到了自带python版本比较老的问题.

下面以python3.7为例,演示如何在hadoop上使用自定义的python版本以及第三方库.

1.在https://www.python.org下载Python-3.7.2.gz包

2.在linux环境下:
tar -xvf Pthon-3.7.2 #解压文件 cd Python-3.7.2 ./configure -- prefix=~/python37 #这里是你刚刚解压的路径 make -j make install
3.这样就生成了一个python37文件夹

4.在本地python安装路径的site-packages中(你的包管理工具不同,本地包安装路径也不同)复制自己需要的第三方库的文件,放入python37/lib/python3.7/site-packages中

5.在linux环境下:
cd /home/username #路径可以自选 tar czf python37.tar.gz python37 #打包成tar.gz文件 ${HADOOP_HOME}/bin/hadoop dfs -copyFromLocal python37.tar.gz username/python37.tar.gz #上传到HADOOP
6.将这个包含第三方库的python37.tar.gz文件上传到hadoop上

7.在mapreduce的sh脚本中用如下代码使用刚刚上传的python环境
PYTHON_DEPEND=username/python37.tar.gz #刚刚上传的hadoop中对应地址 depend_python="${PYTHON_DEPEND}" ${HADOOP_BIN} streaming -cacheArchive "${depend_python}#python" -input "${INPUT_PATH}" -output "${OUTPUT_PATH}" -mapper "python/python37/bin/python3 mapper.py"
reducer也是同理~
查看全文

相关阅读:
IDEA执行spark程序报集群资源错误
 CDH SparkOnYarn执行中executor内存限制问题
 hadoop datanode只能启动2个
 kafka启动报错Configured broker.id 1 doesn't match stored broker.id 2 in meta.properties
spark streaming kafka Couldn't find leader
spark出现task不能序列化错误的解决方法 org.apache.spark.SparkException: Task not serializable
Spark：java.net.BindException: Address already in use: Service 'SparkUI' failed after 16 retries!
多instance启动spark部分worker起不来 java.lang.OutOfMemoryError
spark配置详解
 hdfs目录存储最大文件数异常MaxDirectoryItemsExceededException

原文地址：https://www.cnblogs.com/limitlessun/p/10374298.html

Copyright © 2011-2022 走看看