使用Pyspark进行特征工程时的那些坑 - 走看看

zoukankan html css js c++ java

使用Pyspark进行特征工程时的那些坑
以脚本spark_clean_online_action.py、数据集new_sxf_time_count_1781115582.csv为例：集群节点包括212、216、217、218。需要注意的是：
- 每台节点有且仅有Python 2.7.5 和Python 2.6.8 两个环境完成相关依赖安装
1、上传待处理文件到HDFS

2、Pyspark默认调用的是Python 2.7.5 解释器，所以需更改调用版本，每个节点执行： export PYSPARK_PYTHON=/usr/local/python3/bin/python3

3、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client spark_clean_online_action.py

或者不执行2和3，仅执行：

4、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/local/python3/bin/python3 spark_clean_online_action.py

版本
- pandas==0.20.3
- pyspark==2.3.0
- pyarrow==0.12.1
查看全文

相关阅读:
事理学神器PDCA
单元测试
 web框架学习路线
 编译器实现（三）
markdown test
设计模式
 编译器实现（二）
编译器实现（一）
操作系统结构
 emacs配置笔记(windows10)

原文地址：https://www.cnblogs.com/wkang/p/10634873.html

Copyright © 2011-2022 走看看