zoukankan      html  css  js  c++  java
  • 使用Pyspark进行特征工程时的那些坑

    以脚本spark_clean_online_action.py、数据集new_sxf_time_count_1781115582.csv为例: 集群节点包括212、216、217、218。需要注意的是:

    • 每台节点有且仅有Python 2.7.5 和Python 2.6.8 两个环境 完成相关依赖安装

    1、上传待处理文件到HDFS

    2、Pyspark默认调用的是Python 2.7.5 解释器,所以需更改调用版本,每个节点执行: export PYSPARK_PYTHON=/usr/local/python3/bin/python3

    3、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client spark_clean_online_action.py

    或者不执行2和3,仅执行:

    4、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/local/python3/bin/python3 spark_clean_online_action.py

    版本

    • pandas==0.20.3
    • pyspark==2.3.0
    • pyarrow==0.12.1
  • 相关阅读:
    复利计算5.0
    读《构建之法》第4章有感
    实验二作业调度模拟程序
    观看与评价
    结对2.03
    做汉堡
    复利计算--结对
    《构建之法》第四章
    复利单利计算器单元测试
    实验一、命令解释程序的编写实验
  • 原文地址:https://www.cnblogs.com/wkang/p/10634873.html
Copyright © 2011-2022 走看看