zoukankan      html  css  js  c++  java
  • linux服务器配置pyspark解决py4j报错等问题

    1.下载spark,python包

    2.环境变量配置

    打开 ~/.bashrc配置文件

    如图添加下列环境变量及path

    3.退出配置文件,输入 source ~/.bashrc 来执行你添加的一些配置

    4. vim test.py

    from pyspark import SparkContext
    sc = SparkContext(master = 'local[2]', appName = 'test_4')
    logFile = "/home/grid/qzd/test_1/spark-2.2.0-bin-hadoop2.7/README.md"
    logData = sc.textFile(logFile,2).cache()
    numAs = logData.filter(lambda line: 'a' in line ).count()
    numBs = logData.filter(lambda line: 'b' in line ).count()
    print('Lines with a: %s , Lines with b : %s '%(numAs,numBs))
    

    5.python3 test.py

    如图,编译成功

     * 6. 但是,当我在jupyter中执行如上4中的代码时还是会报错,看了stack,有很多种方法(如关防火墙,执行java程序来启动JVM等)都不行。最后,只能在driver端执行。

  • 相关阅读:
    python实例
    date命令
    unbuntu禁用ipv6
    Oracle学习(一)
    深入浅出区块链笔记
    sqlserver索引
    Go学习(16):网络编程
    Go学习(15):并发与包
    Go学习(14):defer
    Go学习(13):异常
  • 原文地址:https://www.cnblogs.com/BigStupid/p/8417621.html
Copyright © 2011-2022 走看看