zoukankan      html  css  js  c++  java
  • pyspark遇到报错:_PYSPARK_DRIVER_CONN_INFO_PATH

    1.  环境 : centos,启动pyspark,执行如下python命令:

    import pyspark
    from pyspark import SparkContext 
    from pyspark import SparkConf
    conf=SparkConf().setAppName("miniProject").setMaster("local[*]")
    sc=SparkContext.getOrCreate(conf)
    
    #flatMap() 对RDD中的item执行同一个操作以后得到一个list,然后以平铺的方式把这些list里所有的结果组成新的list
    sentencesRDD=sc.parallelize(['Hello world','My name is Patrick'])
    wordsRDD=sentencesRDD.flatMap(lambda sentence: sentence.split(" "))
    print (wordsRDD.collect())
    print (wordsRDD.count())

    用root账号没问题:

    用非root账号会有此问题如下:_PYSPARK_DRIVER_CONN_INFO_PATH,后台设置下/etc/profile 中环境变量可以了。

     vi /etc/profile  加入:,source /etc/profile

    2.  后来在 jupyter notebook远程登录后(非root账号),发现还是有这个问题。(其实就是环境变量没有加载完全。)

    解决方法在脚本开头加入:

    #jupyter需要初始化pyspark相关环境变量
    import findspark
    findspark.init()
    import os,sys
    os.environ['SPARK_HOME'] = "/bin/spark-2.4.0"
    sys.path.append("/bin/spark-2.4.0/python")
    sys.path.append("/bin/spark-2.4.0/python/lib/py4j-0.10.7-src.zip")
  • 相关阅读:
    「BZOJ1954」Pku3764 The xor – longest Path
    【bzoj4260】【Codechef REBXOR】
    BZOJ_3012_[Usaco2012 Dec]First!
    【bzoj1174】[Balkan2007]Toponyms
    String
    前缀和
    [POI2008] CLO
    [Scoi2010] 游戏
    CodeForces892E
    并查集的删除操作
  • 原文地址:https://www.cnblogs.com/andylhc/p/10178285.html
Copyright © 2011-2022 走看看