linux服务器配置pyspark解决py4j报错等问题 - 走看看

zoukankan html css js c++ java

linux服务器配置pyspark解决py4j报错等问题
1.下载spark，python包

略

2.环境变量配置

打开 ~/.bashrc配置文件

如图添加下列环境变量及path

3.退出配置文件，输入 source ~/.bashrc 来执行你添加的一些配置

4. vim test.py
from pyspark import SparkContext sc = SparkContext(master = 'local[2]', appName = 'test_4') logFile = "/home/grid/qzd/test_1/spark-2.2.0-bin-hadoop2.7/README.md" logData = sc.textFile(logFile,2).cache() numAs = logData.filter(lambda line: 'a' in line ).count() numBs = logData.filter(lambda line: 'b' in line ).count() print('Lines with a: %s , Lines with b : %s '%(numAs,numBs))
5.python3 test.py

如图，编译成功

* 6. 但是，当我在jupyter中执行如上4中的代码时还是会报错，看了stack，有很多种方法（如关防火墙，执行java程序来启动JVM等）都不行。最后，只能在driver端执行。
查看全文

相关阅读:
网益云——冲刺博客0
网益云——软件工程之现场编程实战
 2020福州大学软件工程实践个人总结
 2020福州大学软件工程实践结对编程作业二
 福州大学软件工程实践个人编程作业
 2020软工第一次作业
 C. Present（二分 +　扫描线）
P1287 盒子与球
 错排
 Codeforces 1323 D. Present （思维）

原文地址：https://www.cnblogs.com/BigStupid/p/8417621.html

Copyright © 2011-2022 走看看