使用Spark开发应用程序，并将作业提交到服务器 - 走看看

zoukankan html css js c++ java

使用Spark开发应用程序，并将作业提交到服务器
1、pycharm编写spark应用程序

由于一些原因在windows上配置未成功（应该是可以配置成功的）、我是在linux上直接使用pycharm，在linux的好处是，环境可能导致的一切问题不复存在

111 新建一个普通python工程

编程环境使用spark使用的python环境

222 配置spark环境

进入下图

添加2个相应属性

PYTHON_PATH为spark安装目录下的python的路径

我的：/home/hadoop/app/spark-2.3.0-bin-2.6.0-cdh5.7.0/python

SPARK_HOMR为spark安装目录

我的：/home/hadoop/app/spark-2.3.0-bin-2.6.0-cdh5.7.0

完成后

导入两个包进入setting

包位置为spark安装目录下python目录下lib里

2、正式编写

创建一个python文件
```
from pyspark import SparkConf, SparkContext

# 创建SparkConf:设置的是spark的相关信息
conf = SparkConf().setAppName("spark0301").setMaster("local[2]")

# 创建SparkContext
sc = SparkContext(conf=conf)

# 业务逻辑
data = [1, 2, 3, 4, 5]
# 转成RDD
distdata = sc.parallelize(data)
print(distdata.collect())

# 好的习惯
sc.stop()
```
在linux系统用户家根目录创建一个script

将代码放入spark0301.py中

将appname和master去掉，官网说不要硬编码，会被自动赋值

然后进入spark安装目录下bin目录运行

./spark-submit --master local[2] --name spark0301 /home/hadoop/script/spark0301.py

因为速度太快结束网站是看不到的
查看全文

相关阅读:
学习过程之python跳一跳
 OSError: [WinError -2147221003] 找不到应用程序: 'QR.png' 的解决方法
 易知大学任务25 第一次爬虫与测试
 linux常用命令
 健身日志
 JavaScript JSON
常用注解开发SpringBoot项目
 网络基础
 jQuery MINI UI 学习之分页查询
 Springboot集成ActivitiModel提示输入密码

原文地址：https://www.cnblogs.com/zhangguangxiang/p/14232648.html

Copyright © 2011-2022 走看看