zoukankan      html  css  js  c++  java
  • 使用Spark开发应用程序,并将作业提交到服务器

    1、pycharm编写spark应用程序

    由于一些原因在windows上配置未成功(应该是可以配置成功的)、我是在linux上直接使用pycharm,在linux的好处是,环境可能导致的一切问题不复存在

    111   新建一个普通python工程

    编程环境使用spark使用的python环境

    222   配置spark环境

    进入下图

    添加2个相应属性

    PYTHON_PATH为spark安装目录下的python的路径

    我的:/home/hadoop/app/spark-2.3.0-bin-2.6.0-cdh5.7.0/python

    SPARK_HOMR为spark安装目录

    我的:/home/hadoop/app/spark-2.3.0-bin-2.6.0-cdh5.7.0

    完成后

    导入两个包进入setting

    包位置为spark安装目录下python目录下lib里

    2、正式编写

    创建一个python文件

    from pyspark import SparkConf, SparkContext
    
    # 创建SparkConf:设置的是spark的相关信息
    conf = SparkConf().setAppName("spark0301").setMaster("local[2]")
    
    # 创建SparkContext
    sc = SparkContext(conf=conf)
    
    # 业务逻辑
    data = [1, 2, 3, 4, 5]
    # 转成RDD
    distdata = sc.parallelize(data)
    print(distdata.collect())
    
    # 好的习惯
    sc.stop()

    在linux系统用户家根目录创建一个script

    将代码放入spark0301.py中

    将appname和master去掉,官网说不要硬编码,会被自动赋值

    然后进入spark安装目录下bin目录运行

    ./spark-submit --master local[2] --name spark0301 /home/hadoop/script/spark0301.py 

    因为速度太快结束网站是看不到的

  • 相关阅读:
    clion中配置glfw和glew
    oracle xe在centos下的安装(更)
    git服务搭建以及本地连接
    IDEA导入Maven多项目(Mac下)
    关于反射的学习理解
    MySQL安装及后续配置
    idea配置servlet记录,tmocat当服务器,学习
    mapper映射文件配置之select、resultMap、resultType
    mysql多表查询
    看看阿里员工分享的java知识
  • 原文地址:https://www.cnblogs.com/zhangguangxiang/p/14232648.html
Copyright © 2011-2022 走看看