zoukankan      html  css  js  c++  java
  • 【原】简述使用spark集群模式运行程序

    本文前提是已经正确安装好scala,sbt以及spark了
     
    简述将程序挂载到集群上运行的步骤:
    1、构建sbt标准的项目工程结构:
    SBT项目工程结构图
    其中:
    ~/build.sbt文件用来配置项目的基本信息(项目名、组织名、项目版本、使用的scala版本或者再次配置些项目所需的依赖包);
    project/build.properties文件配置你要使用什么版本的sbt对项目操作;
    project/plugins.sbt文件是给项目添加所需的插件;
    project/Build.scala文件是对项目进行些复杂的高级配置;
    详细的sbt安装配置实用参见博文:http://www.cnblogs.com/vincent-hv/p/3309805.html
     
    2、到相应目录下编写程序,spark程序必须要创建一个SparkContext实例。
    SparkContext("master", "projectName", "SPARK_HOME", "yourProject.jar path")
     
    3、sbt compile命令编译程序无错后,sbt package命令将程序打包。默认打包的jar文件存放路径为:
    项目根目录/target/scala-xx.xx.xx/your-project-name_xx.xx.xx-xx.jar
     
    4、将打包好的jar问价添加到SPAK_CLASSPATH中(在linux中根据作用范围的不同有多种更改环境变量的方式,这里只说我的配置方式:spark根目录下的conf/spark-env.sh文件添加SPARK_CLASSPATH:xxxxxxxx)
     
    5、配置好环境变量后就可以在spark的根目录下使用./run脚本运行你的程序了
    例如:./run spark.examples.SparkPi spark://masterIP:port
    注意,如果程序涉及IO操作起默认路径为SPARK_HOME;至于如何修改这个路径,有待研究
  • 相关阅读:
    imgur.py
    lol.py
    flask twisted 结合方案
    免费的编程中文书籍索引
    python super研究
    汇编语言总结笔记 (四)
    汇编语言基础总结(三)
    汇编语言基础总结(二)
    汇编语言基础总结(一)
    CentOS 配置hadoop
  • 原文地址:https://www.cnblogs.com/vincent-hv/p/3309883.html
Copyright © 2011-2022 走看看