zoukankan      html  css  js  c++  java
  • spark

    1开发指南

    编辑

    从高的层面来看,其实每一个Spark的应用,都是一个Driver类,通过运行用户定义的main函数,在集群上执行各种并发操作和计算Spark提供的最主要的抽象,是一个弹性分布式数据集(RDD),它是一种特殊集合,可以分布在集群的节点上,以函数式编程操作集合的方式,进行各种各样的并发操作。它可以由hdfs上的一个文件创建而来,或者是Driver程序中,从一个已经存在的集合转换而来。用户可以将数据集缓存在内存中,让它被有效的重用,进行并发操作。最后,分布式数据集可以自动的从结点失败中恢复,再次进行计算。

    Spark的第二个抽象,是并行计算中使用的共享变量。默认来说,当Spark并发运行一个函数时,它是以多个的task,在不同的结点上运行,它传递每一个变量的一个拷贝,到每一个独立task使用到的函数中,因此这些变量并非共享的。然而有时候,我们需要在任务中能够被共享的变量,或者在任务与驱动程序之间共享。Spark支持两种类型的共享变量:[1]

    广播变量:可以在内存的所有结点中被访问,用于缓存变量(只读)

    累加器:只能用来做加法的变量,例如计数和求和

    本指南通过一些样例展示这些特征。读者最好是熟悉Scala,尤其是闭包的语法。请留意,Spark可以通过Spark-Shell的解释器进行交互式运行。你可能会需要它。

    2接入Spark

    编辑

    为了写一个Spark的应用,你需要将Spark和它的依赖,加入到CLASSPATH中。最简单的方法,就是运行sbt/sbt assembly来编译Spark和它的依赖,打到一个Jar里面core/target/scala_2.9.1/spark-core-assembly-0.0.0.jar,然后将它加入到你的CLASSPATH中。或者你可以选择将spark发布到maven的本地缓存中,使用sbt/sbt publish。它将在组织org.spark-project下成为一个spark-core.

    另外,你会需要导入一些Spark的类和隐式转换, 将下面几行加入到你程序的顶部

    import spark.SparkContext

    import SparkContext._

    3初始化Spark

    编辑

    写Spark程序需要做的第一件事情,就是创建一个SparkContext对象,它将告诉Spark如何访问一个集群。这个通常是通过下面的构造器来实现的:

    new SparkContext(master, jobName, [sparkHome], [jars])

    Master参数是一个字符串,指定了连接的Mesos集群,或者用特殊的字符串“local”来指明用local模式运行。如下面的描述一般,JobName是你任务的名称,当在集群上运行的时候,将会在Mesos的Web UI监控界面显示。后面的两个参数,是用在将你的代码,部署到mesos集群上运行时使用的,后面会提到。

    在Spark的解释器中,一个特殊的SparkContext变量已经为你创建,变量名字叫sc。创建你自己的SparkContext是不会生效的。你可以通过设置MASTER环境变量,来让master连接到需要的上下文。

    MASTER=local; ./spark-shell

    Master 的命名

    Master的名字可以是以下3个格式中的一种

    Master Name

    Meaning

    local

    本地化运行Spark,使用一个Worker线程(没有并行)

    local[K]

    本地化运行Spark,使用K个Worker线程(根据机器的CPU核数设定)

    HOST:PORT

    将Spark连接到指定的Mesos Master,在集群上运行。Host参数是Mesos Master的Hostname, 端口是master配置的端口,默认为5050.

    注意:在早期的Mesos版本(spark的old-mesos分支),你必须使用master@HOST:PORT.

    集群部署

    如果你想你的任务运行在一个集群上,你需要指定2个可选参数:

    • SparkHome:Spark在集群机器上的安装路径(必须全部一致)
    • Jars:在本地机器上,包含了你任务的代码和依赖的Jars文件列表。 Spark会把它们部署到所有的集群结点上。 你需要使用自己的编译系统将你的作业,打包成一套jars文件。例如,如果你使用sbt,那么sbt-assembly插件是一个好方法,将你的代码和依赖,变成一个单一的jar文件。

    如果有一些类库是公用的,需要在不同的作业间共享,你可能需要手工拷贝到mesos的结点上,在conf/spark-env中,通过设置SPARK_CLASSPATH环境变量指向它们。

  • 相关阅读:
    迷宫救人——DFS小题
    spring boot配置service发布服务
    使用idea maven开发spring boot 分布式开发入门
    vertx 从Tcp服务端和客户端开始翻译
    idea中使用github
    gradle多工程依赖
    gradle build scan
    idea 使用方法
    vertx读取配置文件,获得端口号
    支付宝支付
  • 原文地址:https://www.cnblogs.com/gkl20173667/p/12247075.html
Copyright © 2011-2022 走看看