zoukankan html css js c++ java

spark

1 开发指南

从高的层面来看，其实每一个Spark的应用，都是一个Driver类，通过运行用户定义的main函数，在集群上执行各种并发操作和计算Spark提供的最主要的抽象，是一个弹性分布式数据集(RDD)，它是一种特殊集合，可以分布在集群的节点上，以函数式编程操作集合的方式，进行各种各样的并发操作。它可以由hdfs上的一个文件创建而来，或者是Driver程序中，从一个已经存在的集合转换而来。用户可以将数据集缓存在内存中，让它被有效的重用，进行并发操作。最后，分布式数据集可以自动的从结点失败中恢复，再次进行计算。

Spark的第二个抽象，是并行计算中使用的共享变量。默认来说，当Spark并发运行一个函数时，它是以多个的task，在不同的结点上运行，它传递每一个变量的一个拷贝，到每一个独立task使用到的函数中，因此这些变量并非共享的。然而有时候，我们需要在任务中能够被共享的变量，或者在任务与驱动程序之间共享。Spark支持两种类型的共享变量：^[1]

广播变量：可以在内存的所有结点中被访问，用于缓存变量（只读）

累加器：只能用来做加法的变量，例如计数和求和

本指南通过一些样例展示这些特征。读者最好是熟悉Scala，尤其是闭包的语法。请留意，Spark可以通过Spark-Shell的解释器进行交互式运行。你可能会需要它。

2 接入Spark

编辑

为了写一个Spark的应用，你需要将Spark和它的依赖，加入到CLASSPATH中。最简单的方法，就是运行sbt/sbt assembly来编译Spark和它的依赖，打到一个Jar里面core/target/scala_2.9.1/spark-core-assembly-0.0.0.jar，然后将它加入到你的CLASSPATH中。或者你可以选择将spark发布到maven的本地缓存中，使用sbt/sbt publish。它将在组织org.spark-project下成为一个spark-core.

另外，你会需要导入一些Spark的类和隐式转换，将下面几行加入到你程序的顶部

import spark.SparkContext

import SparkContext._

3 初始化Spark

编辑

写Spark程序需要做的第一件事情，就是创建一个SparkContext对象，它将告诉Spark如何访问一个集群。这个通常是通过下面的构造器来实现的：

new SparkContext(master, jobName, [sparkHome], [jars])

Master参数是一个字符串，指定了连接的Mesos集群，或者用特殊的字符串“local”来指明用local模式运行。如下面的描述一般，JobName是你任务的名称，当在集群上运行的时候，将会在Mesos的Web UI监控界面显示。后面的两个参数，是用在将你的代码，部署到mesos集群上运行时使用的，后面会提到。

在Spark的解释器中，一个特殊的SparkContext变量已经为你创建，变量名字叫sc。创建你自己的SparkContext是不会生效的。你可以通过设置MASTER环境变量，来让master连接到需要的上下文。

MASTER=local; ./spark-shell

Master 的命名

Master的名字可以是以下3个格式中的一种

Master Name	Meaning
local	本地化运行Spark，使用一个Worker线程（没有并行）
local[K]	本地化运行Spark，使用K个Worker线程（根据机器的CPU核数设定）
HOST:PORT	将Spark连接到指定的Mesos Master，在集群上运行。Host参数是Mesos Master的Hostname，端口是master配置的端口，默认为5050. 注意：在早期的Mesos版本（spark的old-mesos分支），你必须使用master@HOST:PORT.

集群部署

如果你想你的任务运行在一个集群上，你需要指定2个可选参数：

SparkHome：Spark在集群机器上的安装路径（必须全部一致）
Jars：在本地机器上，包含了你任务的代码和依赖的Jars文件列表。 Spark会把它们部署到所有的集群结点上。你需要使用自己的编译系统将你的作业，打包成一套jars文件。例如，如果你使用sbt，那么sbt-assembly插件是一个好方法，将你的代码和依赖，变成一个单一的jar文件。

如果有一些类库是公用的，需要在不同的作业间共享，你可能需要手工拷贝到mesos的结点上，在conf/spark-env中，通过设置SPARK_CLASSPATH环境变量指向它们。

查看全文

相关阅读:
模板插件aTpl
KFold交叉验证方式
 XGboost数据比赛实战
 机器学习特征选择方法
 机器学习项目实战
 python二维表格数据的导入与导出
 centos-linux系统如何进入root权限？
centos7解决yum install mysql-server没有可用包？
Keras实现简单分类神经网络
 MySQL学习入门总结（非常重要）

原文地址：https://www.cnblogs.com/gkl20173667/p/12247075.html

spark

1开发指南

2接入Spark

3初始化Spark

Master 的命名

集群部署

1 开发指南

2 接入Spark

3 初始化Spark