spark

zoukankan html css js c++ java

spark
spark

1. 名词介绍
- RDD(Resilient Distributed Dataset弹性分布式数据集)：这是spark的主要数据概念。有多种来源，容错机制，并且能缓存、并行计算。RDD在整个计算流程中会经过不同方式的变换，这种变换关系就是一个有向无环图。
- 需要注意的是，所有的方法在定义执行之前都是异步的，所以不能简单地在下面的方法外部添加try...catch...进行异常捕获，最好是在传入的函数里面进行异常的捕获(如果是lambda，请确认lambda不会报错，否则如果lambda报错整个程序都会报错并终止允许)
- Spark应用程序可以使用大多数主流语言编写，这里使用的是python，只pip install pyspark即可
- Stage(调度阶段): 每个Job会根据RDD大小切分城多个Stage，每个Stage包含一个TaskSet
- TaskSet(任务集): 一组关联的Task集合，不过是没有依赖的
- Task(任务): RDD中的一个分区对应一个Task。
- Narrow Dependency(窄依赖): 比较简单的一对一依赖和多对一依赖(如union)
- Shuffle Dependency(宽依赖): 父RDD的分区被多个子RDD分区所使用，这时父RDD的数据会被再次分割发送给子RDD
- Spark 内存分配: 分为这三块:
  
  execution: 执行内存，基本的算子都是在这里面执行的，这块内存满了就写入磁盘。
  
  storage: 用于存储broadcast, cache, persist
  
  other: 程序预留给自己的内存，这个可以不用考虑
- Duration
  
  batchDuration: 批次时间
  
  windowDuration: 窗口时间，要统计多长时间内的数据，必须是batchDuration的整数倍
  
  slideDuration: 滑动时间，窗口多长时间滑动一次，必须是batchDuration的整数倍，一般是跟batchDuration时间相同
2. 基本运算

下面是所有运算方法的集合，其中有些方法仅用于键值对，有些方法仅用于数据流

Transformation(转换)

这类方法仅仅是定义逻辑，并不会立即执行，即lazy特性。目的是将一个RDD转为新的RDD。
- map(func): 返回一个新的RDD，func会作用于每个map的key，func的返回值即是新的数据。为了便于后面的计算，这一步一般在数据处理的最前面将数据转换为(K, V)的形式，例如计数的过程中首先要datas.map(lambda a, (a, 1))将数据转换成(a, 1)的形式以便后面累加
- mappartitions(func, partition): 和map不同的地方在于map的func应用于每个元素，而这里的func会应用于每个分区，能够有效减少调用开销，减少func初始化次数。减少了初始化的内存开销。但是map如果数据量过大，计算后面的时候可以将已经计算过的内存销毁掉，但是mappartitions中如果一个分区太大，一次计算的话可能直接导致内存溢出。
- filter(func): 返回一个新的RDD，func会作用于每个map的key，返回的仅仅是返回True的数据组成的集合，返回None或者False或者不返回都表示被过滤掉
- filtMap(func): 返回一个新的RDD，func可以一次返回多个元素，最后形成的是所有返回的元素组成的新的数据集
- mapValues(func): 返回一个新的RDD，对RDD中的每一个value应用函数func。
- distinct(): 去除重复的元素
- subtractByKey(other): 删除在RDD1中的RDD2中key相同的值
- groupByKey(numPartitions=None): 将(K, V)数据集上所有Key相同的数据聚合到一起，得到的结果是(K, (V1, V2…))
- reduceByKey(func, numPartitions=None): 将(K, V)数据集上所有Key相同的数据聚合到一起，func的参数即是每两个K-V中的V。可以使用这个函数来进行计数，例如reduceByKey(lambda a,b:a+b)就是将key相同数据的Value进行相加。
- reduceByKeyAndWindow(func, invFunc, windowdurartion, slideDuration=None, numPartitions=None, filterFunc=None): 与reduceByKey类似，不过它是在一个时间窗口上进行计算，由于时间窗口的移动，有增加也有减少，所以必须提供一个逻辑和func相反的函数invFunc，例如func为(lambda a, b: a+b)，那么invFunc一般为(lambda a, b: a-b)，其中a和b都是key相同的元素的value。另外需要注意的是，程序默认会缓存一个时间窗口内所有的数据以便后续能进行inv操作，所以如果窗口太长，内存占用可能会非常高
- join(other, numPartitions=None): 将(K, V)和(K, W)类型的数据进行类似于SQL的JOIN操作，得到的结果是这样(K, (V, W))
- union(other): 并集运算，合并两个RDD
- intersection(other): 交集运算，保留在两个RDD中都有的元素
- leftOuterJoin(other): 左外连接
- rightOuterJoin(other): 右外连接
Action(执行)

不会产生新的RDD，而是直接运行，得到我们想要的结果。
- collect(): 以数组的形式，返回数据集中所有的元素
- count(): 返回数据集中元素的个数
- take(n): 返回数据集的前N个元素
- takeOrdered(n): 升序排列，取出前N个元素
- takeOrdered(n, lambda x: -x): 降序排列，取出前N个元素
- first(): 返回数据集的第一个元素
- min(): 取出最小值
- max(): 取出最大值
- stdev(): 计算标准差
- sum(): 求和
- mean(): 平均值
- countByKey(): 统计各个key值对应的数据的条数
- lookup(key): 根据传入的key值来查找对应的Value值
- foreach(func): 对集合中每个元素应用func
Persistence(持久化)
- persist(): 将数据按默认的方式进行持久化
- unpersist(): 取消持久化
- saveAsTextFile(path): 将数据集保存至文件
查看全文

相关阅读:
【WPF】代码触发Button点击事件
 [WPF]静态资源(StaticResource)和动态资源(DynamicResource)
stm32f103_arduino
解除github下载的文件的锁定
 c# wpf binding
mysql 使用可能遇到的问题
 c# progressbar
STM32串口IAP(YModem) （转载）
VS2017、VS2019安装包制作（转）
八、ES集群搭建

原文地址：https://www.cnblogs.com/technicianafei/p/14278054.html

spark

1. 名词介绍

2. 基本运算

Transformation(转换)

Action(执行)

Persistence(持久化)