Spark之Action算子

zoukankan html css js c++ java

Spark之Action算子

Spark算子分为两大类，本文介绍Action类算子。

（1）reduce算子

按照官网的解释，传入的参数是一个函数，一个双参数，返回值唯一的函数，建议，该函数是可交换的，是可联合的，如此，才能实现正确的并行计算。

这里的函数，我平时用过加法操作，最大值操作，最小值操作；记得大数据里提过这个概念，诸如此类可以合并操作的函数，是最合适的，平均值类的，就不适用于此种操作了。

如上图，使用并行化产生了一个算子，然后reduce内传入偏函数，最终生成结果如下：

此处操作，就类似于求和操作了；如果对于String类型的，则会实现拼接操作。

（2）Collect算子

将数据集的所有元素，按照数组的形式予以返回，该算子通常用于对于数据集过滤或者进行其他操作后返回的足够小的集合；我是通常用在Scala命令行交互中，能够得到结果输出。

（3）count算子

这个简单，顾名思义，返回数据集中元素的总数。

（4）first

返回数据集中的第一个元素，类似于take（1），注意，此处并未说明是否是有序的数据集；而且只能返回一个元素。

（5）take

这里，可以传入参数，返回的也是一个数组，就算是n=1，返回的也是一个仅有一个元素的数组，同样，对数据集的数据类型和是否有序没有任何规定

（6）taksSample

类似于sample算子，参数意义都相同，只是该操作会直接执行，返回从数据集中取出的随机样本

（7）takeOrdered

该方式，类似于take算子，但是返回的元素按照自然序排序，或者自定义的比较器进行排序。

该算子，重在于返回的是有序集合。

（8）saveAsTextFile

将数据集的所有元素，作为文本文件，或者一系列问问本间，写入本地文件系统，HDFS或者其他Hadoop支持的文件系统，对于其中的每个元素，Spark会调用toString方法，将其转换为文件中的一行文本。

常用于生成结果的存储。

（9）foreach

foreach算子，参数为传入的函数，对于数据集中的每个元素，都实现该函数，有点类似于map，但是能够返回结果。

（10）countByKey

只对于map类型的rdd有作用，说明很详细，下附代码：

作为无参函数，只会记录数量；与reduceByKey看起来相似，实则差距很大；上述代码返回结果：

（11）savaAsObjectFile

也是文件保存的方式，但是会用Java序列化的方式，按照简单的格式把数据集内的每个元素写入文件，而对于这类文件，使用objectFile方式进行加载，

（12）saveAsSequenceFile

同样是保存文件的一种形式，但其只能针对key-value格式的数据起作用；在Scala中，也可以针对可以隐式转换成Writable类型的数据起作用；在我开发代码的过程中，很少用这个，在此不详细介绍了。

查看全文

相关阅读:
JGrouseDoc使用(原创）
MVP*2
《天气与生活》修正近日总是显示数据有误的问题
 [Vista Gadget] 《农历小助手》和《天气与生活》发布新版
 Vista Sidebar gadget development(dropping)
微软要干掉ADOBE?
[JS]根据格式字符串分析日期（MM与自动匹配两位的09和一位的9），货币分析成浮点数
 Vista问题二则
 腾讯公司内部信息平台部门招聘.net资深开发工程师和项目经理
 ClientSortableTableExtender Ajax toolkit Extender(源码以后再发布和讲解)

原文地址：https://www.cnblogs.com/shqnl/p/11730768.html