spark transformation与action操作函数 - 走看看

zoukankan html css js c++ java

spark transformation与action操作函数

一、Transformation

map(func) 返回一个新的分布式数据集，由每个原元素经过函数处理后的新元素组成

filter(func) 返回一个新的数据集，经过fun函数处理后返回值为true的原元素组成

flatMap(func) 类似于map,但每个输入元素会被映射为0个或多个输出元素

mapPartitions(func) 类似于map,对RDD的每个分区起作用

intersection（otherDataset) 求两个RDD的交集

distinct([numTasks]) 返回一个包含源数据集中所有不重复元素的新数据集

groupByKey([numTasks]) 在一个由(K,V)对组成的数据集上调用，返回一个(K,Seq[v])对组成的数据集。

reduceByKey(func,[numTasks]) 在一个(K,V)对组成的数据集上调用，返回一个(K,V)对的数据集

sortByKey([ascending],[numTasks]) 在类型为(K,V)的数据集上调用，返回以K为键进行排序的(K,V)对数据集。

二、Action操作

reduce(func) 通过函数func聚集结果集中的所有元素

collect() 在Driver的程序中，以数组的形式返回数据集中的所有数据。

count() 返回元素的个数

foreach(func) 在数据集的每一个元素上，运行函数func，通常用于更新一个累加器变量，或者和外部存储系统进行交互。

执行transformation操作时，spark并没有开始计算，只是将执行的任务封装成DAG,直到碰到action操作时才真正提交集群开始计算。

查看全文

相关阅读:
python 元组操作
 python安装（python2.7）
0、
1、Centos 7 系统的初化始配置
 C# 6.0新特性
 ios学习之路
 Can 't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock '(2) ;
px,em,rem,vw单位在网页和移动端的应用
 html5shiv.js和respond.min.js
display:inline-block间隙问题

原文地址：https://www.cnblogs.com/yangsy0915/p/4876279.html

Copyright © 2011-2022 走看看