zoukankan html css js c++ java

spark的flatMap和map区别

map()是将函数用于RDD中的每个元素，将返回值构成新的RDD。

flatmap()是将函数应用于RDD中的每个元素，将返回的迭代器的所有内容构成新的RDD,这样就得到了一个由各列表中的元素组成的RDD,而不是一个列表组成的RDD。

新建person.txt:

1 lisi 18
2 liwu 20
3 liyang 45
4 liming 30
5 lizhao 44

测试代码：

object Test extends App {
  Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
  val sparkConf: SparkConf = new SparkConf().setAppName(this.getClass.getName).setMaster("local")
  val sparkContext = new SparkContext(sparkConf)
  val rdd: RDD[String] = sparkContext.textFile("C:\Users\dummy\Desktop\person.txt")
  val flatMapRdd: RDD[String] = rdd.flatMap(_.split(" "))
  val mapRdd: RDD[Array[String]] = rdd.map(_.split(" "))
  flatMapRdd.foreach(x=>{
    println(x.toString)
  })
  println("-------------")
  mapRdd.foreach(x=>{
    println(x(0),x(1),x(2))
  })
}
rdd的元素是  1 lisi 18  的一整行数据，String类型，经过split切分，返回的RDD类型应为Array[String]类型
红色部分可以看出，flatMap返回的RDD的类型是 迭代器Array的元素的类型String，
而map返回的RDD类型是经过切分返回的RDD类型，即为Array[String]类型
返回结果截图：

查看全文

相关阅读:
Dictionary集合字典
 装箱和拆箱
 List< >泛型集合
 Hashtable 键值对集合
 File 类的基本操作
 简体转换繁体
 ArrayList集合长度的问题
 ArrayList 集合
 里式转换
 字符串中常用的方法

原文地址：https://www.cnblogs.com/dummyly/p/10032608.html