zoukankan      html  css  js  c++  java
  • spark中flatMap函数用法--spark学习(基础)

     

    spark中flatMap函数用法--spark学习(基础)

     

    在spark中map函数和flatMap函数是两个比较常用的函数。其中 
    map:对集合中每个元素进行操作。 
    flatMap:对集合中每个元素进行操作然后再扁平化。 
    理解扁平化可以举个简单例子

    val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))
    arr.flatmap(x=>(x._1+x._2)).foreach(println)

    输出结果为

    A
    1
    B
    2
    C
    3

    如果用map

    val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))
    arr.map(x=>(x._1+x._2)).foreach(println)

    输出结果

    A1
    B2
    C3

    所以flatMap扁平话意思大概就是先用了一次map之后对全部数据再一次map。

    实际使用场景

    这个场景是我曾经在写代码过程中遇到的难题,在字符串中如何统计相邻字符对出现的次数。意思就是如果有A;B;C;D;B;C字符串,则(A,B),(C,D),(D,B)相邻字符对出现一次,(B,C)出现两次。 
    如有数据

    A;B;C;D;B;D;C
    B;D;A;E;D;C
    A;B

    统计相邻字符对出现次数代码如下

    data.map(_.split(";")).flatMap(x=>{
          for(i<-0 until x.length-1) yield (x(i)+","+x(i+1),1)
        }).reduceByKey(_+_).foreach(println)

    输出结果为

    (A,E,1)
    (E,D,1)
    (D,A,1)
    (C,D,1)
    (B,C,1)
    (B,D,2)
    (D,C,2)
    (D,B,1)
    (A,B,2)

    此例子就是充分运用了flatMap的扁平化功能。

  • 相关阅读:
    AsyncTask,MailTask,ScheduledTask
    Mysql的事务理解
    MySQL初识
    HTTP 的原理零散知识点
    SpringBoot简单搭建开发
    Android 的生命周期
    C51 虚拟元器件
    JavaSE 知识整合 (更新中……)
    java关键字篇
    Android开启网络权限
  • 原文地址:https://www.cnblogs.com/devin-ou/p/8028261.html
Copyright © 2011-2022 走看看