zoukankan      html  css  js  c++  java
  • spark复习笔记(1)

    使用spark实现work count

    ----------------------------------------------------

      (1)用sc.textFile("  ")  来实现文件的加载

    val rdd1 = sc.testFile("home/centos/test.txt");//加载文本文件,以换行符的方式切割文本文件.Array(hello world1 ,.........),产生第一个弹性分布式数据集

      (2)元素拿来之后对集合中的每个元素进行切割,按照空格进行切割

        def map[U](f:String=>U)(implict evidence$3:scala.reflect.ClassTag[u]):org.apache.spark.rdd.RDD[U]

        这个地方map是柯里化的,有两个参数,第二个是隐式的,函数f是是从String类型到U的映射,把一行按照空格来进行切割

        把每一行进行切割,切开之后,每个元素都变成了一个数组,第一个元素是[hello world1],第二个元素是[hello world2],第三个元素是[hello world3],第四个元素是[hello world4],这个时候已经变成数组的集合了

       (3)val rdd2 = rdd1.flatMap(line=>line.split(" "));    //压扁操作

       (4)val rdd3 = rdd2.map(word=>(word,1))    //变换成对偶(k,v)

       (5)val rdd4=reduceByKey(_ + _)       //_是对每个元素的引用,按照key来聚合value

       (6)rdd4.collect              //查看结果

       (7)一顿操作猛如虎

    sc.textFile("/home/centos/test.txt").flatMap(_.split(" ")).reduceByKey(_ + _).collect

       (8)单词过滤 

    sc.textFile("/home/centos/test.txt").flatMap(_.split(" ")).filter(_.contains("wor")).map((_,1)).reduceByKey(_ + _).collect

      

  • 相关阅读:
    浅谈3次登录错误
    JDK一键安装,配置环境
    火炬之光2_辅助工具 内存读写相关
    学习资料
    如何在google colab加载kaggle数据
    Trie树
    日常
    Kmeans
    【leet-code】135. 加油站
    Mac CLion下OpenGL环境配置
  • 原文地址:https://www.cnblogs.com/bigdata-stone/p/9726207.html
Copyright © 2011-2022 走看看