zoukankan      html  css  js  c++  java
  • Spark词频前十的统计练习

    注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815390070254600712/

    承接上一个文档《Spark本地环境实现wordCount单词计数

    进一步延伸,做一个词频前十的统计练习

    逻辑:在reduceByKey的基础上,首先要根据key对应的value值进行排序(降序排序),取前10个的结果就是Top10

    val reduceByKeyRDD = sc.textFile("file:///opt/bigdata/spark/README.md").flatMap(_.split(" ")).filter(_.nonEmpty).map((_,1)).reduceByKey(_+_)
    Spark词频前十的统计练习

     

    reduceByKeyRDD.sortBy(t => t._2,ascending=false)
    Spark词频前十的统计练习

     

    reduceByKeyRDD.sortBy(t => t._2,ascending=false).take(10)
    Spark词频前十的统计练习

     

    sortBy函数:第一个匿名函数表示按照元组的第二个元素进行排序,ascending=false表示按照降序排序,如果不指定这个参数,默认是升序的排序

    Spark词频前十的统计练习

     

    reduceByKeyRDD.sortBy(t => t._2 * -1).take(10)

    也实现了降序排列,提取TOP10

    Spark词频前十的统计练习

     

    下面这个方法也可以

    reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).map(t => t.swap).take(10)

    分解看下:

    reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).
    t.swap :("the",22) --> (22,"the") --> ("the",22)
    Spark词频前十的统计练习

     

    reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).map(t => t.swap).take(10)
    Spark词频前十的统计练习

     

    下面这个性能会更好:

    reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).take(10).map(t => t.swap)
    Spark词频前十的统计练习

     

    用top(10)代替sortByKey(ascending=false).take(10)这一部分

    reduceByKeyRDD.map(t => t.swap).top(10).map(t => t.swap)
    Spark词频前十的统计练习

     

  • 相关阅读:
    单词 统计
    第十周学习记录
    梦断代码阅读笔记03
    梦断代码阅读笔记02
    梦断代码阅读笔记01
    用户模板和用户场景
    第九周学习记录
    分享好友-分享朋友圈
    生命周期函数-页面刷新
    底部导航的设置
  • 原文地址:https://www.cnblogs.com/bqwzy/p/12696435.html
Copyright © 2011-2022 走看看