spark分组统计及二次排序案例一枚 - 走看看

zoukankan html css js c++ java

spark分组统计及二次排序案例一枚

组织数据形式：
aa 11
bb 11
cc 34
aa 22
bb 67
cc 29
aa 36
bb 33
cc 30
aa 42
bb 44
cc 49

需求：
1、对上述数据按key值进行分组
2、对分组后的值进行排序
3、截取分组后值得top 3位以key-value形式返回结果

答案如下：
val groupTopNRdd = sc.textFile("hdfs://db02:8020/user/hadoop/groupsorttop/groupsorttop.data")

groupTopNRdd.map(_.split(" ")).map(x => (x(0),x(1))).groupByKey().map(
x => {
val xx = x._1
val yy = x._2
(xx,yy.toList.sorted.reverse.take(3))
}
).collect

整合一条语句后结果如下：

sc.textFile("hdfs://db02:8020/user/hadoop/groupsorttop/groupsorttop.data").map(_.split(" ")).map(x => (x(0),x(1))).groupByKey().map(
x => {
val xx = x._1
val yy = x._2
(xx,yy.toList.sorted.reverse.take(3))
}
).collect

可以将结果直接保存在hdfs文件系统上。

查看全文

相关阅读:
linux基本命令
 Linux中常用的50个命令
 Selenium2之XPath定位
 Selenium2浏览器启动及配置
 python学习内容.05
python学习内容.04
python学习内容.03
python学习内容.02
python学习内容.01
RESTful

原文地址：https://www.cnblogs.com/wcwen1990/p/6898442.html

Copyright © 2011-2022 走看看