zoukankan html css js c++ java

Spark的二次排序

1、数据样本：

1 5
2 4
3 6
1 3
2 1
1 14
2 45
4 11
3 23
5 12
6 13

2、排序规则：先按照第一个字符排序，如果第一个相同，再按照第二个字符排序

3、排序后的结果

1 3
1 5
1 14
2 1
2 4
2 45
3 6
3 23
4 11
5 12
6 13

4、spark二次排序实现

4.1、自定义key

package com.test.spark

/**
  * @author admin
  * scala处理二次排序的类
  * 自定义key
  */
class SecondSortByKey(val first: Int, val second: Int) extends Ordered[SecondSortByKey] with Serializable {
  def compare(other: SecondSortByKey): Int = {
    //this关键字可加，也可不加，如果遇到多个变量时，必须添加
    if (this.first - other.first != 0)
      this.first - other.first
    else
      this.second - other.second
  }

  //重写toString方法
  /*override def toString(): String = {
    "first:" + first + " second:" + second
  }*/
}

4.2、二次排序程序编排

package com.test.spark

import org.apache.spark.{SparkConf, SparkContext}

/**
  * @author admin
  * Spark二次排序的具体实现步骤：
  * 第一步: 自定义key 实现scala.math.Ordered接口，和Serializeable接口
  * 第二步：将要进行二次排序的数据加载，按照<key，value>格式的RDD
  * 第三步：使用sortByKey 基于自定义的key进行二次排序
  * 第四步：去掉排序的key,只保留排序的结果
  */
object SparkSecondSortApplication {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("SortSecond").setMaster("local[1]")
    // 获取context
    val sc = new SparkContext(conf)
    // 加载到内存RDD
    val lines = sc.textFile("D:\SparkDataTest\sort.txt")
    // map操作，将要进行二次排序的数据加载，按照<key，value>格式的RDD
    val pairs = lines.map { line => {
      val spl = line.split(" ")
      (new SecondSortByKey(spl(0).toInt, spl(1).toInt), line)
    }
    }
    // 使用sortByKey 基于自定义的key进行二次排序， true:升序，false:降序
    val sortPair = pairs.sortByKey(true)

    // map操作，只需要保留排序结果
    val sortResult = sortPair.map(line => line._2)

    sortResult.collect().foreach { x => println(x) }

    // 停止sc
    sc.stop()
  }
}

查看全文

相关阅读:
2 数据库开发--MySQL下载（windows）
Spring课程 Spring入门篇 3-1 Spring bean装配（上）之bean的配置项及作用域
 Spring课程 Spring入门篇 2-2 Spring注入方式
 Spring课程 Spring入门篇 2-1 IOC和bean容器
 maven课程项目管理利器-maven 5-1 课程总结 1星（2018-11-08 07:19）
maven课程项目管理利器-maven 4-1 使用maven创建web项目 5星
 maven课程项目管理利器-maven 3-10 maven聚合和继承 4星
 maven课程项目管理利器-maven 3-9 maven依赖冲突 4星
 maven课程项目管理利器-maven 3-8 maven依赖传递 4星
 maven课程项目管理利器-maven 3-7 maven依赖范围 2星

原文地址：https://www.cnblogs.com/xubiao/p/8185288.html