zoukankan      html  css  js  c++  java
  • spark按某几列删除dataframe重复行

    新建一个 dataframe

    val conf = new SparkConf().setAppName("TTyb").setMaster("local")
    val sc = new SparkContext(conf)
    val spark = new SQLContext(sc)
    val dataFrame = spark.createDataFrame(Seq(
      (1, 1, "2", "5"),
      (2, 2, "3", "6"),
      (2, 2, "35", "68"),
      (2, 2, "34", "67"),
      (2, 2, "38", "68"),
      (3, 2, "36", "69"),
      (1, 3, "4", null)
    )).toDF("id", "label", "col1", "col2")
    

    想根据 idlable 来删除重复行,即删掉 id=2lable=2 的重复行。利用 distinct 无法删除

    dataframe.distinct().show()
    +---+-----+----+----+
    | id|label|col1|col2|
    +---+-----+----+----+
    |  1|    1|   2|   5|
    |  2|    2|   3|   6|
    |  2|    2|  35|  68|
    |  2|    2|  34|  67|
    |  2|    2|  38|  68|
    |  3|    2|  36|  69|
    |  1|    3|   4|null|
    +---+-----+----+----+
    

    利用 dropDuplicates 可以根据 ID 来删除:

    dataFrame.dropDuplicates("id","label").show()
    +---+-----+----+----+
    | id|label|col1|col2|
    +---+-----+----+----+
    |  2|    2|   3|   6|
    |  1|    1|   2|   5|
    |  1|    3|   4|null|
    |  3|    2|  36|  69|
    +---+-----+----+----+
    
  • 相关阅读:
    P4016 负载平衡问题 网络流
    P3357 最长k可重线段集问题 网络流
    mysql部署
    pve配置
    PVE手册资料
    PVE授权条款
    ovirt磁盘类型(IDE, virtio, virtio-scsi)
    oVirt-postgresql
    ovirt常用后台维护命令
    oVirt部署
  • 原文地址:https://www.cnblogs.com/TTyb/p/8507237.html
Copyright © 2011-2022 走看看