zoukankan      html  css  js  c++  java
  • Spark2 Dataset去重、差集、交集

    import org.apache.spark.sql.functions._
          
    // 对整个DataFrame的数据去重 
    data.distinct() 
    data.dropDuplicates() 
          
    // 对指定列的去重 
    val colArray=Array("affairs", "gender") 
    data.dropDuplicates(colArray) 
    //data.dropDuplicates("affairs", "gender") 
          
      
    val df=data.filter("gender=='male' ") 
    // data与df的差集 
    data.except(df).show 
    +-------+------+----+------------+--------+-------------+---------+----------+------+ 
    |affairs|gender| age|yearsmarried|children|religiousness|education|occupation|rating| 
    +-------+------+----+------------+--------+-------------+---------+----------+------+ 
    |    0.0|female|32.0|        15.0|     yes|          1.0|     12.0|       1.0|   4.0| 
    |    0.0|female|32.0|         1.5|      no|          2.0|     17.0|       5.0|   5.0| 
    |    0.0|female|32.0|        15.0|     yes|          4.0|     16.0|       1.0|   2.0| 
    |    0.0|female|22.0|        0.75|      no|          2.0|     12.0|       1.0|   3.0| 
    |    0.0|female|27.0|         4.0|      no|          4.0|     14.0|       6.0|   4.0| 
    +-------+------+----+------------+--------+-------------+---------+----------+------+ 
    
    
    // data与df的交集
    data.intersect(df)
    
  • 相关阅读:
    JQuery DOM操作
    JQuery 选择器和事件
    LinQ 组合查分页
    LinQ
    web 图片验证码 验证
    Web 上传图片加水印
    Web 组合查询加 分页
    ajax连接数据库加载+三级联动
    jq动画
    jq基础
  • 原文地址:https://www.cnblogs.com/wwxbi/p/6102085.html
Copyright © 2011-2022 走看看