zoukankan      html  css  js  c++  java
  • DB2去重的几种方法

    有两个意义上的重复记录,一是完全重复的记录,也即所有字段均重复的记录,二是部分关键字段重复的记录,比如Name字段重复,而其他字段不一定重复或都重复可以忽略。

    例如下表:table1

    用户办理套餐的记录表,可看出,user_id=33333有两条完全重复的记录,user_id=11111的tc_name和open_date不一样

    1、对于完全重复的记录,直接使用distinct 即可

      select 

              distinct user_id,name,tc_name,open_date

      from  

              table1

    可得到如下结果:

    可以看出,完全重复的记录已经只剩下唯一的一条,但是部分重复的记录该方法无效

    2、对于完全重复的记录,还可以使用group by

    select
            user_id,name,tc_name,open_date
    from
            table1
    group by
            user_id,name,tc_name,open_date

    结果和上图一致,即:

    该方法也只对完全重复的记录有效

    3、row_number()over() 分等级之后限定 row=1

    select
            user_id,name,tc_name,open_date
    from
    (
        select
              user_id,name,tc_name,open_date
             ,row_number()over(partition by user_id order by open_date desc) as row
       from
             table1
    )
    where row=1

    该方法得到的结果如下:

    该方法不仅除掉了完全重复的记录,而且还除掉了不完全重复的记录,对open_date进行排等级,按照开通日期的倒序排列,且取出第一条记录,即开通时间最近的记录

    4、max等聚合函数

    select
           user_id,name,max(tc_name),max(open_date)
    from
           table1
    group by
            user_id,name

    该方法得出的结果如下,对完全重复记录和部分重复记录都有效,注:部分重复的记录要对所有重复字段使用max或min等才有效

  • 相关阅读:
    Java--垃圾回收【转载】
    Android--adb常用命令
    Android--四大组件
    review代码,需要做些什么???
    安全测试基础 -- 概述【转载】
    python操作json
    python代码审查之flake8
    django模板语法
    python操作redis
    python发送邮件
  • 原文地址:https://www.cnblogs.com/xuena/p/3912234.html
Copyright © 2011-2022 走看看