zoukankan      html  css  js  c++  java
  • MySQL删除重复记录的方法

    参考网上的方法,总结了产出重复记录的方法,欢迎交流。

    参考:http://www.cnblogs.com/nzbbody/p/4470638.html

    方法1:创建一个新表临时储存数据

    假设我们有一个存在多个字段的表,表中有部分数据的若干字段重复,此时我们可以使用DISTINCT这个关键字对表数据进行筛选。

    1 CREATE [TEMPORARY] TABLE temp LIKE origin_tb;
    2 INSERT temp(attr1,attr2,...) SELECT DISTINCT attr1,attr2,... FROM origin_tb;
    3 DELETE FROM origin_tb;
    4 INSERT origin_tb(attr1,attr2,...) SELECT temp * FROM temp;
    5 DROP TABLE temp;
    View Code

     如果全部字段都相同,那么可以直接使用"DISTINCT *"来获取全部字段的记录。这个方法有个问题,就是会改变一条记录中部分字段的值,所以只适用于大部分字段甚至全部字段都重复的记录。并且这种方法创建了一个新的表,效率并不是太高,对于大批量的数据处理,如果使用临时表则要考虑内存占用的问题。

    方法二:利用group by分组重复的数据,并提取最小的id进行分组

    适用问题:删除重复的记录,只保留编号最小的那条数据,要求每条数据必须要有一个无重复的编号。

    1 DELETE FROM tb WHERE id NOT IN (SELECT b.mi FROM (SELECT min(id) AS mi FROM tb GROUP BY attr1,attr2...) AS b);
    View Code

    整个过程分成3步:

    第一步:利用group by进行查重,提取所有不重复的记录。

    第二步:在查重结果的外面进行封装,这是为了避免在查询的同时对表进行更新的问题,mysql不支持这种操作。

    第三步:删除重复的记录。

    方法二的另一种实现(推荐)

    1 DELETE a FROM bank_detail_train_cp AS a JOIN (SELECT Uid,`TimeStamp`,TradeType,Volume,`Status`,COUNT(*),MAX(TID) AS TID FROM bank_detail_train_cp GROUP BY Uid,`TimeStamp`,TradeType,Volume,`Status` HAVING COUNT(*)>1) AS b ON 
    2 a.Uid=b.Uid AND
    3 a.`TimeStamp`=b.`TimeStamp` AND
    4 a.TradeType=b.TradeType AND
    5 a.Volume=b.Volume AND
    6 a.`Status`=b.`Status`
    7 WHERE a.TID<b.TID;
    View Code

    思路:

    第一步:利用GROUP BY和聚合函数MAX()、MIN()、COUNT()对表进行分组聚合,得出所有重复的记录,并抽取其中id值最大(最小)的记录构建临时表;

    第二步:对原表与临时表进行内连接,筛选出所有重复的记录,利用WHERE进一步筛选出这些表中id非最大(最小)的记录进行删除。

    注释:由于连表操作相对于多次查询来说效率较高,所以建议采用最后一种方法。

       
  • 相关阅读:
    pureftp 超时 mlsd
    安卓相机调用适配
    解决多个界面重复共用同一组数据导致数据同步改变(实现数据的完全深拷贝)
    PHP反射API的使用、体会、说明
    c冒泡排序
    iOS开发常用的第三方类库
    修改按钮上图片的大小-iOS
    获取手机通讯录--ios
    根据搜素的字符串改变label包含该字符串的文字
    cell点击按钮崩的一种情况
  • 原文地址:https://www.cnblogs.com/zhangjpn/p/6230695.html
Copyright © 2011-2022 走看看