zoukankan      html  css  js  c++  java
  • C# 大数据量List<T>去重复方法效率比较

    大数据量List<T>中的数据根据多个属性进行去重有多种方法,在数据量达到10万以上时,各种方法效率有明显的区别,这里只列举两种方式: 这里以类Model为例创建List<Model>

     public class Model
        {
            public string Id { get; set; }
            public string Name { get; set; }
            public int Style { get; set; } 
        }
    1. 创建比较类(实现IEqualityComparer接口),重写Equals方法
    public class ModelComparer : IEqualityComparer<Model>
     {
         public bool Equals(Model x, Model y)
         {
             if (x.Id == y.Id && x.Name == y.Name)       
                 return true;         
             else           
                 return false;           
         }
     
         public int GetHashCode(Model obj)
         {
             return 0;
         }
     }

    使用时直接使用Distinct方法:

    var lstTemp = lstOrigin.Distinct(new ModelComparer());

    但是这种方式去重效率非常慢,20万条数据能达到15-20分钟,如果数据量较大又对效率有要求,那么可以尝试下面一种方法:

    改进办法

    public class CommonEqualityComparer<T, V> : IEqualityComparer<T>
        {
            private Func<T, V> keySelector;
    
            public CommonEqualityComparer(Func<T, V> keySelector)
            {
                this.keySelector = keySelector;
            }
    
            public bool Equals(T x, T y)
            {
                return EqualityComparer<V>.Default.Equals(keySelector(x), keySelector(y));
            }
    
            public int GetHashCode(T obj)
            {
                return EqualityComparer<V>.Default.GetHashCode(keySelector(obj));
            }
        }
    
        public static class DistinctExtensions
        {
            public static IEnumerable<T> Distinct<T, V>(this IEnumerable<T> source, Func<T, V> keySelector)
            {
                return source.Distinct(new CommonEqualityComparer<T, V>(keySelector));
            }
        }

    使用时:

    var lstTemp = lstOrigin.Distinct(p => (p.Id + p.Name)).ToList();

    这种方法能将效率从15~20分钟提高到5秒以内,虽然这种将两个字段字符串相加作为比较参数的比较方法有些局限,但是相比于前一种方式方式可以极大地提高效率。另也测试过在新建List后,在循环添加数据时通过list.Contains()的方法和通过Linq的方法去重效率都比较低,都与第一种方法时间相近,网上相关文章比较多这里就不列举了。

  • 相关阅读:
    [leetcode]5最长回文子串
    [leetcode]4寻找两个有序数组的中位数
    [leetcode]3无重复字符的最长字串
    [leetcode]2两数相加
    [leetcode]1两数之和
    [学习记录]堆
    [学习记录]平衡树
    [学习记录]二叉树删除
    [学习记录]排序算法总结
    创建mysql数据库
  • 原文地址:https://www.cnblogs.com/netlock/p/15430138.html
Copyright © 2011-2022 走看看