大数据量List<T>中的数据根据多个属性进行去重有多种方法,在数据量达到10万以上时,各种方法效率有明显的区别,这里只列举两种方式: 这里以类Model为例创建List<Model>
public class Model { public string Id { get; set; } public string Name { get; set; } public int Style { get; set; } }
public class ModelComparer : IEqualityComparer<Model> { public bool Equals(Model x, Model y) { if (x.Id == y.Id && x.Name == y.Name) return true; else return false; } public int GetHashCode(Model obj) { return 0; } }
使用时直接使用Distinct方法:
var lstTemp = lstOrigin.Distinct(new ModelComparer());
但是这种方式去重效率非常慢,20万条数据能达到15-20分钟,如果数据量较大又对效率有要求,那么可以尝试下面一种方法:
改进办法
public class CommonEqualityComparer<T, V> : IEqualityComparer<T> { private Func<T, V> keySelector; public CommonEqualityComparer(Func<T, V> keySelector) { this.keySelector = keySelector; } public bool Equals(T x, T y) { return EqualityComparer<V>.Default.Equals(keySelector(x), keySelector(y)); } public int GetHashCode(T obj) { return EqualityComparer<V>.Default.GetHashCode(keySelector(obj)); } } public static class DistinctExtensions { public static IEnumerable<T> Distinct<T, V>(this IEnumerable<T> source, Func<T, V> keySelector) { return source.Distinct(new CommonEqualityComparer<T, V>(keySelector)); } }
使用时:
var lstTemp = lstOrigin.Distinct(p => (p.Id + p.Name)).ToList();
这种方法能将效率从15~20分钟提高到5秒以内,虽然这种将两个字段字符串相加作为比较参数的比较方法有些局限,但是相比于前一种方式方式可以极大地提高效率。另也测试过在新建List后,在循环添加数据时通过list.Contains()的方法和通过Linq的方法去重效率都比较低,都与第一种方法时间相近,网上相关文章比较多这里就不列举了。