zoukankan      html  css  js  c++  java
  • java 大数据比较两个list集合的差值

    有这么个场景,每天需要定时任务插入增量数据。如果通过接口获取的直接根据时间过滤,那么就能直接就可以插入库中。但有时获取到的并不是增量数据,比如微信公众号获取关注者列表时,获取到的是全量数据,这样每天就得将全量数据与库中进行比较,只有库中不存在数据才进行插入。这就有了两个list比较差值的问题。

    以前在处理该问题时,会遍历全量中的list,然后判断每个对象是否已在数中存在,如果不存在就放到一个临时List中,最后返回的临时List就是增量数据了,代码如下:

    private List<String> getNeedAddOpenidList(List<String> allOpenidList, List<String> dbOpenidList) {
    	    if (dbOpenidList != null && !dbOpenidList.isEmpty()) {
    	    	List<String> resultList = new ArrayList<String>();
    	    	
    	    	if (allOpenidList != null && !allOpenidList.isEmpty()) {
    	    		for (String openid : allOpenidList) {
    		    		if (!dbOpenidList.contains(openid)) {
    		    			resultList.add(openid);
    		    		}
    		    	}
    	    	}
    	    	return resultList;
    	    } else {
    	    	return allOpenidList;
    	    }
        }

    但这种在处理几千条数据还好,等上万、或上十万时,执行效率就会很低。即便我后来用list1.removeAll(list2)时,在处理40万条数据时,10分钟根本处理不完。

    后来用如下方法,瞬间完成:

    private List<String> getNeedAddOpenidList(List<String> allOpenidList, List<String> dbOpenidList) {
    	    if (dbOpenidList != null && !dbOpenidList.isEmpty()) {
    	    	Map<String, String> dataMap = new HashMap<String, String>();
    			for (String id : dbOpenidList) {
    				dataMap.put(id, id);
    			}
    			
    			List<String> newList = new ArrayList<String>();
    			for (String id : allOpenidList) {
    				if (!dataMap.containsKey(id)) {
    					newList.add(id);
    				}
    			}
    			return newList;
    	    } else {
    	    	return allOpenidList;
    	    }
        }

    1.将数据库中的list转成一个map集合

    2.遍历获取到的全量数据,通过主键或唯一索引之类的字段进行比较

    3.如果map.get(key)不存在,放到一个临时List中

    4.最后将临时List返回

    如果以后有更高效率的方法,还会进行更新

  • 相关阅读:
    c++笔记3
    c++笔记2
    c++笔记1
    零点追踪(零点及量程补偿)
    优秀软件:
    Hart协议
    RL_RTX函数
    keil-rtx
    电源模块选型
    RTX51 Tiny
  • 原文地址:https://www.cnblogs.com/dulinan/p/12033021.html
Copyright © 2011-2022 走看看