这个功能真的是写死我了,对于MongoDB一点都不熟悉,本来想使用spring与MongoDB的融合mongoDBTemplate,发现压根不是web项目,懒得配置那些配置文件,就使用最原始的数据库操作,事实证明,是真的很费劲,根本不知道那些操作嘛意思。庆幸的是,姐姐写出来了。
需求
现有MongoDB数据库,数据格式如下
data是一数组,查询每条记录中data中存在的重复数据,并删除重复,保留第一条记录
思路
根据字段 r ,以及 data 中的 t ,查出重复的数据,再根据重复数据查出完整记录,然后删除重复
ps : 思路是有的,执行是困难的
代码
1. 连接MongoDB数据库,一般可以配置到spring中,我这里使用原始的连接
@SuppressWarnings({"unchecked", "rawtypes" }) public static void main(String args[]){ logger.info(String.format("------------------开始处理重复数据,开始时间%s----------------------", new Date())); // 当年年初 Date date = new Date(); date = DateUtils.truncate(date, Calendar.YEAR); // 连接到 mongodb 服务,官方文档和源代码均建议使用MongoClient类,而且,在不久的将来,会废弃Mongo类 MongoClient mongoClient = new MongoClient( "127.0.0.1" , 27017 ); // 连接数据库,你需要指定数据库名称,如果指定的数据库不存在,mongo会自动创建数据库(未测试是否创建,网查可以创建) MongoDatabase database = mongoClient.getDatabase("test"); //连接到collection MongoCollection coll = database.getCollection("test_data"); List<Document> list = new ArrayList<Document>(); //固定时间区间,从年初到现在 Document matchDoc = new Document("t",new Document("$gte", date).append("$lte", new Date())); // 过滤 $match:用于过滤数据,只输出符合条件的文档 Document match = new Document("$match",matchDoc); //$unwind:将文档中的某一个数组类型字段拆分成多条,每条包含数组中的一个值 //拆开data数组 Document unwind = new Document("$unwind","$data"); // 依据字段 r 与 data中的 t 进行分组,并计算条数 Document groupD = new Document("_id",new Document("r","$r").append("t", "$data.t")) .append("count", new Document("$sum", 1)); Document group = new Document("$group", groupD); // $project:修改输入文档的结构。可以用来重命名、增加或删除域,也可以用于创建计算结果以及嵌套文档。 // 重新定义输出的字段 Document project = new Document("$project",new Document("r","$_id.r").append("t", "$_id.t").append("num", "$count")); // 查询条数大于1的数据 Document match2 = new Document("$match",new Document("num",new Document("$gt",1))); list.add(match); list.add(unwind); list.add(group); list.add(project); list.add(match2); //Mongodb规定了aggregate管道聚合的返回数据不能超过16M,超过16M就会报异常错误,需要设置allowDiskUse:true,即允许使用磁盘缓存 AggregateIterable<Document> doc = coll.aggregate(list,Document.class).allowDiskUse(true); //也可以使用for循环 doc.forEach(new Block<Document>() { @Override public void apply(Document t) { // TODO Auto-generated method stub logger.info(String.format("重复数据,详情:%s", t)); //处理重复数据 handleSingleDocument(coll,t); logger.info("---------------------分割线-----------------"); } }); // 一定要记得关闭连接 mongoClient.close(); mongoClient = null; logger.info(String.format("------------------处理重复数据结束,结束时间%s----------------------", new Date())); }
handleSingleDocument
@SuppressWarnings({ "unchecked", "rawtypes" }) private static void handleSingleDocument(MongoCollection coll,Document t){ //根据重复的条件 r 与 data.t 查询具体的重复数据 Document unwind = new Document("$unwind","$data"); Document match = new Document("$match",new Document("r",t.getInteger("r")) .append("data.t",t.getDate("t"))); List<Document> list = new ArrayList<Document>(); list.add(unwind); list.add(match); AggregateIterable<Document> doc = coll.aggregate(list,Document.class).allowDiskUse(true); int i = 0; for(Document dd :doc){ //用了最笨的方法,过滤到第一条数据 if(i==0){ i++; continue; } logger.info(String.format("删除数据:%s", dd)); Document ment = (Document) dd.get("data"); Document subMatch = new Document("r",t.getInteger("r")) .append("t", DateUtils.truncate(t.getDate("t"), Calendar.DAY_OF_MONTH)); // updateOne方法,第一个参数是查询符合条件数据,第二个参数是需要做的操作 // $pull修饰符会删除掉数组中符合条件的元素 coll.updateOne(subMatch, new Document("$pull",new Document("data",ment))); }
至此结束,写完觉得还是使用自己不知道的东西有成就感,再接再厉