zoukankan      html  css  js  c++  java
  • MongoDB MapReduce学习笔记

    http://cnodejs.org/topic/51a8a9ed555d34c67831fb8b

    http://garyli.iteye.com/blog/2079158

     

    MapReduce应该算是MongoDB操作中比较复杂的了,自己开始理解的时候还是动了动脑子的,所以记录在此!

    命令语法:详细看

    db.runCommand(

     { mapreduce : 字符串,集合名,

       map : 函数,见下文

       reduce : 函数,见下文

       [, query : 文档,发往map函数前先给过渡文档]

       [, sort : 文档,发往map函数前先给文档排序]

       [, limit : 整数,发往map函数的文档数量上限]

       [, out : 字符串,统计结果保存的集合]

       [, keeptemp: 布尔值,链接关闭时临时结果集合是否保存]

       [, finalize : 函数,将reduce的结果送给这个函数,做最后的处理]

       [, scope : 文档,js代码中要用到的变量]

       [, jsMode : 布尔值,是否减少执行过程中BSON和JS的转换,默认true] //注:false时 BSON-->JS-->map-->BSON-->JS-->reduce-->BSON,可处理非常大的mapreduce,<br>                                    //true时BSON-->js-->map-->reduce-->BSON

       [, verbose : 布尔值,是否产生更加详细的服务器日志,默认true]

     }

    );

    测试数据:

    现在我要统计同一age的name,也就是像如下的结果:

    {age:0,names:["name_6","name_12","name_18"]}
    {age:1,names:["name_1","name_7","name_13","name_19"]}
    ......

    第一步是写映射(Map)函数,可以简单的理解成分组吧~

    var m=function(){
        emit(this.age,this.name);
    }

    emit的第一个参数是key,就是分组的依据,这是自然是age了,后一个是value,可以是要统计的数据,下面会说明,value可以是JSON对象。

    这样m就会把送过来的数据根据key分组了,可以想象成如下结构:

    第一组
    {key:0,values: ["name_6","name_12","name_18"]
    
    第二组
    {key:1,values: ["name_1","name_7","name_13","name_19"]
    ......

    组中的key其实就是age的值了,values是个数组,数组内的成员都有相同的age!!。

    第二步就是简化了,编写reduce函数:

    var r=function(key,values){
        var ret={age:key,names:values};
        return ret;
    }

    reduce函数会处理每一个分组,参数也正好是我们想像分组里的key和values。

    这里reduce函数只是简单的把key和values包装了一下,因为不用怎么处理就是我们想要的结果了,然后返回一个对象。对象结构正好和我们想象的相符!:

    {age:对应的age,names:[名字1,名字2..]}

    最后,还可以编写finalize函数对reduce的返回值做最后处理:

    var f=function(key,rval){
        if(key==0){
            rval.msg="a new life,baby!";
        }
        return rval
    }

    这里的key还是上面的key,也就是还是age,rval是reduce的返回值,所以rval的一个实例如:{age:0,names:["name_6","name_12","name_18"]},

    这里判断 key 是不是 0 ,如果是而在 rval 对象上加 msg 属性,显然也可以判断 rval.age==0,因为 key 和 rval.age 是相等的嘛!!

    这里其他的选项就不说了,一看就知道。

    运行:

    db.runCommand({
        mapreduce:"t",
        map:m,
        reduce:r,
        finalize:f,
        out:"t_age_names"
        }
    )

    结果导入到 t_age_names 集合中,查询出来正是我想要的结果,看一下文档的结构,不难发现,_id 就是 key,value 就是处理后的返回值。

  • 相关阅读:
    洛谷P3178 [HAOI2015]树上操作 题解 树链剖分+线段树
    洛谷P2590 [ZJOI2008]树的统计 题解 树链剖分+线段树
    2017年NOIP普及组复赛题解
    洛谷P3957 跳房子 题解 二分答案/DP/RMQ
    2016年NOIP普及组复赛题解
    2015年NOIP普及组复赛题解
    2014年NOIP普及组复赛题解
    洛谷P2258 子矩阵 题解 状态压缩/枚举/动态规划
    2013年NOIP普及组复赛题解
    第四章 选择结构(二)
  • 原文地址:https://www.cnblogs.com/8899man/p/5024533.html
Copyright © 2011-2022 走看看