zoukankan      html  css  js  c++  java
  • mongodb mapreduce使用总结



       文章来自本人个人博客: mongodb mapreduce使用总结 ​

       大家都知道,mongodb是一个非关系型数据库。也就是说。mongodb数据库中的每张表是独立存在的,表与表之间没有不论什么依赖关系。在mongodb中。除了各种CRUD语句之外。还给我们提供了聚合和mapreduce统计的功能,这篇文章主要来跟大家聊聊mongodb的mapreduce的操作。

        ​mapreduce的概念我就不赘述了,大家自己去查查吧。

        ​在mongodb中,mapreduce的语法例如以下:

        ​

    db.table.mapReduce(
            map,
            reduce,
            {
                query: query,
                out: out,    //指定结果集以什么方式存储,可选參数包括:
                            //replace:假设文档(table)存在。则替换table,
                            //merge:假设文档中存在记录。则覆盖已存在的文档记录
                            //reduce: 假设文档中存在同样key的记录了,则先计算两条记录。然后覆盖旧记录
                            // {inline:1}  在内存中存储记录,不写入磁盘(用户数据量少的计算)
                sort: sort,
                limit: limit,
                finalize: function  //这个function主要用来在存入out之前能够改动数据。function(key,values) { 
                                    //return modifiedValues;}
                scope: document,    //指定reduce可訪问的文档范围
                jsMode:boolean      //指定是否在map和ruduce之间马上将数据转换为Bason格式,默觉得false
                                    //假设想设置为true,则要记住官方我那当的注意事项:
                                    //You can only use jsMode for result sets with fewer than
                                    //500,000 distinct key arguments to the mapper’s emit()function.
                verbose:boolean     //是否在结果集中包括timing信息,默认是包括的
            }
        )
    

        ​在做mongodb的mapreduce时。要确保你的query是能够利用到索引的,不然在大数据量的统计下,将会托夸整个数据库,假设确实没办法建索引,那么就在结果集中推断一些不符合条件的数据,而去掉query。

        ​mapreduce的语法事实上非常easy,仅仅只是这里面有几点须要注意一下:

        ​    ​1.在map中,mongodb是每1000条数据就reduce一次

        ​    ​2.在map中,假设你想统计一个数据之和。须要这样写:

        ​    ​    ​emit(key:this.key,sum:0})

        ​    ​    ​然后再在reduce里须要将上一次的sum迭代累加起来,然后return {sum:sum};假设不这样做,你计算出来的数据总是最后不足1000条数据之后统计出来的,而前面的数据就都丢失了。

        ​   3.假设能不用mapreduce,就不用,程序可以统计的,就不要用mongodb频繁统计。

        ​   4.mapreduce的结果集的数据格式是:{_id:key,value:{}},因此假设想直接使用这个表的话。最好再又一次将数据格式整理一次,​尽量将数据放在最上次。而不是再用value.xxx去查询。

        ​这里附上统计我们站点的用户发表内容的数量的mapreduce。仅供一种代码格式的參考价值吧:

        ​

    var db = connect('127.0.0.1:27017/test');
    db.aAccounttemp.drop();
    var map = function() {
        emit(this.accountId, 
            {sum:0,
                reblogFlag:this.reblogFlag,dashboardFlag:this.dashboardFlag,dashboardType:this.dashboardType,
                photoNum:0,postNum:0,reblogNum:0,videoNum:0,videoShortNum:0, musicNum:0,
                questionNum:0,appNum:0, dialogNum:0});
    }
    
    var reduce = function(key,values) {
    
        var sum = 0;
        var photoNum = 0;
        var postNum = 0;
        var reblogNum = 0;
        var videoNum = 0;
        var videoShortNum = 0;
        var musicNum = 0;
        var questionNum = 0;
        var appNum = 0;
        var dialogNum = 0;
        for (var i = 0; i < values.length; i++) {
            var data = values[i];
            var reblogFlag = data.reblogFlag;
            var dashboardFlag = data.dashboardFlag;
            var dashboardType = data.dashboardType;
            sum += data.sum;
            photoNum += data.photoNum;
            reblogNum += data.reblogNum;
            postNum += data.postNum;
            videoNum += data.videoNum;
            musicNum += data.musicNum;
            videoShortNum += data.videoShortNum;
            questionNum += data.questionNum;
            appNum += data.appNum;
            dialogNum += data.dialogNum;
            if(!reblogFlag) {
                if(dashboardFlag) {
                    sum += 1;
                    if(dashboardType == 10) {
                        postNum += 1;
                    } else if(dashboardType == 20) {
                        photoNum += 1;
                    } else if(dashboardType == 30) {
                        videoNum += 1;
                    } else if(dashboardType == 31) {
                        videoShortNum += 1;
                    } else if(dashboardType == 40) {
                        musicNum += 1;
                    } else if(dashboardType == 60) {
                        questionNum += 1;
                    } else if(dashboardType == 100) {
                        appNum += 1;
                    } else if(dashboardType == 91) {
                        dialogNum += 1;
                    }
                } else {
                    if(dashboardType == 20) {
                        photoNum += 1;
                    }
                }
            } else if(reblogFlag && dashboardFlag) {
                reblogNum += 1;
            }
            
        }
        return {sum:NumberInt(sum),reblogNum:NumberInt(reblogNum),postNum:NumberInt(postNum),photoNum:NumberInt(photoNum),
            videoNum:NumberInt(videoNum),videoShortNum:NumberInt(videoShortNum),
            musicNum:NumberInt(musicNum), questionNum:NumberInt(questionNum),appNum:NumberInt(appNum),dialogNum:NumberInt(dialogNum)};
    };
    db.getMongo().setSlaveOk();
    db.dashboard_basic.mapReduce(
            map,
            reduce,
            {
                out:{merge:'aAccounttemp'}
            }
        );
    var results = db.aAccounttemp.find();
    //又一次整理数据格式,存入正规表中
    while (results.hasNext()) {
        var obj = results.next();
        var value = obj.value;
        var sum = NumberInt(value.sum);
        var reblogNum = NumberInt(value.reblogNum);
        var postNum = NumberInt(value.postNum);
        var photoNum = NumberInt(value.photoNum);
        var videoNum = NumberInt(value.videoNum);
        var videoShortNum = NumberInt(value.videoShortNum);
        var musicNum  = NumberInt(value.musicNum);
        var questionNum = NumberInt(value.questionNum);
        var appNum = NumberInt(value.appNum);
        var dialogNum = NumberInt(value.dialogNum);
        var accountId = obj._id;
        db.dashboard_account_num.insert({accountId:accountId,sum:sum,reblogNum:reblogNum,postNum:postNum,photoNum:photoNum,
            videoShortNum:videoShortNum,videoNum:videoNum,musicNum:musicNum,questionNum:questionNum,
            appNum:appNum,dialogNum:dialogNum});
    }
    
    print('success insert total ' + results.count()+ ' datas');
    db.aAccounttemp.drop()
    quit()  
    


  • 相关阅读:
    【转载】Myeclipse如何自动创建hibernate
    win7 64位mysql安装及navicat 解压版
    NuGet套件还原步骤(以vs2012为例)
    Html.DropDownListFor() 二级联动 ($.getJSON)
    ModelState验证部分属性
    asp.net mvc发送邮件
    SpringBoot的热部署
    SpringBoot 入门demo
    集群、负载均衡、微服务、分布式的概念
    SpringBoot 简介
  • 原文地址:https://www.cnblogs.com/yfceshi/p/6911455.html
Copyright © 2011-2022 走看看