zoukankan      html  css  js  c++  java
  • 玩转mongodb(八):分布式计算--MapReduce

        MongoDB提供了MapReduce的聚合工具来实现任意复杂的逻辑,它非常强大,非常灵活。MapReduce使用JavaScript作为“查询语言”,能够在多台服务器之间并行执行。它会将一个大问题拆分为多个小问题,将各个小问题发送到不同的机器上,每台机器只负责完成一部分工作。所有机器都完成时,再将这些零碎的解决方案合并为一个完整的解决方案。

        在一般情况下,MapReduce操作有2个阶段:第一个阶段是映射(map)阶段,处理每一个符合要求的文档(即每个符合要求的文档都执行一次map的方法),然后利用emit函数产生一些键和这些键对应的多个值(最后组成一个列表)。第二个阶段是化简(reduce)阶段,把列表中的值化简成一个单值。

        MapReduce使用自定义JavaScript函数执行map和reduce操作,具有极大的灵活性,但这种强大是有代价的,MapReduce非常慢,不应该用在实时的数据分析中。

        下面来看一个例子:

        主要的功能:计算出每个用户的状态为A的订单的总额。

        

        首先查找所有订单(如果mongodb有进行分片,则每个分片的订单都会找出来)状态为“A”的订单。

        然后每个订单都会执行map的方法,map方法主要是输出以cust_id为key,amount为value的一个键值对。紧跟着的一个步骤,是把所有相同的key的所有value,组成一个数组,传给后面的reduce。

        最后的reduce步骤,是把由map传回来的key/value的value进行求和,得到最终以每个用户(cust_id)为key,所有金额求和的值为value的结果。

        reduce步骤产生的结果,放在“order_totals”这个集合中。可以用db.order_totals.find()来查看这整个MapReduce的结果

      喜欢请微信扫描下面二维码,关注我公众号--“精修Java”,做一些实战项目中的问题和解决方案分享。 

  • 相关阅读:
    Ext Js MVC系列二 利用Application和Viewport进行应用程序初始化和页面布局
    LINQ to Sql系列一 增,删,改
    Ext Js MVC系列一 环境搭建和MVC框架整体认识
    LINQ to Sql系列四 性能优化总结
    SQL基础回顾系列一 单表查询(select语句)
    JSON详解
    公用类库(4) 缓存操作类CacheUtil
    架构设计考虑的问题(出自代码大全II)
    .net自动更新组件Ant
    .net socket在win2008下的吞吐性能报告
  • 原文地址:https://www.cnblogs.com/zhouqinxiong/p/5576973.html
Copyright © 2011-2022 走看看