zoukankan      html  css  js  c++  java
  • MongoDB: 聚集管道

    在MongoDB2.2新出现的。

    聚集管道式基于数据处理管道概念建模的数据聚集框架。文档进入一个多阶段能将该文档转化为聚集结果的管道。

    聚集管道提供了map-reduce方法了替代物,并在非常多聚集任务中是首选的方案,由于map-reduce的复杂性可能是你不希望看到的。



    上图是一个带凝视的聚集管道的操作,有两个阶段:$match和$group

    聚集管道在值的类型和结果大小上有非常多限制。

    以下简介。

    聚集操作在使用aggregate命令时有的限制:

    • 类型限制

    聚集管道不是在下列类型的值上进行操作:Symbol,Minkey,MaxKey,DBRef,Code和CodeWSrope

    (在MongoDB2.4版本号解除了对Binary类型的限制。

    在MongoDB2.2,管道不能对Binary类型数据操作)

    • 结果限制大小

    假设aggregate命令返回的单个文档保护完整的结果集。则该命令在结果集超过BSON Document Size限制时会产生一个错误,眼下的大小是16M。

    为了管理超过这一限制的结果集,aggregate命令当命令返回一个游标(cursor)或把结果保存在一个collection里时,可以返回随意大小的结果集。

    (在MongoDB2.6,aggregate命令返回一个游标或把结果存在一个collection时。能不受这个限制大小。db.collection.aggregate()返回一个游标,能返回随意大小的结果集。)

    • 内存限制

    在MongoDB2.6有了变化。

    管道阶段在RAM有100M的限制。

    假设超过这一限制,MongoDB会出错。为了同意操作大型数据。能够使用allowDiskUse选项来时聚集管道阶段能往暂时文件写数据。


    管道


    管道。顾名思义就是来自集合的文档通过一个聚集管道的旅行,当通过当中时该管道能转化这些对象。对熟悉Unix shells命令的(如 bash),这个概念和管道(pipe)非常类似。

    MongoDB的聚集管道以一个集合的文档開始,流动文档从一个管道操作(pipeline operator)到下一个来处理文档。

    在管道的每个操作符在文档经过管道时都会转化文档。管道操作符不须要为每个输入文档产生一个输出文档。

    操作符能够产生新文档也能过滤文档。

    管道操作能在一个管道里面反复。


    管道表达式

    每个管道操作符接受一个管道表达式作为操作数。管道表达式指出应用在输入文档的转化过程。

    表达式有一个文档(document)结构,并包括字段。值和操作符。

    管道表达式仅仅能操作在管道中的当前文档,不能引用在其它文档的数据:表达式提供了内存(in-memory)文档转化。

    一般的。表达式是无状态的,仅仅在聚集过程时有一个例外:Accumulation expressions。累加表达式,使用$group管道,维持他们的状态(如,totals,maximums,mininums和相关数据)作为通过管道的文档过程。


    聚集管道行为

    在MongoDB,aggregate命令操作单个集合。并在逻辑上传递整个文档给聚集管道。为了优化这个操作。在可能的情况下,应该使用以下策略来避免扫描整个集合。

    1. 管道操作符和索引

    $match和$sort管道操作符可以利用索引的优势,假设他们在管道的開始位置出现。

    (在Mongo2.4新出现的:$geoNear管道操作符能利用地理索引的优势。

    当使用$geoNear。$geoNear必须在聚集管道的第一阶段出现。)

    即使管道使用了索引。聚合操作依旧要訪问实际的文档。比方,索引不能全然覆盖聚集管道。

    (在Mongo2.6之前的版本号。对规模很小的选择情况,索引可以覆盖管道)


    提前过滤

    假设你的聚集应用仅须要一个集合的一个数据子集。使用 $match。$limit,$skip阶段在文档进入管道时去限制文档.当被放置在管道的開始,$match操作符使用合适的索引去扫描集合匹配的文档.

    在管道的開始紧跟着$sort阶段放置$match在逻辑上等价于一个使用排序的单一查询,并能够使用索引.假设可能的话,把$match放置在管道的开头.


  • 相关阅读:
    Java语法基础
    配置环境变量
    常用Dos命令
    Python 之 进程与进程池的创建和使用
    python之进程间通信
    低级别网络接口-socket的应用和粘包现象
    网络编程之模块的使用
    Python异常类型
    练习题
    python 的re模块与正则表达式
  • 原文地址:https://www.cnblogs.com/gavanwanggw/p/6700931.html
Copyright © 2011-2022 走看看