zoukankan      html  css  js  c++  java
  • MongoDB 聚合(管道与表达式)

      MongoDB中聚合(aggregate)主要用于处理数据(诸如统计平均值,求和等),并返回计算后的数据结果。有点类似sql语句中的 count(*)。

    aggregate() 方法

    MongoDB中聚合的方法使用aggregate()。

    语法

    aggregate() 方法的基本语法格式如下所示:

    >db.COLLECTION_NAME.aggregate(AGGREGATE_OPERATION)

    下表展示了一些聚合的表达式:

    表达式描述实例
    $sum 计算总和。 db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : "$likes"}}}])
    $avg 计算平均值 db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$avg : "$likes"}}}])
    $min 获取集合中所有文档对应值得最小值。 db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$min : "$likes"}}}])
    $max 获取集合中所有文档对应值得最大值。 db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$max : "$likes"}}}])
    $push 在结果文档中插入值到一个数组中。 db.mycol.aggregate([{$group : {_id : "$by_user", url : {$push: "$url"}}}])
    $addToSet 在结果文档中插入值到一个数组中,但不创建副本。 db.mycol.aggregate([{$group : {_id : "$by_user", url : {$addToSet : "$url"}}}])
    $first 根据资源文档的排序获取第一个文档数据。 db.mycol.aggregate([{$group : {_id : "$by_user", first_url : {$first : "$url"}}}])
    $last 根据资源文档的排序获取最后一个文档数据 db.mycol.aggregate([{$group : {_id : "$by_user", last_url : {$last : "$url"}}}])

    管道的概念

    管道在Unix和Linux中一般用于将当前命令的输出结果作为下一个命令的参数。

    MongoDB的聚合管道将MongoDB文档在一个管道处理完毕后将结果传递给下一个管道处理。管道操作是可以重复的。

    表达式:处理输入文档并输出。表达式是无状态的,只能用于计算当前聚合管道的文档,不能处理其它的文档。

    这里我们介绍一下聚合框架中常用的几个操作:

    • $project:修改输入文档的结构。可以用来重命名、增加或删除域,也可以用于创建计算结果以及嵌套文档。
    • $match:用于过滤数据,只输出符合条件的文档。$match使用MongoDB的标准查询操作。
    • $limit:用来限制MongoDB聚合管道返回的文档数。
    • $skip:在聚合管道中跳过指定数量的文档,并返回余下的文档。
    • $unwind:将文档中的某一个数组类型字段拆分成多条,每条包含数组中的一个值。
    • $group:将集合中的文档分组,可用于统计结果。
    • $sort:将输入文档排序后输出。
    • $geoNear:输出接近某一地理位置的有序文档。

    练习:

    数据

    > db.user.find()
    { "_id" : ObjectId("5ab8b9495a96a08a5b909000"), "name" : "qlq1", "age" : 20, "se
    x" : "" }
    { "_id" : ObjectId("5ab8b9535a96a08a5b909001"), "name" : "qlq2", "age" : 22, "se
    x" : "" }
    { "_id" : ObjectId("5ab8b9685a96a08a5b909002"), "name" : "qlq3", "age" : 23, "se
    x" : "" }
    { "_id" : ObjectId("5ab8b96e5a96a08a5b909003"), "name" : "qlq4", "age" : 24, "se
    x" : "" }

    使用方法:使用管道过滤数据之后利用表达式对数据进行操作:

    • 测试分组管道与表达式:  $group   分组统计

    1.按性别分组,并计算男女人数

    db.user.aggregate([
        {$group:{
                _id:"$sex",
                num:{$sum:1}
        }
    }])

      

       解释:_id:"$sex"表示按sex属性分组;  $sum表示求和,如果是$sum:1就相当于count(*),一行记录算一个

    2.按性别分组,计算年龄和:

    db.user.aggregate([
        {$group:{
                _id:"$sex",
                num:{$sum:"$age"}
        }
    }])

     

    3.按性别分组,并拿到每个组的第一个年龄:

    db.user.aggregate([
        {$group:{
                _id:"$sex",
                num:{$first:"$age"}
        }
    }])

     

     4.先按性别分组,分完组之后将age属性映射到数组中:(相当于分完组之后查看同组的数据,mysql不能实现)

    db.user.aggregate([
        {$group:{
                _id:"$sex",
                num:{$push:"$age"}
        }
    }])

     

    如果是将所有列都添加到数组中用  $push:$$ROOT

    db.user.aggregate([
        {$group:{
                _id:"$sex",
                num:{$push:"$$ROOT"}
        }
    }])

    结果:

    /* 1 */
    {
        "_id" : "",
        "num" : [ 
            {
                "_id" : ObjectId("5ab8b9685a96a08a5b909002"),
                "name" : "qlq3",
                "age" : 23.0,
                "sex" : ""
            }, 
            {
                "_id" : ObjectId("5ab8b96e5a96a08a5b909003"),
                "name" : "qlq4",
                "age" : 24.0,
                "sex" : ""
            }
        ]
    }
    
    /* 2 */
    {
        "_id" : "",
        "num" : [ 
            {
                "_id" : ObjectId("5ab8b9495a96a08a5b909000"),
                "name" : "qlq1",
                "age" : 20.0,
                "sex" : ""
            }, 
            {
                "_id" : ObjectId("5ab8b9535a96a08a5b909001"),
                "name" : "qlq2",
                "age" : 22.0,
                "sex" : ""
            }
        ]
    }
    • $match管道:   类似于find,只是find不能统计,现在是可以过滤并统计

    1.查询年龄大学23小于等于50的(只是过滤)

    db.user.aggregate([
        {
           $match:{
                age:{$gt:23,$lte:50}
                    }
        }
    ])

    2.在上面过滤的基础上聚合(先过滤,再分组)

    db.user.aggregate([
        {
           $match:{
                age:{$gt:23,$lte:50},
                    }
        },
        {
            $group:{
                _id:"$sex",
                num:{
                    $sum:1
                    }
                }
            }
    ])
    • $project   修改输入文档的结构。可以用来重命名、增加或删除域,也可以用于创建计算结果以及嵌套文档。类似于find方法的第二个参数

     1.查询年龄大学23小于等于50的,按性别分组并统计人数,并且只取人数列:

    db.user.aggregate([
        {
           $match:{
                age:{$gt:23,$lte:50},
                    }
        },
        {
            $group:{
                _id:"$sex",
                num:{
                    $sum:1
                    }
                }
            },
         {
             $project:{
                 _id:0,
                 num:1
                 }
             }   
    ])

     解释:  $project:{_id:0,num:1}表示在结果中取num列,不取_id列。

     

    • $sort  排序。类似于sort方法,指定一列并指明排序方式

     1.查询年龄大于21小于等于35并且按性别分组之后两列都取,按总数降序排列

    db.user.aggregate([
        {
           $match:{
                age:{$gt:21,$lte:50},
                    }
        },
        {
            $group:{
                _id:"$sex",
                num:{
                    $sum:1
                    }
                }
            },
         {
             $project:{
                 _id:1,
                 num:1
                 }
             },
          {
              $sort:{num:-1}
              }   
    ])

     

    •  $skip  跳过几列:     $limit:取几列

     例如:在上面排序例子的基础上先跳过1列,取1个值

    db.user.aggregate([
        {
           $match:{
                age:{$gt:21,$lte:50},
                    }
        },
        {
            $group:{
                _id:"$sex",
                num:{
                    $sum:1
                    }
                }
            },
         {
             $project:{
                 _id:1,
                 num:1
                 }
             },
          {
              $sort:{num:-1}
              },
           {
               $skip:1
               },
            {
                $limit:1
                }   
    ])

     

     例如:在上面排序例子的基础上先取1列,再跳过1列  (取不到数据)

    db.user.aggregate([
        {
           $match:{
                age:{$gt:21,$lte:50},
                    }
        },
        {
            $group:{
                _id:"$sex",
                num:{
                    $sum:1
                    }
                }
            },
         {
             $project:{
                 _id:1,
                 num:1
                 }
             },
          {
              $sort:{num:-1}
              },
           {
               $limit:1
               },
            {
                $skip:1
                }   
    ])

    • $unwind:将文档中的某一个数组类型字段拆分成多条,每条包含数组中的一个值。     将数组拆分成一个一个的数据 (相当于分组的逆操作)

    构造数据:

    > db.tshirt.insert({name:'t1',size:90,size:["x","xxx","M"]})
    WriteResult({ "nInserted" : 1 })
    > db.tshirt.find()
    { "_id" : ObjectId("5ab8c3ce807bacd3133efcf8"), "name" : "t1", "size" : [ "x", "
    xxx", "M" ] }
    >
    
     

    例如;按size拆分数据

    db.tshirt.aggregate([
       {
           $unwind:'$size'
           }
    ])

    对于特殊情况的处理:(非数组,不存在的列,为空数组,为null)

    构造数据:

    > db.tshirt.find()
    { "_id" : ObjectId("5ab8c5ea807bacd3133efcfd"), "name" : "t1", "price" : 90, "size" : [ "m", "xx", "l" ] }
    { "_id" : ObjectId("5ab8c5f2807bacd3133efcfe"), "name" : "t1", "price" : 90, "size" : [ ] }
    { "_id" : ObjectId("5ab8c608807bacd3133efcff"), "name" : "t3", "price" : 93, "size" : "3x" }
    { "_id" : ObjectId("5ab8c62e807bacd3133efd02"), "name" : "t3", "price" : 93 }
    { "_id" : ObjectId("5ab8c746807bacd3133efd03"), "name" : "t3", "price" : 93, "size" : null }
    >

     1.直接拆分:()

    db.tshirt.aggregate([
       {
           $unwind:'$size'
           }
    ])

     结果:发现数据丢失(字段不存在的和属性值为null的数据丢失)

     

     2.拆分且防止数据丢失

    db.tshirt.aggregate([
       {
           $unwind:{
               path:"$size",
               preserveNullAndEmptyArrays:true  #为true表示防止空数组和null丢失
               }
           }
    ])

     

    例如:按价格进行分组之后将数据映射到数组中,并按此列拆分数据

    db.tshirt.aggregate([
        {
            $group:{
                    _id:"$price",
                    docs:{
                        $push:"$$ROOT"
                        }
                }
            },
        {
            $project:{
                    _id:1,
                    docs:1
                }
            },
       {
           $unwind:{
               path:"$docs",
               preserveNullAndEmptyArrays:true
               }
           }
    ])

    结果:

    /* 1 */
    {
        "_id" : 93.0,
        "docs" : {
            "_id" : ObjectId("5ab8c608807bacd3133efcff"),
            "name" : "t3",
            "price" : 93.0,
            "size" : "3x"
        }
    }
    
    /* 2 */
    {
        "_id" : 93.0,
        "docs" : {
            "_id" : ObjectId("5ab8c62e807bacd3133efd02"),
            "name" : "t3",
            "price" : 93.0
        }
    }
    
    /* 3 */
    {
        "_id" : 93.0,
        "docs" : {
            "_id" : ObjectId("5ab8c746807bacd3133efd03"),
            "name" : "t3",
            "price" : 93.0,
            "size" : null
        }
    }
    
    /* 4 */
    {
        "_id" : 90.0,
        "docs" : {
            "_id" : ObjectId("5ab8c5ea807bacd3133efcfd"),
            "name" : "t1",
            "price" : 90.0,
            "size" : [ 
                "m", 
                "xx", 
                "l"
            ]
        }
    }
    
    /* 5 */
    {
        "_id" : 90.0,
        "docs" : {
            "_id" : ObjectId("5ab8c5f2807bacd3133efcfe"),
            "name" : "t1",
            "price" : 90.0,
            "size" : []
        }
    }
  • 相关阅读:
    [BZOJ4876][ZJOI2017]线段树
    [FJOI2016]建筑师(斯特林数)
    WC2018伪题解
    [BZOJ3514]CodeChef MARCH14 GERALD07加强版(LCT+主席树)
    [BZOJ2594][WC2006]水管局长加强版(LCT+Kruskal)
    [洛谷3796]【模板】AC自动机(加强版)
    [洛谷3808]【模板】AC自动机(简单版)
    [BZOJ3261]最大异或和
    [BZOJ3439]Kpm的MC密码
    [POI2006]Periods of Words
  • 原文地址:https://www.cnblogs.com/qlqwjy/p/8652555.html
Copyright © 2011-2022 走看看