zoukankan      html  css  js  c++  java
  • [pyMongo]insert_many的Bulkwrite实现机制

    在SQL中,insert many的操作可能会出现插入数据量过大的问题。

    假设我构造了一个128M的insert语句,SQL或者driver是如何处理的?MySQL Driver对insert语句的数据量大小限制是多少?

    翻阅了相关的文档,并没有发现明确的答案。

    仅查到配置项中有一个insert_buffer的配置项,默认项是8M。

    猜测当insert语句中的数据过多,driver会循环处理数据,每当数据块达到8M时,会自动执行commit操作,进程suspend,等待数据库操作结束后,再继续读入数据。

    pyMongo对这个问题的操作解释的十分明确。

    pyMongo在实现BulkWrite操作时,会自动将数据划分成小块进行插入,避免插入数据过大的问题。

    具体可看pyMongo对BulkWrite做的说明:http://api.mongodb.com/python/current/examples/bulk.html

    "PyMongo will automatically split the batch into smaller sub-batches based on the maximum message size accepted by MongoDB, supporting very large bulk insert operations."

    在网上看到有人将数据分块后进行循环插入,即:

    buffer = []
    for item in data:
        buffer.append(item)
        if len(buffer) == 20000:
            <mgoclient>.insert_many(buffer)
            buffer =[]  

    我不确定MongoDB本身在提供Driver API的时候有没有考虑buffer过大的处理问题。

    不过如果使用pyMongo来连接Mongo的话,自己做数据拆分的步骤是多余的。

  • 相关阅读:
    守护线程Daemon的理解
    Activity并行网关和排他网关
    Activity快速入门理解
    java虚拟机内存区域理解
    Maven的使用
    Mybatis拦截器(插件实现原理)
    網絡上好的博客收集
    jdbc 设置连接支持多条sql
    python 多环境安装
    Linux 系统命令
  • 原文地址:https://www.cnblogs.com/oDoraemon/p/9994072.html
Copyright © 2011-2022 走看看