zoukankan      html  css  js  c++  java
  • [Django]数据批量导入

    前言:历经一个月的复习,考试终于结束了.这期间上班的时候有研究了Django网页制作过程中,如何将数据批量导入到数据库中.

           这个过程真的是惨不忍睹,犯了很多的低级错误,这会在正文中说到的.再者导入数据用的是py脚本,脚本内容参考至自强学堂--中级教程--数据导入.

           注:本文主要介绍自己学习的经验总结,而非教程!

    正文:首先说明采用Django中bulk_create()函数来实现数据批量导入功能,为什么会选择它呢?

           1 bulk_create()是执行一条SQL存入多条数据,使得导入速度更快;

           2 bulk_create()减少了SQL语句的数量;

           然后,我们准备需要导入的数据源,数据源格式可以是xls,csv,txt等文本文档;

           最后,编写py脚本,运行即可!

           py脚本如下:

    #coding:utf-8 
    
    import os 
    os.environ.setdefault("DJANGO_SETTINGS_MODULE", "www.settings") 
    
    '''
    Django 版本大于等于1.7的时候,需要加上下面两句
    import django
    django.setup()
    否则会抛出错误 django.core.exceptions.AppRegistryNotReady: Models aren't loaded yet.
    '''
    import django
    import datetime
    
    
    if django.VERSION >= (1, 7):#自动判断版本
        django.setup()
    
    from keywork.models import LOrder
    
    f = open('cs.csv')
    WorkList = []
    next(f) #将文件标记移到下一行
    for line in f:
        parts = line.replace('"','') #将字典中的"替换空
        parts = parts.split(';') #按;对字符串进行切片
        WorkList.append(LOrder(serv_id=parts[0], serv_state_name=parts[1], acct_code=parts[2], acct_name=parts[3], acc_nbr=parts[4], user_name=parts[5],
                               frod_addr=parts[6], mkt_chnl_name=parts[7],mkt_grid_name=parts[8], com_chnl_name=parts[9],com_grid_name=parts[10],
                               product_name=parts[11],access_name=parts[12], completed_time=parts[13],remove_data=parts[14], service_offer_name=parts[15],
                               org_name=parts[16], staff_name=parts[17],staff_code=parts[18], handle_time=parts[19],finish_time=parts[20],
                               prod_offer_name=parts[21],eff_date=parts[22], exp_date=parts[23],main_flag=parts[24], party_name=parts[25]
                               )
                       )
    f.close() 
    LOrder.objects.bulk_create(WorkList)
     

    根据上面py脚本源代码主要来说说自己学习过程中遇见的问题

    问题1:需要导入的数据源中其第一行一般是字段名,从第二行开始才是数据,所以在脚本利用next(f)将文本标记移到第二行进行操作,不然会出现问题,比如字段名一般为英文,默认是字符串格式化,脚本执行就会遇见ValidationError:YYYY-MM-DD HH:MM[:ss[.uuuuuu]][TZ]这种models数据格式与导入数据格式不相符合的错误!

    问题2:注意parts = parts.split(';') #按;对字符串进行切片该语句,因为我们导入数据每一行中的每列数据之间有间隔符,例如csv中逗号,xls中空格等各种文本默认间隔符号,split函数使用实例如下:

    以下实例展示了split()函数的使用方法:

    #!/usr/bin/python
    
    str = "Line1-abcdef 
    Line2-abc 
    Line4-abcd";
    print str.split( );
    print str.split(' ', 1 );

    以上实例输出结果如下:

    ['Line1-abcdef', 'Line2-abc', 'Line4-abcd']
    ['Line1-abcdef', '
    Line2-abc 
    Line4-abcd']

    问题3:如果导入数据源超过10M,然后数据库默认最大10M,那么上面脚本运行不会成功.以mysql为例,若导入数据大小超过数据设置,那么会报2006 go away错误,需要在mysql中的my.ini中的[mysqld]下加入下列语句:

    max_allowed_packet=300M  --最大允许包大小300M
    wait_timeout=200000   --连接时间200000s
    interactive_timeout = 200000 --断开时间200000s

    注:若本文有什么错误,请指出,谢谢!

  • 相关阅读:
    Highcharts之饼图
    设计模式学习之原型模式
    jQuery学习之结构解析
    JS学习之闭包的理解
    JS学习之prototype属性
    JS学习之事件冒泡
    Mybatis学习之JDBC缺陷
    Spring学习之Aop的基本概念
    Struts学习之值栈的理解
    Struts学习之自定义结果集
  • 原文地址:https://www.cnblogs.com/CQ-LQJ/p/5089047.html
Copyright © 2011-2022 走看看