zoukankan      html  css  js  c++  java
  • 用php导入10W条+ 级别的csv大文件数据到mysql。导出10W+级别数据到csv文件

    转自:http://blog.csdn.net/think2me/article/details/12999907

    1. 说说csv 和 Excel 

    这两者都是我们平时导出或者导入数据一般用到的载体。两者有什么区别呢?csv 格式更兼容一点。那么共同点都是GBK格式的,非UTF8。所以我们上传文件的时候,老是出现乱码,就是编码问题没有转好导致。
     

    2. 推荐的几种方法

    1. 函数 fgetss($handel);  返回字符串。它就是strip_tags(fget($handel))的组合读取csv 文件的一行。去掉了其中的HTML,php 等标签。这种方法使用于小的csv 文件
    [php] view plain copy
     
     在CODE上查看代码片派生到我的代码片
    1. $handle=fopen("1.csv","r");  
    2. while(!feof($handle)){  
    3.     $buffer=fgetss($handle,2048);  
    4.     $row = mb_convert_encoding(trim($buffer), 'utf-8', 'gbk'); //很重要。转换成UTF8格式,不然容易产生乱码  
    5.     $data=explode(",",$row); //转换成数组  
    6.     $insertRows[]    = $data;  
    7. //这样所有的csv文件就生成一个二维数组$insertRows;  

    2. 函数 fgetcsv($handel,2048,','),返回数组,它就是explode(",",fget($handel))的组合。这种方法使用于小的csv 文件。而且不适合有汉字的csv 文件。
    [php] view plain copy
     
     在CODE上查看代码片派生到我的代码片
    1. $handle=fopen("1.csv","r");  
    2. while($data=fgetcsv($handle,1000,",")){  
    3.    $insertRows[]    = $data;  
    4. }  //这样所有的csv文件就生成一个二维数组$insertRows;  
     
    3. 说到正题了。上面2种方法适合少量的csv 文件。如果一个文件有10W+ 以上的行数,恐怕就很悲剧了。
    [php] view plain copy
     
     在CODE上查看代码片派生到我的代码片
    1. $handle=fopen("1.csv","r");  
    2.       
    3. //将文件一次性全部读出来  
    4. $excelData = array();  
    5. $content = trim(file_get_contents($fileName));  
    6. $excelData = explode(" ",$content);  
     
    或者直接用$excelData = file($file);   file() 函数直接将数据读出并放入数组当中。

    我们先将所有的文件一次性读出来。放到一个数组$excelData 中。这个时候,我们就可以不用管这个csv 文件了,纯粹了php 操作数组了。所以。不会崩溃异常:
     
    [php] view plain copy
     
     在CODE上查看代码片派生到我的代码片
    1. $chunkData = array_chunk($excelData , 5000); // 将这个10W+ 的数组分割成5000一个的小数组。这样就一次批量插入5000条数据。mysql 是支持的。  
    2.         $count = count($chunkData);  
    3.         for ($i = 0; $i < $count; $i++) {  
    4.             $insertRows = array();  
    5.             foreach($chunkData[$i] as $value){  
    6.                 $string = mb_convert_encoding(trim(strip_tags($value)), 'utf-8', 'gbk');//转码  
    7.                 $v = explode(',', trim($string));  
    8.                 $row = array();  
    9.                 $row['cdate']    = empty($v[0]) ? date('Y-m-d') : date('Y-m-d',strtotime($v[0]));  
    10.                 $row['business'] = $v[1];  
    11.                 $row['project']  = $v[2];  
    12.                 $row['shopname'] = $v[3];  
    13.                 $row['shopid']   = $v[4];  
    14.                 $row['fanli']    = formatNumber($v[5]);  
    15.                 $row['fb']   = $v[6] * 100;  
    16.                 $row['jifen']    = $v[7];  
    17.                 $sqlString       = '('."'".implode( "','", $row ) . "'".')'; //批量  
    18.                 $insertRows[]    = $sqlString;  
    19.             }  
    20.             $result = $model->addDetail($insertRows); //批量将sql插入数据库。  
    21.         }  


    插入数据库当然是批量插入了:
     
    [php] view plain copy
     
     在CODE上查看代码片派生到我的代码片
    1. public function addDetail($rows){  
    2.         if(empty($rows)){  
    3.             return false;  
    4.         }  
    5.         //数据量较大,采取批量插入  
    6.         $data = implode(',', $rows);  
    7.         $sql = "INSERT IGNORE INTO tb_account_detail(cdate,business,project,shopname,shopid,fanli,fb,jifen)  
    8.                  VALUES {$data}";  
    9.         $result = $this->query($sql);  
    10.         return true;  
    11.     }  


     
    ok ! 亲测试。10W 数据。6个字段。插入需要10秒。
     
     
    -----------------2013-12-18 日更新---------------------
     

    3. 导出10W+的数据到csv

    放弃之前写的一篇博客中用到的方法:http://blog.csdn.net/think2me/article/details/8596833 。原因是:当超过50W+ 以上的数据时,有可能浏览器崩溃,内存超。
     
    这个方法是写文件的方式。然后再把文件弹出下载。
     
    [php] view plain copy
     
     在CODE上查看代码片派生到我的代码片
    1. public function dump2Excel() {  
    2.   
    3.     set_time_limit(0);  
    4.     ini_set('memory_limit', '640M');  
    5.     //获取列表  
    6.     $name = $this->getActionName();  
    7.     $model = D(GROUP_NAME . '.' . $name);  
    8.     $map = $this->_search();  
    9.     //文件名  
    10.     if (isset($_GET['error']) && $_GET['error'] > 0) {  
    11.         $filename = C('IMG_PATH').'account_data_error_' . $map['action_id'] . '_' . date('Y-m-d', mktime()) . '.csv';  
    12.     }else{  
    13.         $filename = C('IMG_PATH').'account_data_all_' . $map['action_id'] . '_' . date('Y-m-d', mktime()) . '.csv';  
    14.     }  
    15.   
    16.     //用户信息,商家ID,联盟,商家订单号,商品分类,确认类别,下单时间,完成时间,  
    17.     //实际支付金额,佣金,佣金补贴,返利,F币,论坛积分,备注,强制入库  
    18.     // 'user_info', 'shopid', 'league', 'order_id', 'classify', 'confirm_type',  
    19.     //'buydate', 'paydate', 'real_pay', 'commission', 'commission_plus',  
    20.     // 'fanli', 'jifen', 'bbs', 'remarks', 'persist_execute', 'unique_sign','error_code'  
    21.     $header[] =  iconv("utf-8", "gb2312", "用户信息");  
    22.     $header[] = iconv("utf-8", "gb2312", "商家ID");  
    23.     $header[] = iconv("utf-8", "gb2312", "联盟");  
    24.     $header[] = iconv("utf-8", "gb2312", "商家订单号");  
    25.     $header[] = iconv("utf-8", "gb2312", "商品分类");  
    26.     $header[] = iconv("utf-8", "gb2312", "确认类别");  
    27.     $header[] = iconv("utf-8", "gb2312", "下单时间");  
    28.     $header[] = iconv("utf-8", "gb2312", "完成时间");  
    29.     $header[] = iconv("utf-8", "gb2312", "实际支付金额");  
    30.     $header[] = iconv("utf-8", "gb2312", "佣金");  
    31.     $header[] = iconv("utf-8", "gb2312", "佣金补贴");  
    32.     $header[] = iconv("utf-8", "gb2312", "返利");  
    33.     $header[] = iconv("utf-8", "gb2312", "F币");  
    34.     $header[] = iconv("utf-8", "gb2312", "论坛积分");  
    35.     $header[] = iconv("utf-8", "gb2312", "备注");  
    36.     $header[] = iconv("utf-8", "gb2312", "强制入库");  
    37.     $header[] = iconv("utf-8", "gb2312", "唯一标识");  
    38.     $header[] = iconv("utf-8", "gb2312", "错误信息");  
    39.   
    40.     $headerFile = implode(',', $header);  
    41.   
    42.     //写入标题  
    43.     @unlink($filename);  
    44.     file_put_contents($filename, $headerFile." ");  
    45.   
    46.     //获取所有error_code  
    47.     $list = D('Fanli')->table('tb_account_action_data_error_code')->field('id,err_msg')->findAll();  
    48.     $error_msg = array();  
    49.     foreach ($list as $value) {  
    50.         $error_msg[$value['id']] = $value['err_msg'];  
    51.     }  
    52.     //导入错误的数据  
    53.     if (isset($_GET['error']) && $_GET['error'] > 0) {  
    54.         $map['error_code'] = array('gt', 0);  
    55.     }  
    56.   
    57.     if (!empty($map['action_id'])) {  
    58.         $allCount = $model->where($map)->field('count(1) as count')->select();  
    59.         $pageLimit = ceil($allCount[0]['count']/self::PAGE_COUNT);  
    60.         $voList = array();  
    61.         //打开文件  
    62.         if (!$handle = fopen($filename, 'a')) {  
    63.             echo "不能打开文件 $filename";  
    64.             exit;  
    65.         }  
    66.         //分页获取  
    67.         for($i=0;$i<$pageLimit;$i++){  
    68.             $count = self::PAGE_COUNT;  
    69.             $start = $count * $i;  
    70.             $limit = "$start,$count";  
    71.             $voList  = $model->where($map)->limit($limit)->order('id desc')->findAll();  
    72.             //写入文件  
    73.             $excelString = array();  
    74.             foreach ($voList as $v) {  
    75.                 $dumpExcel = array();  
    76.                 $dumpExcel[] = mb_convert_encoding($v['user_info'], 'GBK', 'UTF-8');  
    77.                 $dumpExcel[] = mb_convert_encoding($v['shopid'], 'GBK', 'UTF-8');  
    78.                 $dumpExcel[] = mb_convert_encoding($v['league'], 'GBK', 'UTF-8');  
    79.                 $dumpExcel[] = mb_convert_encoding($v['order_id'], 'GBK', 'UTF-8');  
    80.                 $dumpExcel[] = mb_convert_encoding($v['classify'], 'GBK', 'UTF-8');  
    81.                 $dumpExcel[] = mb_convert_encoding($v['confirm_type'], 'GBK', 'UTF-8');  
    82.                 $dumpExcel[] = "'".mb_convert_encoding($v['buydate'], 'GBK', 'UTF-8');  
    83.                 $dumpExcel[] = "'".mb_convert_encoding($v['paydate'], 'GBK', 'UTF-8');  
    84.                 $dumpExcel[] = mb_convert_encoding($v['real_pay'], 'GBK', 'UTF-8');  
    85.                 $dumpExcel[] = mb_convert_encoding($v['commission'], 'GBK', 'UTF-8');  
    86.                 $dumpExcel[] = mb_convert_encoding($v['commission_plus'], 'GBK', 'UTF-8');  
    87.                 $dumpExcel[] = mb_convert_encoding($v['fanli'], 'GBK', 'UTF-8');  
    88.                 $dumpExcel[] = mb_convert_encoding($v['jifen'], 'GBK', 'UTF-8');  
    89.                 $dumpExcel[] = mb_convert_encoding($v['bbs'], 'GBK', 'UTF-8');  
    90.                 $dumpExcel[] = mb_convert_encoding($v['remarks'], 'GBK', 'UTF-8');  
    91.                 $dumpExcel[] = intval($v['persist_execute']);  
    92.                 $dumpExcel[] = mb_convert_encoding($v['unique_sign'], 'GBK', 'UTF-8');  
    93.                 $dumpExcel[] = mb_convert_encoding($error_msg[$v['error_code']], 'GBK', 'UTF-8');  
    94.                 $excelString[] = implode(',',$dumpExcel);  
    95.             }  
    96.             //只能一行行些。不然容易漏  
    97.             foreach($excelString as $content){  
    98.                 fwrite($handle, $content . " ");  
    99.             }  
    100.             unset($excelString);  
    101.         }  
    102.         fclose($handle);  
    103.     }  
    104.     //导出下载  
    105.     header("Content-type: application/octet-stream");  
    106.     header('Content-Disposition: attachment; filename="' . basename($filename) . '"');  
    107.     header("Content-Length: ". filesize($filename));  
    108.     readfile($filename);  
    109. }  
  • 相关阅读:
    bash中执行SQL语句返回一个值
    对机器特定端口增加网络延迟
    修改jmeter的界面文字大小和语言
    pip3 安装一直报错ssl问题,重装python3
    robotframework学习
    jmeter
    python3向oracle插入数据
    oracle使用时注意
    人心惟危,道心惟微,惟精惟一,允执厥中。
    vim 离线安装 .tar.gz 源码程序
  • 原文地址:https://www.cnblogs.com/houdj/p/6492004.html
Copyright © 2011-2022 走看看