zoukankan      html  css  js  c++  java
  • php使用file函数、fseek函数读取大文件效率分析

    1. 直接采用file函数来操作

    由于 file函数是一次性将所有内容读入内存,而PHP为了防止一些写的比较糟糕的程序占用太多的内存而导致系统内存不足,使服务器出现宕机,所以默认情况下限制只能最大使用内存16M,这是通过php.ini里的 memory_limit = 16M 来进行设置,这个值如果设置-1,则内存使用量不受限制。

    下面是一段用file来取出这具文件最后一行的代码:

    <?php
       ini_set('memory_limit', '-1');
       $file = 'access.log';
       $data = file($file);
       $line = $data[count($data) - 1];
       echo $line;
       ?>

    我机器是2个G的内存,当按下F5运行时,系统直接变灰,差不多20分钟后才恢复过来,可见将这么大的文件全部直接读入内存,后果是多少严重,所以不在万 不得以,memory_limit这东西不能调得太高,否则只有打电话给机房,让reset机器了。

    2.直接使用PHP的 fseek 来进行文件操作

    这种方式是最为普遍的方式,它不需要将文件的内容全部读入内容,而是直接通过指针来操作,所以效率是相当高效的。在使用fseek来对文件进行操作时,也有多种不同的方法,效率可能也是略有差别的,下面是常用的两种方法:

    方法一

    首先通过fseek找到文件的最后一位EOF,然后找最后一行的起始位置,取这一行的数据,再找次一行的起始位置, 再取这一行的位置,依次类推,直到找到了$num行。

    #实现代码如下

    <?php
       $fp = fopen($file, "r");
       $line = 10;
       $pos = -2;
       $t = " ";
       $data = "";
       while ($line > 0)
       {
           while ($t != "
    ")
           {
               fseek($fp, $pos, SEEK_END);
               $t = fgetc($fp);
               $pos--;
           }//  http://www.manongjc.com
           $t = " ";
           $data .= fgets($fp);
           $line--;
       }
       fclose($fp);
       echo $data
       ?>

    方法二

    还是采用fseek的方式从文件最后开始读,但这时不是一位一位的读,而是一块一块的读,每读一块数据时,就将读取后的数据放在一个buf里,然后通过换 行符( )的个数来判断是否已经读完最后$num行数据。

    #实现代码如下

    <?php
       $fp = fopen($file, "r");
       $num = 10;
       $chunk = 4096;
       $fs = sprintf("%u", filesize($file));
       $max = (intval($fs) == PHP_INT_MAX) ? PHP_INT_MAX : filesize($file);
       for ($len = 0; $len < $max; $len += $chunk)
       {
           $seekSize = ($max - $len > $chunk) ? $chunk : $max - $len;
           fseek($fp, ($len + $seekSize) * -1, SEEK_END);
           $readData = fread($fp, $seekSize) . $readData;
           if (substr_count($readData, "
    ") >= $num + 1)
           {
               // 作者:码农教程   http://www.manongjc.com
               preg_match("!(.*?
    ){" . ($num) . "}$!", $readData, $match);
               $data = $match[0];
               break;
           }
       }
       fclose($fp);
       echo $data;
       ?>

    方法三

    <?php
       function tail($fp, $n, $base = 5)
       {
           assert($n > 0);
           $pos = $n + 1;
           $lines = array();
           while (count($lines) <= $n)
           {
               try
               {
                   fseek($fp, -$pos, SEEK_END);
               }
               catch (Exception $e)
               {
                   fseek(0);
                   break;
               }
               $pos *= $base;
               while (!feof($fp))
               {
                   array_unshift($lines, fgets($fp));
               }
           }
        
           return array_slice($lines, 0, $n);
       }
        
       var_dump(tail(fopen("access.log", "r+"), 10));
       ?>
  • 相关阅读:
    机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)
    机器学习入门-数值特征-进行多项式变化(将特征投影到高维度上) 1.PolynomialFeatures(将数据变化为多项式特征)
    读取配置文件包含properties和xml文件
    开发常用辅助软件
    将Solr的数据存到Hdfs上
    ClassPathXmlApplicationContext和FileSystemXmlApplicationContext区别
    Codis连接异常问题处理
    Ganglia安装
    Spark sql读取数据库和ES数据进行处理代码
    linux清理缓存的命令
  • 原文地址:https://www.cnblogs.com/lh460795/p/7452107.html
Copyright © 2011-2022 走看看