zoukankan      html  css  js  c++  java
  • 探寻读取文件的最快方法

     
    探寻C++最快的读取文件的方案
    
    在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式。相信几乎所有的C++学习者都在cin机器缓慢的速度上栽过跟头,于是从此以后发誓不用cin读数据。还有人说Pascal的read语句的速度是C/C++中scanf比不上的,C++选手只能干着急。难道C++真的低Pascal一等吗?答案是不言而喻的。一个进阶的方法是把数据一下子读进来,然后再转化字符串,这种方法传说中很不错,但具体如何从没试过,因此今天就索性把能想到的所有的读数据的方式都测试了一边,结果是惊人的。
    
    竞赛中读数据的情况最多的莫过于读一大堆整数了,于是我写了一个程序,生成一千万个随机数到data.txt中,一共55MB。然后我写了个程序主干计算运行时间,代码如下:
    
    #include <ctime>
    int main()
    {
        int start = clock();
        //DO SOMETHING
        printf("%.3lf
    ",double(clock()-start)/CLOCKS_PER_SEC);
    }
    最简单的方法就算写一个循环scanf了,代码如下:
    
    const int MAXN = 10000000;
    
    int numbers[MAXN];
    
    void scanf_read()
    {
        freopen("data.txt","r",stdin);
        for (int i=0;i<MAXN;i++)
            scanf("%d",&numbers[i]);
    }
    可是效率如何呢?在我的电脑Linux平台上测试结果为2.01秒。接下来是cin,代码如下
    
    const int MAXN = 10000000;
    
    int numbers[MAXN];
    
    void cin_read()
    {
        freopen("data.txt","r",stdin);
        for (int i=0;i<MAXN;i++)
            std::cin >> numbers[i];
    }
    出乎我的意料,cin仅仅用了6.38秒,比我想象的要快。cin慢是有原因的,其实默认的时候,cin与stdin总是保持同步的,也就是说这两种方法可以混用,而不必担心文件指针混乱,同时cout和stdout也一样,两者混用不会输出顺序错乱。正因为这个兼容性的特性,导致cin有许多额外的开销,如何禁用这个特性呢?只需一个语句std::ios::sync_with_stdio(false);,这样就可以取消cin于stdin的同步了。程序如下:
    
    const int MAXN = 10000000;
    
    int numbers[MAXN];
    
    void cin_read_nosync()
    {
        freopen("data.txt","r",stdin);
        std::ios::sync_with_stdio(false);
        for (int i=0;i<MAXN;i++)
            std::cin >> numbers[i];
    }
    取消同步后效率究竟如何?经测试运行时间锐减到了2.05秒,与scanf效率相差无几了!有了这个以后可以放心使用cin和cout了。
    
    接下来让我们测试一下读入整个文件再处理的方法,首先要写一个字符串转化为数组的函数,代码如下
    
    const int MAXS = 60*1024*1024;
    char buf[MAXS];
    
    void analyse(char *buf,int len = MAXS)
    {
        int i;
        numbers[i=0]=0;
        for (char *p=buf;*p && p-buf<len;p++)
            if (*p == ' ')
                numbers[++i]=0;
            else
                numbers[i] = numbers[i] * 10 + *p - '0';
    }
    把整个文件读入一个字符串最常用的方法是用fread,代码如下:
    
    const int MAXN = 10000000;
    const int MAXS = 60*1024*1024;
    
    int numbers[MAXN];
    char buf[MAXS];
    
    void fread_analyse()
    {
        freopen("data.txt","rb",stdin);
        int len = fread(buf,1,MAXS,stdin);
        buf[len] = '';
        analyse(buf,len);
    }
    上述代码有着惊人的效率,经测试读取这10000000个数只用了0.29秒,效率提高了几乎10倍!掌握着种方法简直无敌了,不过,我记得fread是封装过的read,如果直接使用read,是不是更快呢?代码如下:
    
    const int MAXN = 10000000;
    const int MAXS = 60*1024*1024;
    
    int numbers[MAXN];
    char buf[MAXS];
    
    void read_analyse()
    {
        int fd = open("data.txt",O_RDONLY);
        int len = read(fd,buf,MAXS);
        buf[len] = '';
        analyse(buf,len);
    }
    测试发现运行时间仍然是0.29秒,可见read不具备特殊的优势。到此已经结束了吗?不,我可以调用Linux的底层函数mmap,这个函数的功能是将文件映射到内存,是所有读文件方法都要封装的基础方法,直接使用mmap会怎样呢?代码如下:
    
    const int MAXN = 10000000;
    const int MAXS = 60*1024*1024;
    
    int numbers[MAXN];
    char buf[MAXS];
    void mmap_analyse()
    {
        int fd = open("data.txt",O_RDONLY);
        int len = lseek(fd,0,SEEK_END);
        char *mbuf = (char *) mmap(NULL,len,PROT_READ,MAP_PRIVATE,fd,0);    
        analyse(mbuf,len);
    }
    经测试,运行时间缩短到了0.25秒,效率继续提高了14%。到此为止我已经没有更好的方法继续提高读文件的速度了。回头测一下Pascal的速度如何?结果令人大跌眼镜,居然运行了2.16秒之多。程序如下:
    
    const
        MAXN = 10000000;
    var
        numbers :array[0..MAXN] of longint;
        i :longint;
    begin
        assign(input,'data.txt');
        reset(input);
        for i:=0 to MAXN do
            read(numbers[i]);
    end.
    为确保准确性,我又换到Windows平台上测试了一下。结果如下表:
    
    方法/平台/时间(秒)	Linux gcc	Windows mingw	Windows VC2008
    scanf	2.010	3.704	3.425
    cin	6.380	64.003	19.208
    cin取消同步	2.050	6.004	19.616
    fread	0.290	0.241	0.304
    read	0.290	0.398	不支持
    mmap	0.250	不支持	不支持
    Pascal read	2.160	4.668	 
    从上面可以看出几个问题
    
    Linux平台上运行程序普遍比Windows上快。
    Windows下VC编译的程序一般运行比MINGW(MINimal Gcc for Windows)快。
    VC对cin取消同步与否不敏感,前后效率相同。反过来MINGW则非常敏感,前后效率相差8倍。
    read本是linux系统函数,MINGW可能采用了某种模拟方式,read比fread更慢。
    Pascal程序运行速度实在令人不敢恭维。
    希望此文能对大家有所启发,欢迎与我继续讨论。
    
    转载于:https://www.byvoid.com/blog/fast-readfile/    此人为一大牛,为我辈楷模其中许多的博客文章写的都极好推荐大家也去看一看!!!!!!
    
     
    
     
    
    -----------------------------------------------------------------------------------------------------------------------------------------------
    
    附:输入输出技巧 1. 判断输入结束 有些编程作业题并未指明测试数据的组数,此时需要自己判断输入结束。
    
    其实,根 据题意正确处理输入数据也是同学们在这门课中需要练习的编程能力之一。 处理输入的方法很简单,使用 C++风格的 cin,可以这样写 string a, b; char c; while (cin >> a >> b >> c) { /* blablabla */ }
    
    如果使用 C 风格的 scanf()函数,则可根据其返回值做出判断,具体地可以这样写: while (scanf("%s
    %s
    %c
    
    ", &a, &b, &c) != EOF) { /* blablabla */ } 这样当格式输入流读到文件末尾时会返回 EOF,于是 while 退出。
    
    -------------------------------------------------------------------------------------------------------------------------------------------
    
     
    
    2. 重定向 为便于反复测试及再现运行过程,可采用输出、输入重定向的方法。 你只需事先将输入数据存成文件,运行时系统会自动从中获取输入。其效果完全等 同于你从(作为默认输入流的)键盘逐项输入。
    
    类似地,你也可以指定另一文件,并使运行的结果自动存入其中。其效果完全等同 于从(作为默认输出流的)屏幕截取输出结果。 重定向的好处很多:可以避免手工输入的出错,忠实可靠地重复测试;可以实现大 规模数据的输入;可以完整精确地记录程序的输出,以便事后的对比分析;可以省去默 认输入、输出流占用的大量时间,更加准确地测量程序的执行效率。
    
    ----------------------------------------------------------------------------------------------
    
     
    
    d) 方法一:修改源文件,指定重定向的输入、输出文件 例如,若希望从文件 input.txt 中获取输入,将输出保存到文件 output.txt 中, 6 则可在主程序开头增加如下语句:
    
    #ifndef _OJ_
    
    freopen("input.txt", "r", stdin);
    
    freopen("output.txt", "w", stdout);
    
    #endif
    
    -------------------------------------------------------------------------------------------------------------------------------------------------
    
     
    
    注意:如果用 c++风格的 cin/cout 的话,还要在前面引用头文件的部分加入 #include 。 OJ 在编译程序的时候会提供一个_OJ_的符号,所以上面这段语句会在 OJ 运行 的时候被跳过。
    
    e) 方法二:在 IDE 中通过设置命令行,重定向输入、输出文件 以 Visual Studio 为例,可打开对应工程的“属性页”,在“配置属性”下的“调 试”页,设置“命令行参数”。
    
    输入参数不多时,可直接键入。例如 ADD 一题,键入“100 200”即可。若其 中包含特殊字符,则需以'^'引导,或者使用一对半角括号消除歧义。
    
    若输入参数多,且不止一行,则可将其存成一个文件。比如,可在“命令行参 数”中键入: < D:	estinput.txt (注意起始字符"<"不能省略)
    
     
    
    为将程序的输出保存至指定文件,可在“命令行参数”中继续键入:
    
    > D:
    esultoutput.txt (同样地,起始字符"<"也不能省略)
    
    若不希望覆盖文件原有的内容,只需用">>"替换以上的">",即可将每次运行 的输出追加至 D:
    esultoutput.txt。
    
     
    
    输入、输出的重定向可同时采用并生效。比如可在“命令行参数”中键入:
    
    < D:	estinput.txt >> D:
    esultoutput.txt
    
    重定向文件的具体路径与文件名可自行选择,但若包含空格,则需使用一对半 角引号消除歧义,比如: < "D:my testinput.txt" >> "D:my resultoutput.txt" 3. 帮助资料 关于输入输出的进一步问题,可以自己查阅相关手册或资料。 也可参考标准手册,以上输入输出方法都是 C/C++标准输入输出,在 manual 中都 有详细介绍。
    
    cin:http://www.cplusplus.com/reference/iostream/cin/
    
    scanf:http://linux.die.net/man/3/
    
    printf 对比:https://www.byvoid.com/blog/fast-readfile/
    

      

  • 相关阅读:
    mysql优化三
    mysql优化一
    mysql索引二
    mysql索引
    php连接sql2005
    Android studio 自动导入(全部)包 import (转)
    Android启动页面的正确打开方式 (转载)
    coursera 视频总是缓冲或者无法观看的解决办法(Windows 和 Linux 系统 环境)
    最新解决 Ubuntu16.04 和 win10 双系统时间同步问题 (设置为 UTC 时间)
    2017年12月 六级成绩 留念
  • 原文地址:https://www.cnblogs.com/airfand/p/5021104.html
Copyright © 2011-2022 走看看