zoukankan      html  css  js  c++  java
  • 解决java读取大文件内存溢出问题

    1. 传统方式:在内存中读取文件内容

     读取文件行的标准方式是在内存中读取,Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法:
       Files.readLines(new File(path), Charsets.UTF_8);
       FileUtils.readLines(new File(path));
       实际上是使用BufferedReader或者其子类LineNumberReader来读取的。
      传统方式的问题: 是文件的所有行都被存放在内存中,当文件足够大时很快就会导致程序抛出OutOfMemoryError 异常。

      问题思考:我们通常不需要把文件的所有行一次性地放入内存中,相反,我们只需要遍历文件的每一行,然后做相应的处理,处理完之后把它扔掉。所以我们可 以通过行迭代方式来读取,而不是把所有行都放在内存中。

    2. 大文件读取处理方式

      不重复读取与不耗尽内存的情况下处理大文件:

       (1)文件流方式:使用java.util.Scanner类扫描文件的内容,一行一行连续地读取

    FileInputStream inputStream = null; 
    Scanner sc = null; 
    try { 
        inputStream = new FileInputStream(path); 
        sc = new Scanner(inputStream, UTF-8); 
        while (sc.hasNextLine()) {
            String line = sc.nextLine(); 
            // System.out.println(line); 
         } 
    }catch(IOException e){
           logger.error(e);
    }finally {
         if (inputStream != null) { 
            inputStream.close(); 
         } 
         if (sc != null) {
                 sc.close();
             }
    }            
    View Code

      该方案将会遍历文件中的所有行,允许对每一行进行处理,而不保持对它的引用。总之没有把它们存放在内存中

       (2)Apache Commons IO流:使用Commons IO库实现,利用该库提供的自定义LineIterator

    LineIterator it = FileUtils.lineIterator(theFile, UTF-8); 
    try {
        while (it.hasNext()) {
        String line = it.nextLine(); 
        // do something with line 
         } 
    } finally {
       LineIterator.closeQuietly(it);
    }
    View Code

          该方案由于整个文件不是全部存放在内存中,这也就导致相当保守的内存消耗。

          

  • 相关阅读:
    Linux使用定时器timerfd 和 eventfd接口实现进程线程通信
    C++面向对象实现封装线程池
    生产者与消费者问题,C++利用bind基于对象实现与面向对象实现
    C++11新特性,bind,基于对象
    [HDU
    [HDU
    [HDU
    【BZOJ3707】圈地 (几何,旋转坐标系)
    [HDU
    [Codeforces Round #595 (Div. 3)] F. Maximum Weight Subset (树形DP)
  • 原文地址:https://www.cnblogs.com/echoty/p/7326827.html
Copyright © 2011-2022 走看看