zoukankan      html  css  js  c++  java
  • Python之读取大型文本文件

    之前接触的数据,无论是csv还是txt格式,都比较小,最大也就几百兆。在读取过程中不会遇到内存崩溃的现象。

    最近,项目中接收到的数据竟然比电脑内存还要大 ,读取过程中经常遇到memoryError错误,于是开始研究了关于大文件读取;于此参考了以下博客:

    https://blog.csdn.net/u011847043/article/details/81069105


    谈到“文本处理”时,我们通常是指处理的内容。

    Python 将文本文件的内容读入可以操作的字符串变量非常容易。文件对象提供了三个“读”方法: .read()、.readline() 和 .readlines()。。

    read() 一次性读取读取整个文件,将文件存储在一个字符串变量中。当文件接近或者大于内存时会产生memoryError的错误。

    readline() 和 readlines() 之间的差异是后者一次读取整个文件,同 read()。

    readlines() 自动将文件内容分析成一个行的列表,该列表可以由 Python 的 for ... in ... 结构进行处理。

    另一方面,.readline() 每次只读取一行,通常比 readlines() 慢得多。仅当没有足够内存可以一次读取整个文件时,应该使用 .readline()。

    with open('filepath', 'r', encoding = 'utf-8') as f:
      while True:
        line = f.readline() # 逐行读取
        if not line: # 到 EOF,返回空字符串,则终止循环
          break
        Operate(line) #对每行数据进行处理

    分块读取(实用靠谱)

    将文档按块进行读取

    def read_in_chunks(filePath, chunk_size=1024*1024):
      file_object = open(filePath,'r',encoding='utf-8')
      while True:
        chunk_data = file_object.read(chunk_size)
        if not chunk_data:
          break
        yield chunk_data
    if __name__ == "__main__":
      filePath = "C:/Users/Public/Documents/data/user_data.csv"
      for chunk in read_in_chunks(filePath):
        print(chunk)

  • 相关阅读:
    第13组_16通信3班_045_OSPFv3作业
    RIPng配置(第十三组)
    基于IPV6的数据包分析(更新拓扑加入了linux主机和抓取133icmp包)(第十三组)
    vmware vsphere powercli 因为在此系统中禁止执行脚本
    vmware virtual machine must be running in order to be migrated
    flashback transaction闪回事务查询
    oracle 闪回功能详解
    linux下修改/dev/shm tmpfs文件系统大小
    vmware虚拟机guest系统重启后获得169.254.X.X的ip解决方法
    一键部署 PPTP server
  • 原文地址:https://www.cnblogs.com/feigebaqi/p/10904946.html
Copyright © 2011-2022 走看看