zoukankan      html  css  js  c++  java
  • Python将一个大文件按段落分隔为多个小文件的简单方法

    今天帮同学处理一点语料。

    语料文件有点大,而且是以连续两个换行符作为段落标志,他想把它按段落分隔成多个小文件。即每3个段落组成一个新文件。因为曾经没有遇到过类似的操作,在网上找了一些类似的方法,看起来都有点复杂。

    所以经尝试。自己写了一段代码。完美解决这个问题。
    基本思路是,先读原文件内容,并使用正則表達式。根据 进行切片处理。结果为一个列表,当中每个列表元素都存放一个切片中的内容;然后创建一个写文件的句柄;接下来遍历切片列表,并写入当前切片内容,推断是否已经写入了3个段落,假设不是,则继续读写下一个切片,假设已经够3个。则关闭之前的写文件句柄,以不同的文件名称又一次创建一个新的写文件句柄,循环结束,等待读写下一个切片。

    # -*- coding:utf8 -*- 
    import re;
    p=re.compile('
    
    ',re.S);
    fileContent=open('files/办公室.txt','r',encoding='utf8').read();#读文件内容
    paraList=p.split(fileContent) #根据换行符对文本进行切片
    
    fileWriter=open('files/0.txt','a',encoding='utf8');#创建一个写文件的句柄
    for paraIndex in range(len(paraList)):#遍历切片后的文本列表
        fileWriter.write(paraList[paraIndex]);#先将列表中第一个元素写入文件里
        if((paraIndex+1)%3==0):#推断是否写够3个切片,假设已经够了
            fileWriter.close(); #关闭当前句柄
            fileWriter=open('files/'+str((paraIndex+1)/3)+'.txt','a',encoding='utf8'); #又一次创建一个新的句柄。等待写入下一个切片元素。

    注意这里文件名称的处理技巧。

    fileWriter.close();#关闭最后创建的那个写文件句柄 print('finished');

  • 相关阅读:
    iOS5.1下emoji表情显示方框的解决办法
    iPhone处理图片(UIImage扩展类) 自动适应frame大小方法
    10个必需的iOS开发工具和资源
    转一篇:iOSOpenDev环境搭建以及使用
    自定义UITabbarController引发的血案
    (转) iphone开发资源汇总
    分类分享一下,关于push推送的经验吧
    关于IPHONE的设计模式
    IOS自动化打包介绍
    带有可变参数表的简化的printf函数
  • 原文地址:https://www.cnblogs.com/brucemengbm/p/7294346.html
Copyright © 2011-2022 走看看