最近在作一个有关自然语言处理的project,要处理大量的语料文本,而python这种脚本在处理字符串上又有其无可比拟的优势,所以就看了看这方面的书。以下是在做语料处理时遇到的一些问题,总结一下,也好以后再深入学习:
第一个问题就是大量文本读入的问题,因为通过语料分词处理后会生成大量的文本文档,想实现对这些文本的批处理,python中一个很好的包os帮了忙:
先在分词程序中将处理后的文档写入到同一文件夹下,这里就是“c:\data”吧,然后通过下面的代码实现:
import sys import os def fun(path):#path 是路径 for root,dirs,files in os.walk(path): for fn in files: filename="" filename=root+'\\'+fn
这里的path就是"C:\data",文件路径作为参数输入,得到的filename 就是这个文件夹下的所有文档了。
详细的理解os.walk()这个方法,实际上它返回的是一个三元素的元组:当前路径、子文件夹名称、文件列表。这里对应的就是root,dirs,files。到这里我们自然会想到如果在data文件下还有其他的子文件夹,如果想递归找下去找到每个子文件中的非文件文档该怎么实现?好,带这问题,我在data文件夹下又放置了两个子文件data1和data2以及两个文本文档datatext2.txt和datatext1.txt.其中data1下又有data3和datdtxt1.txt,data3中放有一个test.txt文档。data2下放置了两个文本文档datatext2.txt和datatext1.txt。要想找到最底层的那个文档test.txt怎么办?
先找子文件
import sys import os def fun(path): for root,dirs,files in os.walk(path): for dir in dirs: print dir
遗憾的是输出的为
>>> fun(r'C:\data')
data1
data2
data3
也就是说这个方法能找到当前目录下的所有子文件,但是如果我们要访问test.txt,文档路径应该是"C:\data\data1\data3\test.txt",可是现在输出的子文件名称并没有体现级别,怎么生成文本路径呢,带着试试的想法又去执行了下上面第一段代码:
输出:
>>> fun(r'C:\data')
C:\data\datatext2.txt
C:\data\datdtxt1.txt
C:\data\data1\datdtxt1.txt
C:\data\data1\data3\text.txt
C:\data\data2\datatext2.txt
C:\data\data2\datdtxt1.txt
这个结果如果是想遍历当前目录下的所有文档的话那就再好不过了,可是我要是只处理test.txt怎么办?以及要处理同以目录级下的文档该怎么办?先解决第二个问题,os中有很好的方法,让我们可以对要访问的文档设定在同一目录级下
例如,我现在只想访问一级下的文档,也就是"C:\data"下的文档datatext2.txt和datatext1.txt(不包括子文件下的文档)
import sys import glob import os def fun(path): for fn in glob.glob(path+os.sep+'*'): if os.path.isfile(fn): filename="" filename=filename+fn print filename
输出:
>>> fun(r'C:\data')
C:\data\datatext2.txt
C:\data\datdtxt1.txt
这里用到了一个新的包glob和其中匹配方法glob();glob.glob()只接受一个参数,这个参数既代有路径(path),又代有匹配模式('*'指的是所有文件),返回值是一个列表,包括了当前path下的所有子文件,文档。因为其不能直接穿透子文件的原因给了我们灵活查找文档的功能。
那么第一个问题呢?可以通过递归向下去找,也可以通过列出目录文件树来找,但是都相对麻烦,既然os.walk()可以穿透到最底层,那么可以利用这个性质
import sys import os COUNT=set() def fun(path): for root,dirs,files in os.walk(path): for fn in files: filename="" filename=root+'\\'+fn global COUNT COUNT.add(filename) DeepFile() def DeepFile(): temp1=set() deepnum=0 global COUNT for fn in COUNT: temp=[] temp=fn.split('\\') num=len(temp) if num==deepnum: temp1.add(fn) if num>deepnum: deepnum=num temp1.clear() temp1.add(fn) for fn in temp1: print fn
输出:
>>> fun(r'C:\data')
C:\data\data1\data3\text.txt
以上代码还有待改进,这种方法只能找到最底层文件中的文档
同时还总结了有关os包(python 文件操作包)下的一些有用的方法:
python:目录与文件操作
os.listdir(dirname):列出dirname下的目录和文件
os.getcwd():获得当前工作目录
os.curdir:返回但前目录('.')
os.chdir(dirname):改变工作目录到dirname
os.path.isdir(name):判断name是不是一个目录,name不是目录就返回false
os.path.isfile(name):判断name是不是一个文件,不存在name也返回false
os.path.exists(name):判断是否存在文件或目录name
os.path.getsize(name):获得文件大小,如果name是目录返回0L
os.path.abspath(name):获得绝对路径
os.path.normpath(path):规范path字符串形式
os.path.split(name):分割文件名与目录(事实上,如果你完全使用目录,它也会将最后一个目录作为文件名而分离,同时它不会判断文件或目录是否存在)
os.path.splitext():分离文件名与扩展名
os.path.join(path,name):连接目录与文件名或目录
os.path.basename(path):返回文件名
os.path.dirname(path):返回文件路径