python入门(1)文档的处理

zoukankan html css js c++ java

python入门(1)文档的处理
最近在作一个有关自然语言处理的project，要处理大量的语料文本，而python这种脚本在处理字符串上又有其无可比拟的优势，所以就看了看这方面的书。以下是在做语料处理时遇到的一些问题，总结一下，也好以后再深入学习：

第一个问题就是大量文本读入的问题，因为通过语料分词处理后会生成大量的文本文档，想实现对这些文本的批处理，python中一个很好的包os帮了忙：

先在分词程序中将处理后的文档写入到同一文件夹下，这里就是“c:\data”吧，然后通过下面的代码实现：
import sys import os def fun(path):#path 是路径 for root,dirs,files in os.walk(path): for fn in files: filename="" filename=root+'\\'+fn
这里的path就是"C:\data"，文件路径作为参数输入，得到的filename 就是这个文件夹下的所有文档了。

详细的理解os.walk()这个方法，实际上它返回的是一个三元素的元组：当前路径、子文件夹名称、文件列表。这里对应的就是root,dirs,files。到这里我们自然会想到如果在data文件下还有其他的子文件夹，如果想递归找下去找到每个子文件中的非文件文档该怎么实现？好，带这问题，我在data文件夹下又放置了两个子文件data1和data2以及两个文本文档datatext2.txt和datatext1.txt.其中data1下又有data3和datdtxt1.txt,data3中放有一个test.txt文档。data2下放置了两个文本文档datatext2.txt和datatext1.txt。要想找到最底层的那个文档test.txt怎么办？

先找子文件
import sys import os def fun(path): for root,dirs,files in os.walk(path): for dir in dirs: print dir
遗憾的是输出的为
>>> fun(r'C:\data')
data1
data2
data3

也就是说这个方法能找到当前目录下的所有子文件，但是如果我们要访问test.txt,文档路径应该是"C:\data\data1\data3\test.txt"，可是现在输出的子文件名称并没有体现级别，怎么生成文本路径呢，带着试试的想法又去执行了下上面第一段代码：

输出：

>>> fun(r'C:\data')
C:\data\datatext2.txt
C:\data\datdtxt1.txt
C:\data\data1\datdtxt1.txt
C:\data\data1\data3\text.txt
C:\data\data2\datatext2.txt
C:\data\data2\datdtxt1.txt

这个结果如果是想遍历当前目录下的所有文档的话那就再好不过了，可是我要是只处理test.txt怎么办？以及要处理同以目录级下的文档该怎么办？先解决第二个问题，os中有很好的方法，让我们可以对要访问的文档设定在同一目录级下

例如，我现在只想访问一级下的文档，也就是"C:\data"下的文档datatext2.txt和datatext1.txt（不包括子文件下的文档）
import sys import glob import os def fun(path): for fn in glob.glob(path+os.sep+'*'): if os.path.isfile(fn): filename="" filename=filename+fn print filename
输出：

>>> fun(r'C:\data')
C:\data\datatext2.txt
C:\data\datdtxt1.txt

这里用到了一个新的包glob和其中匹配方法glob（）；glob.glob()只接受一个参数，这个参数既代有路径（path），又代有匹配模式（'*'指的是所有文件）,返回值是一个列表，包括了当前path下的所有子文件，文档。因为其不能直接穿透子文件的原因给了我们灵活查找文档的功能。

那么第一个问题呢？可以通过递归向下去找，也可以通过列出目录文件树来找，但是都相对麻烦，既然os.walk（）可以穿透到最底层，那么可以利用这个性质
import sys import os COUNT=set() def fun(path): for root,dirs,files in os.walk(path): for fn in files: filename="" filename=root+'\\'+fn global COUNT COUNT.add(filename) DeepFile() def DeepFile(): temp1=set() deepnum=0 global COUNT for fn in COUNT: temp=[] temp=fn.split('\\') num=len(temp) if num==deepnum: temp1.add(fn) if num>deepnum: deepnum=num temp1.clear() temp1.add(fn) for fn in temp1: print fn
输出：

>>> fun(r'C:\data')
C:\data\data1\data3\text.txt

以上代码还有待改进，这种方法只能找到最底层文件中的文档

同时还总结了有关os包（python 文件操作包）下的一些有用的方法：

python:目录与文件操作
os.listdir(dirname)：列出dirname下的目录和文件
os.getcwd()：获得当前工作目录
os.curdir:返回但前目录（'.')
os.chdir(dirname):改变工作目录到dirname

os.path.isdir(name):判断name是不是一个目录，name不是目录就返回false
os.path.isfile(name):判断name是不是一个文件，不存在name也返回false
os.path.exists(name):判断是否存在文件或目录name
os.path.getsize(name):获得文件大小，如果name是目录返回0L
os.path.abspath(name):获得绝对路径
os.path.normpath(path):规范path字符串形式
os.path.split(name):分割文件名与目录（事实上，如果你完全使用目录，它也会将最后一个目录作为文件名而分离，同时它不会判断文件或目录是否存在）
os.path.splitext():分离文件名与扩展名
os.path.join(path,name):连接目录与文件名或目录
os.path.basename(path):返回文件名
os.path.dirname(path):返回文件路径
查看全文

相关阅读:
Selenium2+python自动化-使用JS脚本处理网页滚动条
 Python定时框架 Apscheduler 详解【转】
转：VMware 15 安装 MAC OS 10.13 原版（详细图文教程）
Appium+Robotframework实现iOS应用的自动化测试
 在jenkins打开roboframework报告:Opening Robot Framework report failed
springcloud使用pagehelper 实现分页，及total 数据问题
 日志打印request 和response 内容
 springboot+elasticsearch + rabbitMQ实现全文检索（使用transportClient 实现CRUD）
springboot+elasticsearch + rabbitMQ实现全文检索（springboot+ES整合）
springboot+elasticsearch + rabbitMQ实现全文检索（项目搭建）

原文地址：https://www.cnblogs.com/zcftech/p/2743979.html