zoukankan      html  css  js  c++  java
  • python入门(1)文档的处理

    最近在作一个有关自然语言处理的project,要处理大量的语料文本,而python这种脚本在处理字符串上又有其无可比拟的优势,所以就看了看这方面的书。以下是在做语料处理时遇到的一些问题,总结一下,也好以后再深入学习:

    第一个问题就是大量文本读入的问题,因为通过语料分词处理后会生成大量的文本文档,想实现对这些文本的批处理,python中一个很好的包os帮了忙:

    先在分词程序中将处理后的文档写入到同一文件夹下,这里就是“c:\data”吧,然后通过下面的代码实现:

    import sys
    import os 
    def fun(path):#path 是路径
        for root,dirs,files in os.walk(path):
            for fn in files:
                filename=""
                filename=root+'\\'+fn


    这里的path就是"C:\data",文件路径作为参数输入,得到的filename 就是这个文件夹下的所有文档了。

    详细的理解os.walk()这个方法,实际上它返回的是一个三元素的元组:当前路径、子文件夹名称、文件列表。这里对应的就是root,dirs,files。到这里我们自然会想到如果在data文件下还有其他的子文件夹,如果想递归找下去找到每个子文件中的非文件文档该怎么实现?好,带这问题,我在data文件夹下又放置了两个子文件data1和data2以及两个文本文档datatext2.txt和datatext1.txt.其中data1下又有data3和datdtxt1.txt,data3中放有一个test.txt文档。data2下放置了两个文本文档datatext2.txt和datatext1.txt。要想找到最底层的那个文档test.txt怎么办?

    先找子文件

    import sys
    import os
    def fun(path):
        for root,dirs,files in os.walk(path):
            for dir in dirs:
                print dir

    遗憾的是输出的为
    >>> fun(r'C:\data')
    data1
    data2
    data3

    也就是说这个方法能找到当前目录下的所有子文件,但是如果我们要访问test.txt,文档路径应该是"C:\data\data1\data3\test.txt",可是现在输出的子文件名称并没有体现级别,怎么生成文本路径呢,带着试试的想法又去执行了下上面第一段代码:

    输出:

    >>> fun(r'C:\data')
    C:\data\datatext2.txt
    C:\data\datdtxt1.txt
    C:\data\data1\datdtxt1.txt
    C:\data\data1\data3\text.txt
    C:\data\data2\datatext2.txt
    C:\data\data2\datdtxt1.txt

    这个结果如果是想遍历当前目录下的所有文档的话那就再好不过了,可是我要是只处理test.txt怎么办?以及要处理同以目录级下的文档该怎么办?先解决第二个问题,os中有很好的方法,让我们可以对要访问的文档设定在同一目录级下

    例如,我现在只想访问一级下的文档,也就是"C:\data"下的文档datatext2.txt和datatext1.txt(不包括子文件下的文档)

    import sys
    import glob
    import os
    def fun(path):
        for fn in glob.glob(path+os.sep+'*'):
            if os.path.isfile(fn):
                filename=""
                filename=filename+fn
                print filename

    输出:

    >>> fun(r'C:\data')
    C:\data\datatext2.txt
    C:\data\datdtxt1.txt

    这里用到了一个新的包glob和其中匹配方法glob();glob.glob()只接受一个参数,这个参数既代有路径(path),又代有匹配模式('*'指的是所有文件),返回值是一个列表,包括了当前path下的所有子文件,文档。因为其不能直接穿透子文件的原因给了我们灵活查找文档的功能。

    那么第一个问题呢?可以通过递归向下去找,也可以通过列出目录文件树来找,但是都相对麻烦,既然os.walk()可以穿透到最底层,那么可以利用这个性质

    import sys
    import os
    COUNT=set()
    def fun(path):
        for root,dirs,files in os.walk(path):
            for fn in files:
                filename=""
                filename=root+'\\'+fn
                global COUNT
                COUNT.add(filename)
        DeepFile()
    def DeepFile():
        temp1=set()
        deepnum=0
        global COUNT
        for fn in COUNT:
            temp=[]
            temp=fn.split('\\')
            num=len(temp)
            if num==deepnum:
                temp1.add(fn)
            if num>deepnum:
                deepnum=num
                temp1.clear()
                temp1.add(fn)
        for fn in temp1:
            print fn

    输出:

    >>> fun(r'C:\data')
    C:\data\data1\data3\text.txt

    以上代码还有待改进,这种方法只能找到最底层文件中的文档

    同时还总结了有关os包(python 文件操作包)下的一些有用的方法:

    python:目录与文件操作
    os.listdir(dirname):列出dirname下的目录和文件
    os.getcwd():获得当前工作目录
    os.curdir:返回但前目录('.')
    os.chdir(dirname):改变工作目录到dirname

    os.path.isdir(name):判断name是不是一个目录,name不是目录就返回false
    os.path.isfile(name):判断name是不是一个文件,不存在name也返回false
    os.path.exists(name):判断是否存在文件或目录name
    os.path.getsize(name):获得文件大小,如果name是目录返回0L
    os.path.abspath(name):获得绝对路径
    os.path.normpath(path):规范path字符串形式
    os.path.split(name):分割文件名与目录(事实上,如果你完全使用目录,它也会将最后一个目录作为文件名而分离,同时它不会判断文件或目录是否存在)
    os.path.splitext():分离文件名与扩展名
    os.path.join(path,name):连接目录与文件名或目录
    os.path.basename(path):返回文件名
    os.path.dirname(path):返回文件路径

  • 相关阅读:
    mysql 创建++删除 数据表
    mac 配置apache
    mac 安装mysql
    mysql 创建++删除 数据库
    配置默认编码为utf8
    mysql 添加用户
    mysql 查看库结构---查看表结构
    centos7
    centOS 7 安装mysql
    修改字符集
  • 原文地址:https://www.cnblogs.com/zcftech/p/2743979.html
Copyright © 2011-2022 走看看