zoukankan      html  css  js  c++  java
  • doc文件转txt

    doc文件转txt

    
    # -*- coding:utf-8 -*-
    # 安装pywin32包 http://sourceforge.net/projects/pywin32/files/pywin32/
    # windows 7下使用通过
    #
    
    import os, sys 
    from fnmatch import fnmatch
    import win32com.client
    
    if len(sys.argv)<=2:
        print "python %s inputdir  outputdir" % os.path.basename(sys.argv[1])
        sys.exit(1)
    
    input = sys.argv[1]
    output = sys.argv[2]
    
    if not os.path.exists(output): os.mkdir(output)
    
    i = 1
    wordapp = win32com.client.gencache.EnsureDispatch("Word.Application")
    wordapp.Visible = 0
    wordapp.DisplayAlerts = 0
    
    for path, dirs, files in os.walk(input):
        docs = [os.path.abspath(os.path.join(path, f)) for f in files if fnmatch(f, '*.doc')]
        for doc in docs:
            doc2txt = os.path.join(output, os.path.basename(doc.rstrip('doc') + 'txt'))
            doc2txt = os.path.abspath(doc2txt)
            if os.path.exists(doc2txt): continue
            print " processing [%d] %s " % (i, doc)
            i +=1    
            wddoc = wordapp.Documents.Open(doc)
            wddoc.SaveAs(doc2txt, FileFormat=win32com.client.constants.wdFormatTextLineBreaks)
            wddoc.Close()
    wordapp.Quit()
    
        
    

    --- 她说, 她是仙,她不是神
  • 相关阅读:
    单例模式学习(一)
    java线程池学习(一)
    redis面试总结(二)
    redis面试总结(一)
    spark 内存溢出处理
    大数据面试总结(一)
    Spark 知识点总结--调优(一)
    组合数据类型
    一些小细节
    文件归档
  • 原文地址:https://www.cnblogs.com/bregman/p/4690049.html
Copyright © 2011-2022 走看看