zoukankan      html  css  js  c++  java
  • Python读取word文档(python-docx包)

    最近想统计word文档中的一些信息,人工统计的话。。。三天三夜吧
    python 不愧是万能语言,发现有一个包叫做 docx,非常好用,具体查看官方文档:https://python-docx.readthedocs.io/en/latest/index.html
    (v0.8.6)

    还有一个是 win32com 包,这个包安装步骤如下:
    http://jingyan.baidu.com/article/d3b74d64c853081f77e60929.html

    安装好 win32com之后安装 docx包:

    pip install  python-docx
    import docx
    from win32com import client as wc
    import matplotlib.pyplot as plt
    from collections import Counter 
    import os
    # 首先将doc转换成docx
    word = wc.Dispatch("Word.Application")
    
    # 找到word路径 + 文件名 ,即可打开文件
    
    full_path = 'C:\Users\ASUS\Desktop\test.docx'
    doc = word.Documents.Open(full_path)
    
    # 使用参数16表示将doc转换成docx,保存成docx后才能 读文件
    
    doc.SaveAs(r"D:\test2.docx",16)
    doc.Close()
    word.Quit()
    
    
    # 读取word内容
    # 这里是以段落为单位的,下面用一个for 遍历所有段落
    
    doc = docx.Document("D:\test2.docx")
    parag_num = 0
    for para in doc.paragraphs :
        print(para.text)
        parag += 1  
    print ('This document has ', parag, ' paragraphs')

    word文档里是这样的:
    这里写图片描述

    执行代码结果:
    这里写图片描述

    还可以读取word文档中的表格,图片等其他信息,方便对多个word文档进行统计,分析,处理

  • 相关阅读:
    Kafka集群搭建
    Easyui dialog中嵌入iframe
    图表插件Charts.js的使用
    抽象工厂
    工厂方法
    简单工厂模式
    认识Git
    代理模式
    原型设计Axure的基本使用
    MVC Api 的跨项目路由
  • 原文地址:https://www.cnblogs.com/TensorSense/p/7413297.html
Copyright © 2011-2022 走看看