zoukankan      html  css  js  c++  java
  • 【Python笔记】Python读取word文本操作详解

    文件借鉴摘取:https://www.jb51.net/article/133405.htm(感谢,就喜欢这种有用的文章)

    背景:python直接读取txt无压力,但是直接读取word,涉及到docx这样的后缀文件的时候,会有压力,无法读取内容报错,作为一个搬砖人,怎么能允许砖嘚瑟呢?办它...

    正文:

    本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下。

    一,docx模块  

      Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。

    二,相关概念

    如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念。

    1,Document对象,表示一个word文档。
    2,Paragraph对象,表示word文档中的一个段落
    3,Paragraph对象的text属性,表示段落中的文本内容。

    三,模块的安装和导入

      安装这个模块的时候,对新人还是很烦的,会用其实超级简单,会在自己的“相关软件安装部署”分类中,记录一个安装笔记,方便自己学习。

      基本的安装需求为:1. 先安装python;2.安装pip;3. 利用pip去在线下载和自动安装python-docx;  

      需要注意,python-docx模块安装需要在cmd命令行中输入pip install python-docx,如下图表示安装成功(最后那句英文Successfully installed,成功地安装完成,十分考验英文水平。)

    注意在导入模块时,用的是import docx。

      注意:安装完成后需要检验下自己这个模块是否真正安装成功了,可以通过下面的方法(win7下,且确保python安装正常):

      (1)运行cmd,直接键入命令:python

       (2)上面这样就代表正常了,python文件中可正常导入这个库了

    四,举个例子读取word文本

      首先创建一个docx文档,内容是这样的:

      代码如下:

      1. 首先导入docx库

       2. 然后读取一个文件中内容

       3. 运行结果(由于我加了一些关键字检索的处理所以,处理完运行结果是这样的)

       上面就是,这个python模块的简单应用。

  • 相关阅读:
    csc一些命令简记
    Winform(C#.NET)自动更新组件的使用及部分功能实现(续)
    Winform(C#.NET)自动更新组件的使用及部分功能实现
    mssql的日期函数,如何取得当前年月日,当前时间,当前月份,当前天数,一年中第几天?
    在jexus下如何简单的配置多站点
    让asp.net和php同时在Linux上跑起来
    raspberrypi(树莓派)上安装mono和jexus,运行asp.net程序
    centos6.3与jexus5.4.4配置支持php(wordpress)
    Kaggle系列1:手把手教你用tensorflow建立卷积神经网络实现猫狗图像分类
    小记tensorflow-1:tf.nn.conv2d 函数介绍
  • 原文地址:https://www.cnblogs.com/coreLeo/p/15077444.html
Copyright © 2011-2022 走看看