zoukankan      html  css  js  c++  java
  • 【Python笔记】Python读取word文本操作详解

    文件借鉴摘取:https://www.jb51.net/article/133405.htm(感谢,就喜欢这种有用的文章)

    背景:python直接读取txt无压力,但是直接读取word,涉及到docx这样的后缀文件的时候,会有压力,无法读取内容报错,作为一个搬砖人,怎么能允许砖嘚瑟呢?办它...

    正文:

    本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下。

    一,docx模块  

      Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。

    二,相关概念

    如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念。

    1,Document对象,表示一个word文档。
    2,Paragraph对象,表示word文档中的一个段落
    3,Paragraph对象的text属性,表示段落中的文本内容。

    三,模块的安装和导入

      安装这个模块的时候,对新人还是很烦的,会用其实超级简单,会在自己的“相关软件安装部署”分类中,记录一个安装笔记,方便自己学习。

      基本的安装需求为:1. 先安装python;2.安装pip;3. 利用pip去在线下载和自动安装python-docx;  

      需要注意,python-docx模块安装需要在cmd命令行中输入pip install python-docx,如下图表示安装成功(最后那句英文Successfully installed,成功地安装完成,十分考验英文水平。)

    注意在导入模块时,用的是import docx。

      注意:安装完成后需要检验下自己这个模块是否真正安装成功了,可以通过下面的方法(win7下,且确保python安装正常):

      (1)运行cmd,直接键入命令:python

       (2)上面这样就代表正常了,python文件中可正常导入这个库了

    四,举个例子读取word文本

      首先创建一个docx文档,内容是这样的:

      代码如下:

      1. 首先导入docx库

       2. 然后读取一个文件中内容

       3. 运行结果(由于我加了一些关键字检索的处理所以,处理完运行结果是这样的)

       上面就是,这个python模块的简单应用。

  • 相关阅读:
    HTML里使用CSS 的几种方式?
    Dmoz介绍及怎么提交?
    delphi实现自动填写表单和调用网页上的函数
    SEO之Head标签
    location.replace()和location.href=的区别?
    css几种选择器举例
    如何让百度认为你的站是一个好网站?
    桌面被恶意软件放上几个ie图标删除不了怎么办?
    Delphi正则表达式使用方法(TPerlRegEx)
    mysql中limit的用法详解(数据分页常用)
  • 原文地址:https://www.cnblogs.com/coreLeo/p/15077444.html
Copyright © 2011-2022 走看看