zoukankan      html  css  js  c++  java
  • 太方便了!利用Python对批量Pdf转Word

    在wps或者office里面可以将pdf转word,不过只能免费转前面5页,超过5页就需要会员。今天教大家一个Python办公小技巧:批量Pdf转Word ,这样可以自由想转多少页都可以。

    思路:这里主要是利用了Python的pdfmine3k库去提取pdf文本内容,通过python-docx库去将内容保存到word中。

    下面先看一下效果:

    01 环境准备

    在开始编写代码之前,咱们先安装一些用到的Python库,安装目录如下:

    pip install pdfminer
    

    注意

    使用 pip install docx 安装模块 docx 后,发现不能正常使用,

    并报错 moduleNotFoundError:No module named 'exceptions'

    正解

    pip install python-docx
    

    02 提取PDF内容

    1.导入相应的库

    from pdfminer.pdfparser import PDFParser, PDFDocument
    

    解释

    2.读取pdf内容

    在开始读取之前,先看一下pdf的内容:

    辰哥这里以自己的原创文章按模块分类后,新建了一个两页的pdf文件。

    上面代码是读取pdf文件,并把每一页内容放到doc.get_pages里面。

    通过循环可以把每一页的内容提取出来,并把每一页内容打印输出

    03 保存到word

    上面我们已经成功将pdf的内容提取出来,接着我们将内容保存到word里面

    在遍历pdf内容里面将内容逐步写入保存。最后保存命名为:Python研究者-辰哥.docx

    04 小结

    为了大家方便学习,辰哥已经把本文的完整源码上传,需要的在公众后台回复:pdf转换

    辰哥在本文中主要讲解了利用Python对批量Pdf转换为Word,不明白的地方可以在下方留言,一起交流。

    耐得住寂寞,才能登得顶
    Gitee码云:https://gitee.com/lyc96/projects
  • 相关阅读:
    mysql导入数据到oracle中
    CAS代理配置
    CAS登录时不仅仅需要用户名来确认身份的情况
    easyui datalist按组多选
    easyui tree loadFilter的使用
    sketchup
    Spring Autowired 注入失败总是Null
    table sorting–angularjs
    mac系统下mysql开机启动总是3307
    angularjs 实现 文件拖拽,缩略图显示
  • 原文地址:https://www.cnblogs.com/chenlove/p/14864503.html
Copyright © 2011-2022 走看看