zoukankan html css js c++ java

【转】Python读取PDF文档，输出内容

Python3读取pdf文档，输出内容（txt）

from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager,process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
import os
import re


def readPDF(pdfFile):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)
    process_pdf(rsrcmgr, device, pdfFile)
    device.close()
    content = retstr.getvalue()
    retstr.close()
    return content


if __name__ == '__main__':
    # pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")

    filesdir = "D:\0.shenma\01.聊城资料政府工作报告\2019政府工作报告全文"
    os.chdir(filesdir)
    files = os.listdir()
    print(files)
    for file in files:
        if file.endswith(".pdf"):
            pdfFile = open(file, 'rb')
            outputString = readPDF(pdfFile)

            # print(outputString)
            try:
                outputString2 = outputString.replace("
","")
                gdp = re.findall("生产总值(完成)?(.+?)亿元", outputString2)[0][1]
                print(file,"--","生产总值完成","--", gdp)
                ggyssr = re.findall("公共预算收入(完成)?(.+?)，", outputString2)[0][1]
                print(file, "--", "一般公共预算收入完成","--", ggyssr)
            except:
                print(file, "--", "no data")
            # fh = open(file+".txt", 'w+', encoding="utf-8")
            # fh.write(outputString2)
            # fh.close()
            pdfFile.close()

【转自】：https://www.cnblogs.com/gooseeker/p/5527519.html

仅做记录，供查。

查看全文

相关阅读:
Git在商业项目中的使用流程
 EventBus中观察者模式的应用
 作业三——安卓系统文件助手APP原型设计
 视频剪辑软件的调研——万兴神剪手、视频编辑王、爱剪辑
 18-10-31 Scrum Meeting 3
myapp——自动生成小学四则运算题目的命令行程序（侯国鑫谢嘉帆）
一个「学渣」从零开始的Web前端自学之路
 Vue一个案例引发「内容分发slot」的最全总结
 Vue CLI 3.0脚手架如何在本地配置mock数据
 Vue一个案例引发「动画」的使用总结

原文地址：https://www.cnblogs.com/zhzhang/p/10882391.html