1.首先安装库 pdfminer3k
2.几个类
- PDFParser: 用来解析pdf文件。
- PDFDocument:用来保存 PDFParser 解析后的对象。
- PDFPageInterpreter:用来处理解析后的文档页面内容。
- PDFResourceManager:pdf 共享资源管理器,用于存储共享资源,如字体或图像。
3.代码(其实有一点问题,我会尽快找到解决办法,然后更改)
#读取解析pdf文件 报错xxxx from io import StringIO from pdfminer.pdfinterp import PDFResourceManager,process_pdf from pdfminer.converter import TextConverter from pdfminer.layout import LAParams pdf_file = open(r'长恨歌.pdf','rb') rsrcmgr = PDFResourceManager() retstr = StringIO() laparams = LAParams() device = TextConverter(rsrcmgr=rsrcmgr,outfp=retstr,laparams=laparams) process_pdf(rsrcmgr=rsrcmgr,device=device,fp=pdf_file) device.close() content = retstr.getvalue() retstr.close() pdf_file.close() print(content)