zoukankan      html  css  js  c++  java
  • Python读取PDF文档

     1 from pdfminer.converter import PDFPageAggregator
     2 from pdfminer.layout import LAParams
     3 from pdfminer.pdfparser import PDFParser
     4 from pdfminer.pdfparser import PDFDocument
     5 from pdfminer.pdfinterp import PDFResourceManager
     6 from pdfminer.pdfinterp import PDFPageInterpreter
     7 from pdfminer.pdfdevice import PDFDevice
     8 
     9 # 获取文档对象
    10 fp = open("banReport.pdf","rb")
    11 
    12 # 创建一个PDF文档解释器
    13 parser = PDFParser(fp)
    14 
    15 # PDF文档的对象
    16 doc = PDFDocument()
    17 
    18 #连接解释器和文档对象
    19 parser.set_document(doc)
    20 doc.set_parser(parser)
    21 
    22 # 初始化文档
    23 doc.initialize('')
    24 
    25 # 创建PDF资源管理器
    26 resource = PDFResourceManager()
    27 
    28 #参数分析器
    29 laparam = LAParams()
    30 
    31 # 创建一个聚合器
    32 device = PDFPageAggregator(resource,laparams=laparam)
    33 # 创建PDF页面解释器
    34 interpreter = PDFPageInterpreter(resource,device=device)
    35 
    36 # 使用文档对象得到页面的集合
    37 for page in doc.get_pages():
    38     # 使用页面解释器来读取
    39     interpreter.process_page(page)
    40 
    41     # 使用聚合器来获取内容
    42     layout = device.get_result()
    43 
    44     for out in layout:
    45         if hasattr(out,"get_text"):
    46             print(out.get_text())
  • 相关阅读:
    带下拉子菜单的导航菜单
    如何使用myFocus插件制作焦点图效果
    将博客搬至CSDN
    《转》二进制与三进制的那些趣题
    二叉树遍历 (前序 层次 == 深度 广度) 层次遍历
    数组全排列 knuth 分解质因数
    堆排序
    双向快速排序
    二路归并排序
    字符串的排列
  • 原文地址:https://www.cnblogs.com/banshaohuan/p/6877931.html
Copyright © 2011-2022 走看看