zoukankan      html  css  js  c++  java
  • python 读取pdf文本内容

    #!/usr/bin/env python3
    #-*- coding:utf-8 -*-
    # pip3 install pdfminer3k
     
    from pdfminer.converter import PDFPageAggregator
    from pdfminer.layout import LAParams, LTTextBoxHorizontal
    from pdfminer.pdfparser import PDFParser, PDFDocument
    from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowed
    from pdfminer.pdfdevice import PDFDevice
    
    def read_pdf(pdf_name, result_name):
        # 以二进制读模式打开
        fp = open(pdf_name, 'rb')
        # 用文件对象来创建一个pdf文档分析器
        parser = PDFParser(fp)
        # 创建一个pdf文档
        doc = PDFDocument()
        # 连接分析器 与文档对象
        parser.set_document(doc)
        doc.set_parser(parser)
        # 提供初始密码,如果没有密码 就创建一个空的字符串
        doc.initialize('')
        # 检测文档是否提供txt转换,不提供就抛出异常
        if not doc.is_extractable:
            raise PDFTextExtractionNotAllowed
        # 创建PDf 资源管理器 来管理共享资源
        rsrcmgr = PDFResourceManager()
        # 创建一个PDF设备对象
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # 创建一个PDF解释器对象
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        
        with open(result_name,"w",encoding="u8") as fd_out:
            # 循环遍历列表,每次处理一个page的内容
            for i,page in enumerate(doc.get_pages(),1):
                index = "===========《第{}页》===========".format(i)
                print(index)
                fd_out.write(index + "
    ")
                interpreter.process_page(page)
                # 接受该页面的LTPage对象
                layout = device.get_result()
                for x in layout:
                    # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, 
                    # LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性
                    if not isinstance(x, LTTextBoxHorizontal):
                        continue
                    results = x.get_text()
                    print(results)
                    fd_out.write(results)    
    
                            
    
    if __name__ == '__main__':
        pdf_name = 'test.pdf'
        result = 'test.txt'
        read_pdf(pdf_name, result)
    

      

  • 相关阅读:
    思维导图github地址
    python操作mongodb根据_id查询数据的实现方法
    如何让nginx显示文件夹目录
    Scrapy爬虫返回302重定向问题解决方法
    K8s
    Dockerfile文件详解
    k8s简介
    mongodb存储过程
    存储过程详解
    Docker 镜像加速
  • 原文地址:https://www.cnblogs.com/boye169/p/13861753.html
Copyright © 2011-2022 走看看