zoukankan      html  css  js  c++  java
  • python 读取pdf文本内容

    #!/usr/bin/env python3
    #-*- coding:utf-8 -*-
    # pip3 install pdfminer3k
     
    from pdfminer.converter import PDFPageAggregator
    from pdfminer.layout import LAParams, LTTextBoxHorizontal
    from pdfminer.pdfparser import PDFParser, PDFDocument
    from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowed
    from pdfminer.pdfdevice import PDFDevice
    
    def read_pdf(pdf_name, result_name):
        # 以二进制读模式打开
        fp = open(pdf_name, 'rb')
        # 用文件对象来创建一个pdf文档分析器
        parser = PDFParser(fp)
        # 创建一个pdf文档
        doc = PDFDocument()
        # 连接分析器 与文档对象
        parser.set_document(doc)
        doc.set_parser(parser)
        # 提供初始密码,如果没有密码 就创建一个空的字符串
        doc.initialize('')
        # 检测文档是否提供txt转换,不提供就抛出异常
        if not doc.is_extractable:
            raise PDFTextExtractionNotAllowed
        # 创建PDf 资源管理器 来管理共享资源
        rsrcmgr = PDFResourceManager()
        # 创建一个PDF设备对象
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # 创建一个PDF解释器对象
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        
        with open(result_name,"w",encoding="u8") as fd_out:
            # 循环遍历列表,每次处理一个page的内容
            for i,page in enumerate(doc.get_pages(),1):
                index = "===========《第{}页》===========".format(i)
                print(index)
                fd_out.write(index + "
    ")
                interpreter.process_page(page)
                # 接受该页面的LTPage对象
                layout = device.get_result()
                for x in layout:
                    # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, 
                    # LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性
                    if not isinstance(x, LTTextBoxHorizontal):
                        continue
                    results = x.get_text()
                    print(results)
                    fd_out.write(results)    
    
                            
    
    if __name__ == '__main__':
        pdf_name = 'test.pdf'
        result = 'test.txt'
        read_pdf(pdf_name, result)
    

      

  • 相关阅读:
    laravel 安装及入门
    mysql事务处理的意义
    PHP项目:如何用PHP高并发检索数据库?
    inner join、left join、right join等的区别
    百度地图引入网页中
    google地图引入网页
    thinkphp的mvc理解
    SpringBoot+Shiro入门小栗子
    Springboot+WebSocket+Kafka(写着玩的)
    Windows下安装单机Kafka
  • 原文地址:https://www.cnblogs.com/boye169/p/13861753.html
Copyright © 2011-2022 走看看