zoukankan      html  css  js  c++  java
  • python读取pdf文档

    python读取txt

    # coding=utf-8
    
    import requests
    # 爬虫规则
    url = "https://en.wikipedia.org/robots.txt"
    # 读取网络资源
    res = requests.get(url).text
    # 打印
    print(res)

    读取pdf

    # coding=utf-8
    
    from pdfminer.pdfparser import PDFParser, PDFDocument
    from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
    from pdfminer.pdfdevice import PDFDevice
    from pdfminer.layout import LAParams
    from pdfminer.converter import PDFPageAggregator
    import requests
    
    # pip install pdfminer3k
    
    # 获取文档对象,示例pdf在 https://pypi.org/project/pdfminer3k/1.0.1/#files  下载后的文件夹中 pdfminer3k-mastersamples
    onfree
    fp = open("naacl06-shinyama.pdf", "rb")
    
    # print(type(fp))
    
    # 创建一个与文档关联的解释器
    parser = PDFParser(fp)
    
    # PDF 文档的对象
    doc = PDFDocument()
    
    # 连接解释器与文档对象
    parser.set_document(doc)
    doc.set_parser(parser)
    
    # 初始化文档
    doc.initialize("")
    
    # 创建PDF资源管理器
    resource = PDFResourceManager()
    
    # 参数分析器
    laparam = LAParams()
    
    # 创建一个聚合器
    device = PDFPageAggregator(resource, laparams = laparam)
    
    # 页面解释器
    interpreter = PDFPageInterpreter(resource, device)
    
    # 使用文档对象得到页面的集合
    for page in doc.get_pages():
        # 使用页面解释器来读取
        interpreter.process_page(page)
    
        # 使用聚合器获得内容
        layout = device.get_result()
    
        for out in layout:
    
            if hasattr(out, "get_text"):
                print(out.get_text())
  • 相关阅读:
    实验一 GIT 代码版本管理
    实验五、单元测试
    实验四 代码审查
    结对编程 第二阶段
    结对编程第一阶段
    结对编程(一)
    实验1 GIT代码版本管理
    实验五 单元测试
    实验四 代码评审
    实验三 UML建模工具的安装与使用
  • 原文地址:https://www.cnblogs.com/reblue520/p/11230573.html
Copyright © 2011-2022 走看看