zoukankan      html  css  js  c++  java
  • python读取pdf文档

    python读取txt

    # coding=utf-8
    
    import requests
    # 爬虫规则
    url = "https://en.wikipedia.org/robots.txt"
    # 读取网络资源
    res = requests.get(url).text
    # 打印
    print(res)

    读取pdf

    # coding=utf-8
    
    from pdfminer.pdfparser import PDFParser, PDFDocument
    from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
    from pdfminer.pdfdevice import PDFDevice
    from pdfminer.layout import LAParams
    from pdfminer.converter import PDFPageAggregator
    import requests
    
    # pip install pdfminer3k
    
    # 获取文档对象,示例pdf在 https://pypi.org/project/pdfminer3k/1.0.1/#files  下载后的文件夹中 pdfminer3k-mastersamples
    onfree
    fp = open("naacl06-shinyama.pdf", "rb")
    
    # print(type(fp))
    
    # 创建一个与文档关联的解释器
    parser = PDFParser(fp)
    
    # PDF 文档的对象
    doc = PDFDocument()
    
    # 连接解释器与文档对象
    parser.set_document(doc)
    doc.set_parser(parser)
    
    # 初始化文档
    doc.initialize("")
    
    # 创建PDF资源管理器
    resource = PDFResourceManager()
    
    # 参数分析器
    laparam = LAParams()
    
    # 创建一个聚合器
    device = PDFPageAggregator(resource, laparams = laparam)
    
    # 页面解释器
    interpreter = PDFPageInterpreter(resource, device)
    
    # 使用文档对象得到页面的集合
    for page in doc.get_pages():
        # 使用页面解释器来读取
        interpreter.process_page(page)
    
        # 使用聚合器获得内容
        layout = device.get_result()
    
        for out in layout:
    
            if hasattr(out, "get_text"):
                print(out.get_text())
  • 相关阅读:
    解决UITableView中Cell重用机制导致内容出错的方法总结
    Hdu 1052 Tian Ji -- The Horse Racing
    Hdu 1009 FatMouse' Trade
    hdu 2037 今年暑假不AC
    hdu 1559 最大子矩阵
    hdu 1004 Let the Balloon Rise
    Hdu 1214 圆桌会议
    Hdu 1081 To The Max
    Hdu 2845 Beans
    Hdu 2955 Robberies 0/1背包
  • 原文地址:https://www.cnblogs.com/reblue520/p/11230573.html
Copyright © 2011-2022 走看看