zoukankan      html  css  js  c++  java
  • python读取pdf文档

    python读取txt

    # coding=utf-8
    
    import requests
    # 爬虫规则
    url = "https://en.wikipedia.org/robots.txt"
    # 读取网络资源
    res = requests.get(url).text
    # 打印
    print(res)

    读取pdf

    # coding=utf-8
    
    from pdfminer.pdfparser import PDFParser, PDFDocument
    from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
    from pdfminer.pdfdevice import PDFDevice
    from pdfminer.layout import LAParams
    from pdfminer.converter import PDFPageAggregator
    import requests
    
    # pip install pdfminer3k
    
    # 获取文档对象,示例pdf在 https://pypi.org/project/pdfminer3k/1.0.1/#files  下载后的文件夹中 pdfminer3k-mastersamples
    onfree
    fp = open("naacl06-shinyama.pdf", "rb")
    
    # print(type(fp))
    
    # 创建一个与文档关联的解释器
    parser = PDFParser(fp)
    
    # PDF 文档的对象
    doc = PDFDocument()
    
    # 连接解释器与文档对象
    parser.set_document(doc)
    doc.set_parser(parser)
    
    # 初始化文档
    doc.initialize("")
    
    # 创建PDF资源管理器
    resource = PDFResourceManager()
    
    # 参数分析器
    laparam = LAParams()
    
    # 创建一个聚合器
    device = PDFPageAggregator(resource, laparams = laparam)
    
    # 页面解释器
    interpreter = PDFPageInterpreter(resource, device)
    
    # 使用文档对象得到页面的集合
    for page in doc.get_pages():
        # 使用页面解释器来读取
        interpreter.process_page(page)
    
        # 使用聚合器获得内容
        layout = device.get_result()
    
        for out in layout:
    
            if hasattr(out, "get_text"):
                print(out.get_text())
  • 相关阅读:
    eclipse控制台出现中文乱码的问题
    运行jar包
    [MongoDB]------windos下的安装部署与基础使用
    SQLMap-----初识
    序言(第一次写随笔,怎么才能装成经常写的样子呢)
    php7.4编译(centos)
    NGINX 2
    NGINX 1
    LVS的DR模式与NET模式的负载均衡实验
    命令在线查询
  • 原文地址:https://www.cnblogs.com/reblue520/p/11230573.html
Copyright © 2011-2022 走看看