zoukankan      html  css  js  c++  java
  • python中使用tabula爬取pdf数据并导出表格

    Tabula是专门用来提取PDF表格数据的,同时支持PDF导出CSV、Excel格式。

    首先安装tabula-py:

    tabula-py依赖库包括Java、pandas、numpy所以需要保证运行环境中安装了这些库。

    在Python中配置好Java后看能否正常运行

    把PDF中爬取出来的数据制成表格,需要加载openpyxl:

    需要读取平均页数有二三百多页的PDF文件数据,爬取出需求数据,以及按需求格式制成不同的sheet表:

     把写好的Python文件放在和PDF文件放在同一目录下,运行Python文件自动导出我们所需的表格

    执行以上代码,成功导出提取的数据,同时也可以访问网站:https://tabula.technology/进行在线解析pdf

     以上方法完美的解决了在PDF中提取表格数据,同时支持PDF导出CSV、Excel格式,减少了手工输入,自动化简化了工作。

    文章如有错误请给与指教,谢谢!

  • 相关阅读:
    Java Concurrency
    Java Concurrency
    Java Concurrency
    Java Concurrency
    Java Concurrency
    Java Concurrency
    Java Concurrency
    Java Concurrency
    存储的瓶颈(2)
    存储的瓶颈(3)
  • 原文地址:https://www.cnblogs.com/Estate-47/p/9630674.html
Copyright © 2011-2022 走看看