python中使用tabula爬取pdf数据并导出表格 - 走看看

zoukankan html css js c++ java

python中使用tabula爬取pdf数据并导出表格

Tabula是专门用来提取PDF表格数据的，同时支持PDF导出CSV、Excel格式。

首先安装tabula-py:

tabula-py依赖库包括Java、pandas、numpy所以需要保证运行环境中安装了这些库。

在Python中配置好Java后看能否正常运行

把PDF中爬取出来的数据制成表格，需要加载openpyxl：

需要读取平均页数有二三百多页的PDF文件数据，爬取出需求数据，以及按需求格式制成不同的sheet表：

把写好的Python文件放在和PDF文件放在同一目录下，运行Python文件自动导出我们所需的表格

执行以上代码，成功导出提取的数据，同时也可以访问网站：https://tabula.technology/进行在线解析pdf

以上方法完美的解决了在PDF中提取表格数据，同时支持PDF导出CSV、Excel格式，减少了手工输入，自动化简化了工作。

文章如有错误请给与指教，谢谢！

查看全文

相关阅读:
3月工作问题总结
 【读书笔记】linux编程艺术
 项目管理工具 Trac入门
 [node.js]开放平台接口调用测试
 mysql 高并发更新计数问题
 memcache 问题 socket or its streams already null in trueClose call
hadoop学习笔记
 node.js学习与应用
 mc参数备忘&javajson备忘
 WCF技术剖析_学习笔记之三

原文地址：https://www.cnblogs.com/Estate-47/p/9630674.html

Copyright © 2011-2022 走看看