从一组PDF文件中提取表格内容

最初的PDF格式（已有20多年的历史）从未打算用作可提取的，有意义的结构化数据的宿主。

其目的是为文档中的文本，图像和图表提供可靠的视觉表示-一种数字纸（也可以通过打印将其可靠地转换为真实纸）。仅在其开发的后期，才添加了更多功能，这些功能应有助于再次提取数据（google为Tagged PDF）。

有关从PDF抓取表格时出现的一些问题示例，请参阅本文：

为什么为文档更新美元如此困难

更新资料我最近创建了一个ASCiinema截屏视频，演示了如何使用Tabula命令行界面从PDF中将大表提取为CSV：

（单击上面的图像查看它的运行。如果它运行太快而无法阅读所有文本，请使用“暂停”按钮（||-symbol）。）

其他 2022/1/1 18:27:02 有526人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

将值从一个字段拆分为两个

将值从一个字段拆分为两个

其他 2022-01-01 554
如何将Docker卷从一台机器复制到另一台机器？

如何将Docker卷从一台机器复制到另一台机器？

其他 2022-01-01 555
如何在不使用存储库的情况下将Docker映像从一台主机复制到另一台主机

如何在不使用存储库的情况下将Docker映像从一台主机复制到另一台主机

其他 2022-01-01 594
从一个表中选择而不在另一个中

从一个表中选择而不在另一个中

其他 2022-01-01 461
将属性值从一个对象自动应用于另一个相同类型的对象？

将属性值从一个对象自动应用于另一个相同类型的对象？

其他 2022-01-01 506
如何在JMeter中将变量从一个线程组传递到另一个线程组

如何在JMeter中将变量从一个线程组传递到另一个线程组

其他 2022-01-01 496
如何将Jenkins从一台PC移动到另一台PC

如何将Jenkins从一台PC移动到另一台PC

其他 2022-01-01 496
如何将数据从一个容器快速传递到另一个容器，而这两个容器都迅速地嵌入了同一个uiviewcontroller中？

如何将数据从一个容器快速传递到另一个容器，而这两个容器都迅速地嵌入了同一个uiviewcontroller中？

其他 2022-01-01 559
将行从一个数据表复制到另一数据表？

将行从一个数据表复制到另一数据表？

其他 2022-01-01 431
在PHP中，如何从一个文本块中提取多个电子邮件地址并将其放入数组中？

在PHP中，如何从一个文本块中提取多个电子邮件地址并将其放入数组中？

php 2022-01-01 477
Java 如何将位图对象从一项活动传递到另一项活动

Java 如何将位图对象从一项活动传递到另一项活动

java 2022-01-01 424
从一个表中选择，从另一个表中进行计数

从一个表中选择，从另一个表中进行计数

其他 2022-01-01 422
如何将仅数据卷从一台主机移植到另一台主机？

如何将仅数据卷从一台主机移植到另一台主机？

其他 2022-01-01 492
如何从一个文件找到另一个文件中的单词？

如何从一个文件找到另一个文件中的单词？

其他 2022-01-01 489
从一个jsp向另一个jsp发送变量

从一个jsp向另一个jsp发送变量

其他 2022-01-01 410
如何使用Java SFTP库JSch将文件从一个目录传输到另一个目录？

如何使用Java SFTP库JSch将文件从一个目录传输到另一个目录？

java 2022-01-01 459
自动从一个JSP页面重定向到另一个

自动从一个JSP页面重定向到另一个

其他 2022-01-01 493
Flutter-我想将变量从一类传递到另一类

Flutter-我想将变量从一类传递到另一类

其他 2022-01-01 524
MySQL从一个数据库插入另一个数据库

MySQL从一个数据库插入另一个数据库

MySQL 2022-01-01 463
如何制作一个ListView.builder从一个特定的索引开始

如何制作一个ListView.builder从一个特定的索引开始

其他 2022-01-01 473

从一组PDF文件中提取表格内容

撰写回答

推荐问题

将值从一个字段拆分为两个

如何将Docker卷从一台机器复制到另一台机器？

如何在不使用存储库的情况下将Docker映像从一台主机复制到另一台主机

从一个表中选择而不在另一个中

将属性值从一个对象自动应用于另一个相同类型的对象？

如何在JMeter中将变量从一个线程组传递到另一个线程组

如何将Jenkins从一台PC移动到另一台PC

如何将数据从一个容器快速传递到另一个容器，而这两个容器都迅速地嵌入了同一个uiviewcontroller中？

将行从一个数据表复制到另一数据表？

在PHP中，如何从一个文本块中提取多个电子邮件地址并将其放入数组中？

Java 如何将位图对象从一项活动传递到另一项活动

从一个表中选择，从另一个表中进行计数

如何将仅数据卷从一台主机移植到另一台主机？

如何从一个文件找到另一个文件中的单词？

从一个jsp向另一个jsp发送变量

如何使用Java SFTP库JSch将文件从一个目录传输到另一个目录？

自动从一个JSP页面重定向到另一个

Flutter-我想将变量从一类传递到另一类

MySQL从一个数据库插入另一个数据库

如何制作一个ListView.builder从一个特定的索引开始

分类汇总

您的鼓励是对我最大的支持