您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

从一组PDF文件中提取表格内容

从一组PDF文件中提取表格内容

最初的PDF格式(已有20多年的历史)从未打算用作可提取的,有意义的结构化数据的宿主。

其目的是为文档中的文本,图像和图表提供可靠的视觉表示-一种数字纸(也可以通过打印将其可靠地转换为真实纸)。仅在其开发的后期,才添加了更多功能,这些功能应有助于再次提取数据(google为Tagged PDF)。

有关从PDF抓取表格时出现的一些问题示例,请参阅本文:

为什么为文档更新美元如此困难

更新资料 我最近创建了一个ASCiinema截屏视频,演示了如何使用Tabula命令行界面从PDF中将大表提取为CSV:

2761.png

(单击上面的图像查看它的运行。如果它运行太快而无法阅读所有文本,请使用“暂停”按钮(||-symbol)。)

其他 2022/1/1 18:27:02 有526人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶