如何处理PDFMiner提取的文本中的CID？

但是这些字符代码与Unicode值有何关系？基本上，PDF查看器如何使用此映射显示字形？

在PDF内容流中找到的字符代码不需要以任何明显的方式与Unicode值相关。特别是，PDF查看器根本不需要Unicode代码点来显示字符代码以显示匹配的字形。

在PDF中，字体在字体程序中具有从字符代码到字形ID的映射（或映射序列），并且这种映射可能是完全任意的。

例如，在嵌入字体子集的情况下，子集字体程序常常是通过给予一个页面上使用的第一个字形的起始字形ID创建 Ñ ，然后给予第二，不同的字形在该页面ID 的n + 1 ，再下，不同的字形id n + 2 等，然后字符代码通常与字形id相同，即上面的映射是身份映射。如果不再有其他信息，则文本提取器将没有机会正确执行其工作。

我想澄清问题的原因

常规文本提取通常具有以下选项来查找字符代码的Unicode值：

但是要当心：这些映射可能不完整，有时甚至包含故意不正确的映射！

但是，也可能是不提供任何内容的身份（和， 其字符代码=字形代码 ），并且字符名称也可能未标准化（例如）。

PDF规范说： 如果这些方法无法产生Unicode值，则无法确定字符代码代表什么，在这种情况下，合格的读者可以选择他们选择的字符代码。

如果您的文本提取输出，我想PDF字体具有不完整的映射。

实际上，还有更多位置可以查找其他信息，例如，字体程序可能包括其字形到Unicode的自己映射，但是这些其他信息也是可选的。

…及其违法原因。

在上述所有选项的情况下，我看不到任何明智的字体许可证被侵犯，特别是因为大多数这些选项甚至没有查看字体程序（例如* .ttf）本身，而只是查看了PDF元数据包装它。

另一方面，例如，如果您有想法通过将字体的每个字形绘制到位图上并与其他任何东西很好地分开并对其应用OCR，来为那些缺少此类映射的字体构造映射，则您是该对象的接收者PDF突然会使用字体程序绘制原始文档以外的其他内容，这可能被视为许可证未涵盖的用法。

其他 2022/1/1 18:16:21 有413人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

如何通过忽略Swift中的关联值来比较枚举和关联值？

如何通过忽略Swift中的关联值来比较枚举和关联值？

Swift 2022-01-01 899
如何使用JSON-LD标记面包屑列表中的最后一个非链接项目

如何使用JSON-LD标记面包屑列表中的最后一个非链接项目

其他 2022-01-01 1127
如何在JavaScript中将浮点数转换为整数？

如何在JavaScript中将浮点数转换为整数？

javascript 2022-01-01 1000
如何基于EXPLAIN计划优化MySQL查询

如何基于EXPLAIN计划优化MySQL查询

MySQL 2022-01-01 998
如何在C＃/。NET中查找本地计算机的FQDN？

如何在C＃/。NET中查找本地计算机的FQDN？

c# 2022-01-01 878
如何在Spring MVC中使用AJAX渲染视图

如何在Spring MVC中使用AJAX渲染视图

Java 2022-01-01 1014
如何在PHP变量中去除空格？

如何在PHP变量中去除空格？

php 2022-01-01 921
如何枚举JavaScript对象的属性？

如何枚举JavaScript对象的属性？

javascript 2022-01-01 968
如何立即关闭Node.js HTTP服务器？

如何立即关闭Node.js HTTP服务器？

Node 2022-01-01 913
如何在IE8和9中支持占位符属性

如何在IE8和9中支持占位符属性

其他 2022-01-01 931
如何使用jQuery访问父窗口对象？

如何使用jQuery访问父窗口对象？

JS 2022-01-01 962
如何建立一个动态查询，该查询增加了迄今为止的天数，并使用标准API比较该日期与另一个日期？

如何建立一个动态查询，该查询增加了迄今为止的天数，并使用标准API比较该日期与另一个日期？

其他 2022-01-01 1003
如何使用CSS将跨度更改为类似pre？

如何使用CSS将跨度更改为类似pre？

CSS 2022-01-01 968
如何在Express中模拟中间件以跳过身份验证以进行单元测试？

如何在Express中模拟中间件以跳过身份验证以进行单元测试？

其他 2022-01-01 968
如何使用C＃获取两个DateTime对象之间的时差？

如何使用C＃获取两个DateTime对象之间的时差？

c# 2022-01-01 957
Django-如何使用South重命名模型字段？

Django-如何使用South重命名模型字段？

Go 2022-01-01 1163
如何计算回溯算法的时间复杂度？

如何计算回溯算法的时间复杂度？

其他 2022-01-01 959
如何在.htaccess中隐藏.php扩展名

如何在.htaccess中隐藏.php扩展名

php 2022-01-01 996
使用GhostDriver时如何设置屏幕/窗口大小

使用GhostDriver时如何设置屏幕/窗口大小

其他 2022-01-01 1055
如何在html5中制作透明画布？

如何在html5中制作透明画布？

其他 2022-01-01 962

如何处理PDFMiner提取的文本中的CID？

撰写回答

推荐问题

如何通过忽略Swift中的关联值来比较枚举和关联值？

如何使用JSON-LD标记面包屑列表中的最后一个非链接项目

如何在JavaScript中将浮点数转换为整数？

如何基于EXPLAIN计划优化MySQL查询

如何在C＃/。NET中查找本地计算机的FQDN？

如何在Spring MVC中使用AJAX渲染视图

如何在PHP变量中去除空格？

如何枚举JavaScript对象的属性？

如何立即关闭Node.js HTTP服务器？

如何在IE8和9中支持占位符属性

如何使用jQuery访问父窗口对象？

如何建立一个动态查询，该查询增加了迄今为止的天数，并使用标准API比较该日期与另一个日期？

如何使用CSS将跨度更改为类似pre？

如何在Express中模拟中间件以跳过身份验证以进行单元测试？

如何使用C＃获取两个DateTime对象之间的时差？

Django-如何使用South重命名模型字段？

如何计算回溯算法的时间复杂度？

如何在.htaccess中隐藏.php扩展名

使用GhostDriver时如何设置屏幕/窗口大小

如何在html5中制作透明画布？

分类汇总

您的鼓励是对我最大的支持