新世界发展部
旨在访问生成(未扫描)PDF 中的文本的 Objective-C 类
从生成的 PDF(不是扫描的)中提取文本是一项相当复杂的任务。 我在 Objective-C 中找不到任何好的库,所以我写了这个类来给我一个开始的地方。
允许对文本进行双重编码。 首先,字符以十六进制编码(例如,'A' == 0x41)。 然后每个数字本身都以 ASCII 编码(例如,'A' 将被编码为 0x34 0x31)。 这很疯狂,但这就是你的方式。 要查看示例,请找到从基于文本的源生成的 PDF,然后在 BBEdit 或类似应用程序中打开它。
我创建了这个类来帮助在 PDF 中查找对象,并帮助解码其中的一些。 您很可能需要对 NWDPDF 进行子类化以满足我们的特定需求。
评论0
最新资源