没有合适的资源?快使用搜索试试~ 我知道了~
pdf2alto:用于在 PDF 中查找单词边界框的软件
共5个文件
txt:2个
md:1个
pdf2alto:1个
需积分: 9 0 下载量 55 浏览量
2021-07-13
14:12:15
上传
评论
收藏 12KB ZIP 举报
温馨提示
pdf2alto pdf2alto 是一种用于从 PDF 中提取字级边界框并在 ALTO 中呈现它们的工具。 ALTO 有点疯狂,因为它没有为 Page、PrintSpace、TextBlock 或 TextLine 提供边界框,实际上每个页面只提供一个,无论 Page 上的各个字符串如何排列。 对于我的搜索命中突出显示单个单词或单词组的用例,这已经足够了。 分词码用于分离普通英语单词,不识别电子邮件地址、域名或电话号码。 例如,它将一个带有内部句点的域名拆分为一系列单词。 跨行的单词将产生两个边界框,每个单词的一半一个,但两个字符串都将完整的单词作为它们的内容。 pdf2alto 假设 PDF 以点为单位测量距离。 它生成一个 ALTO 文件,其测量值为 1200 英寸。 这个包提供了PrintWordLocations类,它是 Ben Litchfield 的示例类Print
资源推荐
资源详情
资源评论
收起资源包目录
pdf2alto-master.zip (5个子文件)
pdf2alto-master
LICENSE.txt 18KB
src
main
java
org
apache
pdfbox
examples
util
PrintWordLocations.java 11KB
NOTICE.txt 435B
README.md 1KB
bin
pdf2alto 233B
共 5 条
- 1
资源评论
狛绝的追随者
- 粉丝: 24
- 资源: 4611
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功