没有合适的资源?快使用搜索试试~ 我知道了~
pd3f-core::bookmark_tabs:Python软件包,可使用语言模型从PDF重建原始连续文本
共66个文件
md:19个
ipynb:16个
py:14个
需积分: 5 0 下载量 117 浏览量
2021-04-03
07:23:32
上传
评论
收藏 373KB ZIP 举报
温馨提示
pd3f-core 实验性使用,请谨慎使用。 Python包,用于使用语言模型从PDF重建原始连续文本。 pd3f-core假定您的PDF是基于文本的,或者已经是OCRd。 使用pd3f-core检出以获得完整的基于Docker的文本提取管道。 :backhand_index_pointing_right: pd3f-core首先使用将PDF分为行和段落。 然后,它使用Python包中的以最可能的方式重建段落。 通过使用基于字符的计算来得出概率。 根据周围的单词,删除不必要的连字符,保留空格或换行。 它主要是为德语开发的,但也应与其他语言一起使用。 该项目仍处于初期阶段。 期待粗糙的边缘和快速的变化。 文档将得到改进(在某些时候)。 特征 线的脱字符 通过删除连字符('-'),检查是否可以将两行连接在一起。 合理的连接线 连接线时,决定是添加简单空格('')还是换行('\ n')。 反向分页符(实验性) 检查页面的最后一段和下一页的第
资源推荐
资源详情
资源评论
收起资源包目录
pd3f-core-master.zip (66个子文件)
pd3f-core-master
pd3f
doc_info.py 10KB
dehyphen_wrapper.py 2KB
doc_output.py 5KB
utils.py 1KB
parsr_wrapper.py 3KB
__init__.py 199B
pd3fConfig.json 1KB
export.py 18KB
geometry.py 341B
poetry.lock 98KB
pyproject.toml 998B
.github
workflows
publish_docs.yml 560B
tests
test_geometry.py 409B
test_utils.py 270B
__init__.py 0B
LICENSE 34KB
development
README.md 235B
notebooks
01_perplexity
text2.txt 41KB
perplexity_as_metric.ipynb 25KB
text1.txt 41KB
08_debugging
idx_page_bug-Copy1.ipynb 163KB
idx_page_bug.ipynb 21KB
fix_none_bug.ipynb 162KB
00_goofing_around
test3.py 985B
test1.py 1000B
test2.py 997B
04_ulmfit_exp
Untitled.ipynb 12KB
Pipfile 201B
Pipfile.lock 53KB
05_new_tries
clean8.md 11KB
clean10.md 8KB
Untitled1.ipynb 2KB
clean9.md 12KB
textsim.ipynb 44KB
clean4.md 11KB
clean71.md 3KB
geo.ipynb 3KB
clean.md 3KB
clean2.md 3KB
clean3.md 3KB
clean7.md 3KB
clean5.md 11KB
Untitled-Copy1.ipynb 33KB
clean6.md 12KB
06_next_tries
Untitled.ipynb 54KB
Untitled-Copy2.ipynb 28KB
Untitled-Copy1.ipynb 43KB
02_dehyphen
Untitled.ipynb 101KB
03_transformers_exp
Untitled.ipynb 61KB
text2.txt 41KB
Pipfile 199B
Pipfile.lock 36KB
text1.txt 41KB
Untitled-Copy1.ipynb 7KB
07_pd3f_api
Untitled.ipynb 20KB
notes
05_notes.md 77B
04_data.md 393B
03_notes.md 1KB
06_blogpost.md 8KB
01_notes.md 2KB
02_notes.md 1KB
.gitignore 2KB
README.md 6KB
scripts
remote_parsr.sh 718B
local_parsr.sh 410B
.editorconfig 239B
共 66 条
- 1
资源评论
有道理的同桌
- 粉丝: 26
- 资源: 4653
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 信息办公个人求职管理系统-jobgljsp.rar
- 信息办公一流网络JSP网络管理系统 v1.0-yljsp10.rar
- chirpstack学习
- 管家婆辉煌、财贸、工贸、服装,食品,千方模拟狗
- 基于python开发的工业环境老鼠检测+源码+文档(毕业设计&课程设计&项目开发)
- USB转以太网的芯片SR9900全套设计资料包括(参考设计原理图PCB+ Linux -Windows驱动程序+量产工具)
- 信息办公XML考试系统-xmlks.rar
- 基于python开发的无人机图像目标检测+实验数据+开发文档+操作流程+源码(毕业设计&课程设计&项目开发)
- 全球智能商品管理与优化系统
- IDM下载器(电脑小工具)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功