没有合适的资源？快使用搜索试试~ 我知道了~

文库首页后端Python文档理解转换器,OCR 图片和解释图片内容

文档理解转换器,OCR 图片和解释图片内容

共2个文件

zip：1个

docx：1个

0 下载量 57 浏览量 2023-09-08 14:39:10 上传评论收藏 64.65MB ZIP 举报

温馨提示

文档理解转换器介绍: Donut 文档理解转换器，是一种利用无 OCR 端到端 Transformer 模型的文档理解新方法。Donut 不需要现成的 OCR 引擎/API，但它在各种视觉文档理解任务上显示出最先进的性能，例如视觉文档分类或信息提取（也称为文档解析）。此外，我们还推出了SynthDoG 文档生成器，它有助于模型预训练在各种语言和领域上保持灵活如下是一个demo例子: 您可以使用文件运行演示./app.py。 示例图像可在CORD 数据集链接./misc中获取，更多收据图像可在 CORD 数据集链接中获取。可通过下表中的链接获取 Web 演示。注意：我们更新了 Google Colab 演示（截至 2023 年 6 月 15 日）以确保其正常工作。任务秒/图像分数训练模型演示 CORD（文档解析） 0.7/ 0.7/ 1.2 91.3 / 91.1 / 90.9 甜甜圈基微调线-v2 (1280) / 甜甜圈基微调线-v1 (1280) / 甜甜圈基微调线-v1-2560 Gradio Space Web 演示、 Google Colab 演示

资源推荐

资源详情

资源评论

OCR 相关技术文档和代码

收起资源包目录

文档理解转换器.zip （2个子文件）

donut-master.zip 62.73MB

文档理解转换器.docx 1.91MB

共 2 条

文档理解转换器

介绍:

Donut 文档理解转换器，是一种利用无 OCR 端到端

Transformer 模型的文档理解新方法。Donut 不需要现成的

OCR 引擎/API，但它在各种视觉文档理解任务上显示出最

先进的性能，例如视觉文档分类或信息提取（也称为文档解

析）。此外，我们还推出了 SynthDoG 文档生成器，它有助

于模型预训练在各种语言和领域上保持灵活

如下是一个 demo 例子:

 您可以使用文件运行演示./app.py。

 示例图像可在 CORD 数据集链接./misc 中获取，更多收据图像可在 CORD 数据集

链接中获取。

可通过下表中的链接获取 Web 演示。

注意：我们更新了 Google Colab 演示（截至 2023 年 6 月 15 日）以确保其正常工作。

任务

秒/

图像

分

数

训练模型

演示

CORD（文档解

析）

0.7/

1.2

91.

3 /

91.

1 /

90.

甜甜圈基微调线

-v2 (1280) /

甜甜圈基微调线

-v1 (1280) /

甜甜圈基微调线

-v1-2560

Gradio Space Web

演示、

Google Colab 演

示（2015 年 6 月

23 日更新）

火车票（文档解

析）

0.6

98.

甜甜圈基础微调

-zhtrainticket

google colab 演

示（2015 年 6 月

23 日更新）

RVL-CDIP（文

档分类）

0.75

95.

甜甜圈基微调

rvlcdip

Gradio Space Web

演示、

Google Colab 演

示（2015 年 6 月

23 日更新）

DocVQA 任务 1

（文档 VQA）

0.78

67.

甜甜圈基微调

-docvqa

Gradio Space Web

演示、

Google Colab 演

示（2015 年 6 月

23 日更新）

预训练骨干网的链接如下：

� donut-base：使用 64 个 A100 GPU 进行训练（约 2.5 天），层数（编码器：

{2,2,14,2}，解码器：4），输入大小 2560x1920，swin 窗口大小 10，IIT-CDIP (11M) 和 SynthDoG

（英语、中文、日语、韩语，0.5M x 4）。

� donut-proto：（初步模型）使用 8 个 V100 GPU 训练（约 5 天），层数

（编码器：{2,2,18,2}，解码器：4），输入大小 2048x1536，swin 窗口大小 8，以及 SynthDoG

（英文）、日语、韩语、0.4M x 3)。

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

田猿笔记

粉丝: 2710
资源: 38

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

文档理解转换器,OCR 图片和解释图片内容

OCR转WORD文档转换器免费版.rar

捷速OCR转换器

OCR 相关技术文档和代码

C#实现 图片转Excel 图片转文本 高精度转换 OCR识别

免费PDF转换器：支持免费PDF转Word、Excel、PPT、图片、OCR等

C# OCR识别 图片文字识别

PDF转换器软件TalkHelper PDF Converter OCR.rar

OCR 图片识别.rar

易度文档管理系统OCR使用说明

C# 离线式，OCR识别、提取图片中文字内容。附源码

阿里云OCR图片识别转EXCEL输出，图片转Excel，身份证识别证件识别，带fastjson包，带Apache包项目直接打包解压导入运行

linux ocr command line linux 命令 图片 文字 转换

miniocr图片文字识别

c#开发pdf文件拆分、转图片；pdf、图片内容提取，ocr文字识别技术，tesseract。

百度OCR高精度文字识别利用php进行对接图片转换文字在线识别文字

友益ocr提取图片文字转文本工具1.0.2.rar

java ocr 图片解析

《点燃我温暖你》中李峋的同款爱心代码

122版本Chrome最新驱动-122.0.6261.58

第十五届蓝桥杯大赛软件赛省赛-PythonB组题目

Python入门基础教程全套.ppt

Stable Diffusion WebUI linux部署问题

Tesseract最新中文语言包chi-sim.traineddata

第十五届蓝桥杯大赛软件赛省赛-PythonA组题目

PyCharm安装教程一篇搞定包括下载PyCharm、安装PyCharm、PyCharm简单使用教程

Python学习笔记(干货) 中文PDF完整版.pdf

谷歌浏览器驱动最新版(123.0.6312.122)

最新资源

C#实现图片转Excel 图片转文本高精度转换 OCR识别

C# OCR识别图片文字识别

linux ocr command line linux 命令图片文字转换