文档理解转换器
介绍:
Donut 文档理解转换器,是一种利用无 OCR 端到端
Transformer 模型的文档理解新方法。Donut 不需要现成的
OCR 引擎/API,但它在各种视觉文档理解任务上显示出最
先进的性能,例如视觉文档分类或信息提取(也称为文档解
析)。此外,我们还推出了 SynthDoG 文档生成器,它有助
于模型预训练在各种语言和领域上保持灵活
如下是一个 demo 例子:
您可以使用文件运行演示./app.py。
文档理解转换器 介绍: Donut 文档理解转换器,是一种利用无 OCR 端到端 Transformer 模型的文档理解新方法。Donut 不需要现成的 OCR 引擎/API,但它在各种视觉文档理解任务上显示出最先进的性能,例如视觉文档分类或信息提取(也称为文档解析)。此外,我们还推出了SynthDoG 文档生成器,它有助于模型预训练在各种语言和领域上保持灵活 如下是一个demo例子: 您可以使用文件运行演示./app.py。 示例图像可在CORD 数据集链接./misc中获取,更多收据图像可在 CORD 数据集链接中获取。 可通过下表中的链接获取 Web 演示。 注意:我们更新了 Google Colab 演示(截至 2023 年 6 月 15 日)以确保其正常工作。 任务 秒/图像 分数 训练模型 演示 CORD(文档解析) 0.7/ 0.7/ 1.2 91.3 / 91.1 / 90.9 甜甜圈基微调线-v2 (1280) / 甜甜圈基微调线-v1 (1280) / 甜甜圈基微调线-v1-2560 Gradio Space Web 演示、 Google Colab 演示