这个简单的应用程序提供了一种可视化 hOCR 输出的方法。
根据维基百科:“hOCR 是从光学字符识别 (OCR) 获得的格式化文本的数据表示的开放标准。该定义使用可扩展标记语言 (XML) 的形式对文本、样式、布局信息、识别置信度指标和其他信息进行编码超文本标记语言 (HTML) 或 XHTML。” ( )
hOCR 由 Tesseract、Cuneiform 和 OCRopus OCR 软件生成。
此应用程序已实现为用 C# 编写的简单 WinForms 应用程序(是的,我知道,但它很快)。
使用该应用程序时,包含在 hOCR 文件中的文本与作为 OCR 输出源的图像一起加载。 将鼠标悬停在文本中的单词上会突出显示图像中的单词。 单击文本中的一个词会显示用于突出显示该词的边界框的坐标。 (这个边界框是从 hOCR 输出中提取的)。 坐标显示为两对 XY 坐标,代表边界框的右上
评论0
最新资源