<p align="center">
<a href="https://github.com/hiroi-sora/Umi-OCR">
<img width="200" height="128" src="https://tupian.li/images/2022/10/27/icon---256.png" alt="Umi-OCR">
</a>
</p>
<h1 align="center">Umi-OCR 文字识别工具</h1>
<p align="center">
<a href="https://github.com/hiroi-sora/Umi-OCR/releases/latest">
<img src="https://img.shields.io/github/v/release/hiroi-sora/Umi-OCR?style=flat-square" alt="Umi-OCR">
</a>
<a href="License">
<img src="https://img.shields.io/github/license/hiroi-sora/Umi-OCR?style=flat-square" alt="LICENSE">
</a>
<a href="#下载">
<img src="https://img.shields.io/github/downloads/hiroi-sora/Umi-OCR/total?style=flat-square" alt="forks">
</a>
<a href="https://star-history.com/#hiroi-sora/Umi-OCR">
<img src="https://img.shields.io/github/stars/hiroi-sora/Umi-OCR?style=flat-square" alt="stars">
</a>
<a href="https://github.com/hiroi-sora/Umi-OCR/forks">
<img src="https://img.shields.io/github/forks/hiroi-sora/Umi-OCR?style=flat-square" alt="forks">
</a>
</p>
<div align="center">
<strong>免费,开源,可批量的离线OCR软件</strong><br>
<sub>适用于 Windows7 x64 及以上</sub>
</div>
<div align="center">
<h3>
<a href="#说明目录">
使用说明
</a>
<span> • </span>
<a href="#下载">
下载地址
</a>
<span> • </span>
<a href="#更新日志">
更新日志
</a>
<span> • </span>
<a href="https://github.com/hiroi-sora/Umi-OCR/issues">
提交Bug
</a>
</h3>
</div>
<br>
- **免费**:本项目所有代码开源,完全免费。
- **方便**:解压即用,离线运行,无需网络。
- **批量**:可批量导入处理图片,结果保存到本地 txt / md / jsonl 多种格式文件。也可以即时截屏识别。
- **高效**:采用 PaddleOCR-json C++ 识别引擎。只要电脑性能足够,通常比在线OCR服务更快。
- **精准**:默认使用PPOCR-v3模型库。除了能准确辨认常规文字,对手写、方向不正、杂乱背景等情景也有不错的识别率。可设置**忽略区域**排除水印、设置**文块后处理**合并排版段落,得到规整的文本。
![](https://tupian.li/images/2023/04/26/6447fe3273efd.png)
![](https://tupian.li/images/2022/09/29/1.3-.png)
## 说明目录
- [简单上手](#简单上手) 截图、批量识别~
- [排版优化](#goto-1) 如何合并一个自然段内的文字?
- [忽略区域](#忽略区域功能) 如何排除截图水印处的文字?
- [多国语言](#添加多国语言) 添加更多PP-OCR支持的语言模型库!
- [命令行调用](#命令行调用) 用命令行或第三方工具来调用Umi-OCR!
- [更多小技巧](#goto-2)
- [问题排除](#问题排除) 无法启动引擎 / 多屏幕截图异常 ?
## 下载
#### Win7/8 用户 及 凌动、赛扬、奔腾处理器用户:
兼容`低版本Windows`和`无AVX指令集的CPU`的新识别引擎正在测试阶段,[详情见这儿](https://github.com/hiroi-sora/Umi-OCR/tree/dev/rapid/1.3.4) 。
#### Win10/11 用户:
Github下载:[Release v1.3.4](https://github.com/hiroi-sora/Umi-OCR/releases/tag/v1.3.4)
蓝奏云下载:[https://hiroi-sora.lanzoul.com/s/umi-ocr](https://hiroi-sora.lanzoul.com/s/umi-ocr)
> Umi-OCR 软件本体含 **简体中文&英文** 通用识别库。
> 配套 **多国语言识别扩展包** 可导入 `繁中,英,日,韩,俄,德,法` 识别库,请按需下载。
#### 使用源代码
<details>
<summary>展开</summary>
- main分支可能含有开发中的新功能。若您想使用稳定版本,建议切换到[最新的Release分支](https://github.com/hiroi-sora/Umi-OCR/branches)。
- 安装依赖库:`pip install -r requirements.txt`
- 运行 `main.py` 启动程序。测试无异常后,运行 `to_exe.py` 一键打包。
- 打包后,请将引擎组件 [PaddleOCR-json 整个文件夹](PaddleOCR-json) 放置于exe同目录下!
- 打包后,请将引擎组件 [PaddleOCR-json 整个文件夹](PaddleOCR-json) 放置于exe同目录下!!
- 打包后,请将引擎组件 [PaddleOCR-json 整个文件夹](PaddleOCR-json) 放置于exe同目录下!!!
</details>
## 兼容性(Paddle引擎版本)
- 系统仅支持 Win10 x64 及以上版本。
- CPU必须具有AVX指令集。(凌动、安腾、赛扬和奔腾处理器可能不兼容)
- 若您的软硬件不符合以上条件,可使用 [Rapid引擎版本](https://github.com/hiroi-sora/Umi-OCR/tree/dev/rapid/1.3.4) 。
## 前言
关于**忽略指定区域**的特殊功能:
> 类似含水印的视频截图、含有UI/按钮的游戏截图等,往往只需要提取字幕区域的文本,而避免提取到水印和UI文本。本软件可设置忽略某些区域内的文字,来实现这一目的。
>
> 当有大量的影视和游戏截图需要整理归档,或者想翻找包含某一段台词/字幕的截图;将这些图片提取出文字、然后Ctrl+F是一个很有效的方法。这是开发本软件的初衷。
关于离线OCR引擎 [PaddleOCR-json](https://github.com/hiroi-sora/PaddleOCR-json) :
> 对 [PaddleOCR 2.6 cpu_avx_mkl C++](https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.6) 的封装。效率高于Python版本PPOCR及部分Python编写的OCR引擎,通常比在线OCR服务更快(省去网络传输的时间)。支持更换Paddle官方模型(兼容v2和v3版本)或自己训练的模型,支持修改PPOCR各项参数。通过添加不同的语言模型,软件可识别多国语言。
## 简单上手
#### 准备
下载压缩包并解压全部文件即可。
#### 截图识别
点击截图按钮或自定义快捷键,唤起截图识别。
![](https://tupian.li/images/2022/09/29/1-w-.png)
`v1.3.4` 还可以设置截图后生成一个预览窗口。预览窗口可以被钉在屏幕顶层,或调为半透明,方便对比查看。
#### 粘贴图片到软件
在任何地方(如文件管理器,网页,微信)复制图片,软件上点击粘贴按钮或快捷键,自动识别。
![](https://tupian.li/images/2022/09/29/2-w-.png)
#### 批量识别本地图片文件
将图片或文件夹拖进软件,批量转换文字。也可以点击按钮打开浏览窗口导入。
识别结果将保存到本地。可选生成纯文本txt文件、带链接Markdown文件、原始信息jsonl文件等不同格式。可配置任务完成后执行关机/待机。
![](https://tupian.li/images/2022/09/29/3-w-.png)
<a id="goto-1"></a>
## 文本块后处理(排版优化)
OCR识别出的文本是按“块”划分的,通常一行文字分为一块,有时还会将一行误划分为多块,这给阅读带来了不便。**文本块后处理**就是对文本块进行再加工的过程,合并同一行或同一段落内的文字,按正确的顺序排序。
#### 下图表示不同排版应该选用何种处理方案:
![](https://tupian.li/images/2022/09/29/-10-.png)
#### 所有排版方案一览:
<details>
<summary>展开</summary><BR>
##### 横排-优化单行
将误划分为多块的同一行文字合并到一行。
##### 横排-合并多行-左对齐
将多个左对齐的行视为同一段落,合并文字。左侧未对齐或行距过大的行视为下一段落。
##### 横排-合并多行-自然段
将多个左对齐的行视为同一段落,且第一行的开头允许多空出两个全角空格的宽度。
##### 横排-合并多行-模糊匹配
只要垂直投影有重叠,行高一致,距离较近的文本块,视为同一段落。
##### 竖排-从左到右-单行 / 竖排-从右至左-单行
优化竖排识别,合并同一行文字,按从左到右或从右到左的顺序输出每一行。
注意,必须搭配支持竖排识别的模型库(识别语言)一起使用。
#### 可视化预览:
可以在忽略区域编辑器内预览文本块后处理的效果。编辑器中以虚线框标出识别到、经过后处理的文字块。
这里仅仅是借
Umi-OCR-main-1.zip
需积分: 0 191 浏览量
2023-06-15
13:28:26
上传
评论
收藏 86.79MB ZIP 举报
「已注销」
- 粉丝: 0
- 资源: 1
最新资源
- 基于Matlab人脸肤色定理的教师人数统计+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于Matlab霍夫曼变换的表盘读数识别+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于Matlab火灾烟雾检测源码带GUI界面+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于Matlab的恶劣天气交通标志识别系统+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于MATLAB的霍夫曼变换的表盘示数识别+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于Matlab的车道线识别系统 +源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于MATLAB的教室人数统计系统带Gui界面+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于MATLAB的教室人数统计系统带Gui界面+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于MATLAB 的霍夫曼变换答题卡识别源码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
- 基于Matlab+bp神经网络的神经网络汉字识别系统+源代码+全部数据+文档说明+详细注释+使用说明+截图(高分课程设计)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈