【免费】Umi-OCR-main-1.zip资源-CSDN文库

共98个文件

py：67个

dll：12个

txt：4个

需积分: 0 191 浏览量 2023-06-15 13:28:26 上传评论收藏 86.79MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

Umi-OCR-main-1.zip （98个子文件）

Umi-OCR-main

to_exe.py 183B

to_requirements.py 177B

main.py 437B

umiocr.ahk 1KB

utils

asset.py 162KB

__init__.py 0B

pynput_hotkey.py 12KB

gflags

__init__.py 35KB

flags_formatting_test.py 9KB

flags_unicode_literals_test.py 788B

validators.py 7KB

_helpers_test.py 7KB

argument_parser.py 17KB

_helpers.py 15KB

flags_modules_for_testing

__init__.py 0B

module_bar.py 5KB

module_baz.py 2KB

module_foo.py 5KB

flagvalues.py 50KB

third_party

__init__.py 0B

pep257

__init__.py 1KB

LICENSE 104B

exceptions.py 5KB

flag.py 16KB

data_structure.py 3KB

hotkey.py 2KB

tool.py 2KB

logger.py 1KB

command_arg.py 6KB

startup.py 4KB

config.py 21KB

PaddleOCR-json

PaddleOCR_json_config_ch.txt 261B

ch_PP-OCRv3_det_infer

inference.pdmodel 1.35MB

inference.pdiparams.info 26KB

inference.pdiparams 2.27MB

mkldnn.dll 20.46MB

ch_ppocr_mobile_v2.0_cls_infer

inference.pdmodel 866KB

inference.pdiparams.info 19KB

inference.pdiparams 527KB

PaddleOCR_json_config.txt 332B

vcruntime140_1.dll 36KB

ch_PP-OCRv3_rec_infer

inference.pdmodel 1.21MB

inference.pdiparams.info 22KB

inference.pdiparams 10.12MB

vcomp140.dll 176KB

paddle_inference.dll 48.45MB

concrt140.dll 310KB

mklml.dll 88.36MB

vcruntime140.dll 96KB

msvcp140.dll 622KB

onnxruntime.dll 7.53MB

PaddleOCR_json.exe 1020KB

libiomp5md.dll 1.65MB

opencv_world460.dll 61.37MB

ppocr_keys_v1.txt 26KB

paddle2onnx.dll 3.72MB

requirements.txt 138B

icon

icon.ico 78KB

pmw

__init__.py 256B

PmwBalloon.py 16KB

PmwBase.py 72KB

__init__.py 0B

win_ocr_language.py 6KB

win_main.py 67KB

systray

__init__.py 0B

win32_adapter.py 6KB

traybar.py 11KB

win_select_area.py 17KB

win_notify.py 6KB

win_screenshot.py 23KB

widget.py 6KB

win_show_image.py 17KB

tray.py 2KB

README.md 32KB

License 1KB

ocr

__init__.py 0B

tbpu

__init__.py 2KB

merge_line_h_m_fuzzy.py 671B

merge_line_h_m_paragraph_english.py 419B

merge_line_v_lr.py 3KB

merge_line_h_m_paragraph.py 1KB

merge_line_v_rl.py 294B

merge_line_h.py 3KB

tbpu.py 927B

ignore_area.py 3KB

merge_line_h_m_left.py 4KB

output_txt.py 2KB

output_md.py 2KB

msn_batch_paths.py 8KB

output_panel.py 1KB

msn_quick.py 4KB

output.py 508B

output_separate_txt.py 1KB

msn.py 2KB

api_ppocr_json.py 5KB

output_jsonl.py 2KB

engine.py 12KB

engine_ram_optimization.py 1KB

<p align="center"> <a href="https://github.com/hiroi-sora/Umi-OCR"> <img width="200" height="128" src="https://tupian.li/images/2022/10/27/icon---256.png" alt="Umi-OCR"> </a> </p> <h1 align="center">Umi-OCR 文字识别工具</h1> <p align="center"> <a href="https://github.com/hiroi-sora/Umi-OCR/releases/latest"> <img src="https://img.shields.io/github/v/release/hiroi-sora/Umi-OCR?style=flat-square" alt="Umi-OCR"> </a> <a href="License"> <img src="https://img.shields.io/github/license/hiroi-sora/Umi-OCR?style=flat-square" alt="LICENSE"> </a> <a href="#下载"> <img src="https://img.shields.io/github/downloads/hiroi-sora/Umi-OCR/total?style=flat-square" alt="forks"> </a> <a href="https://star-history.com/#hiroi-sora/Umi-OCR"> <img src="https://img.shields.io/github/stars/hiroi-sora/Umi-OCR?style=flat-square" alt="stars"> </a> <a href="https://github.com/hiroi-sora/Umi-OCR/forks"> <img src="https://img.shields.io/github/forks/hiroi-sora/Umi-OCR?style=flat-square" alt="forks"> </a> </p> <div align="center"> <strong>免费，开源，可批量的离线OCR软件</strong><br> <sub>适用于 Windows7 x64 及以上</sub> </div> <div align="center"> <h3> <a href="#说明目录"> 使用说明 </a> <span> • </span> <a href="#下载"> 下载地址 </a> <span> • </span> <a href="#更新日志"> 更新日志 </a> <span> • </span> <a href="https://github.com/hiroi-sora/Umi-OCR/issues"> 提交Bug </a> </h3> </div> <br> - **免费**：本项目所有代码开源，完全免费。 - **方便**：解压即用，离线运行，无需网络。 - **批量**：可批量导入处理图片，结果保存到本地 txt / md / jsonl 多种格式文件。也可以即时截屏识别。 - **高效**：采用 PaddleOCR-json C++ 识别引擎。只要电脑性能足够，通常比在线OCR服务更快。 - **精准**：默认使用PPOCR-v3模型库。除了能准确辨认常规文字，对手写、方向不正、杂乱背景等情景也有不错的识别率。可设置**忽略区域**排除水印、设置**文块后处理**合并排版段落，得到规整的文本。 ![](https://tupian.li/images/2023/04/26/6447fe3273efd.png) ![](https://tupian.li/images/2022/09/29/1.3-.png) ## 说明目录 - [简单上手](#简单上手) 截图、批量识别~ - [排版优化](#goto-1) 如何合并一个自然段内的文字？ - [忽略区域](#忽略区域功能) 如何排除截图水印处的文字？ - [多国语言](#添加多国语言) 添加更多PP-OCR支持的语言模型库！ - [命令行调用](#命令行调用) 用命令行或第三方工具来调用Umi-OCR！ - [更多小技巧](#goto-2) - [问题排除](#问题排除) 无法启动引擎 / 多屏幕截图异常？ ## 下载 #### Win7/8 用户及凌动、赛扬、奔腾处理器用户：兼容`低版本Windows`和`无AVX指令集的CPU`的新识别引擎正在测试阶段，[详情见这儿](https://github.com/hiroi-sora/Umi-OCR/tree/dev/rapid/1.3.4) 。 #### Win10/11 用户： Github下载：[Release v1.3.4](https://github.com/hiroi-sora/Umi-OCR/releases/tag/v1.3.4) 蓝奏云下载：[https://hiroi-sora.lanzoul.com/s/umi-ocr](https://hiroi-sora.lanzoul.com/s/umi-ocr) > Umi-OCR 软件本体含 **简体中文&英文** 通用识别库。 > 配套 **多国语言识别扩展包** 可导入 `繁中,英,日,韩,俄,德,法` 识别库，请按需下载。 #### 使用源代码 <details> <summary>展开</summary> - main分支可能含有开发中的新功能。若您想使用稳定版本，建议切换到[最新的Release分支](https://github.com/hiroi-sora/Umi-OCR/branches)。 - 安装依赖库：`pip install -r requirements.txt` - 运行 `main.py` 启动程序。测试无异常后，运行 `to_exe.py` 一键打包。 - 打包后，请将引擎组件 [PaddleOCR-json 整个文件夹](PaddleOCR-json) 放置于exe同目录下！ - 打包后，请将引擎组件 [PaddleOCR-json 整个文件夹](PaddleOCR-json) 放置于exe同目录下！！ - 打包后，请将引擎组件 [PaddleOCR-json 整个文件夹](PaddleOCR-json) 放置于exe同目录下！！！ </details> ## 兼容性（Paddle引擎版本） - 系统仅支持 Win10 x64 及以上版本。 - CPU必须具有AVX指令集。（凌动、安腾、赛扬和奔腾处理器可能不兼容） - 若您的软硬件不符合以上条件，可使用 [Rapid引擎版本](https://github.com/hiroi-sora/Umi-OCR/tree/dev/rapid/1.3.4) 。 ## 前言关于**忽略指定区域**的特殊功能： > 类似含水印的视频截图、含有UI/按钮的游戏截图等，往往只需要提取字幕区域的文本，而避免提取到水印和UI文本。本软件可设置忽略某些区域内的文字，来实现这一目的。 > > 当有大量的影视和游戏截图需要整理归档，或者想翻找包含某一段台词/字幕的截图；将这些图片提取出文字、然后Ctrl+F是一个很有效的方法。这是开发本软件的初衷。关于离线OCR引擎 [PaddleOCR-json](https://github.com/hiroi-sora/PaddleOCR-json) ： > 对 [PaddleOCR 2.6 cpu_avx_mkl C++](https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.6) 的封装。效率高于Python版本PPOCR及部分Python编写的OCR引擎，通常比在线OCR服务更快(省去网络传输的时间)。支持更换Paddle官方模型（兼容v2和v3版本）或自己训练的模型，支持修改PPOCR各项参数。通过添加不同的语言模型，软件可识别多国语言。 ## 简单上手 #### 准备下载压缩包并解压全部文件即可。 #### 截图识别点击截图按钮或自定义快捷键，唤起截图识别。 ![](https://tupian.li/images/2022/09/29/1-w-.png) `v1.3.4` 还可以设置截图后生成一个预览窗口。预览窗口可以被钉在屏幕顶层，或调为半透明，方便对比查看。 #### 粘贴图片到软件在任何地方（如文件管理器，网页，微信）复制图片，软件上点击粘贴按钮或快捷键，自动识别。 ![](https://tupian.li/images/2022/09/29/2-w-.png) #### 批量识别本地图片文件将图片或文件夹拖进软件，批量转换文字。也可以点击按钮打开浏览窗口导入。识别结果将保存到本地。可选生成纯文本txt文件、带链接Markdown文件、原始信息jsonl文件等不同格式。可配置任务完成后执行关机/待机。 ![](https://tupian.li/images/2022/09/29/3-w-.png) <a id="goto-1"></a> ## 文本块后处理（排版优化） OCR识别出的文本是按“块”划分的，通常一行文字分为一块，有时还会将一行误划分为多块，这给阅读带来了不便。**文本块后处理**就是对文本块进行再加工的过程，合并同一行或同一段落内的文字，按正确的顺序排序。 #### 下图表示不同排版应该选用何种处理方案： ![](https://tupian.li/images/2022/09/29/-10-.png) #### 所有排版方案一览： <details> <summary>展开</summary><BR> ##### 横排-优化单行将误划分为多块的同一行文字合并到一行。 ##### 横排-合并多行-左对齐将多个左对齐的行视为同一段落，合并文字。左侧未对齐或行距过大的行视为下一段落。 ##### 横排-合并多行-自然段将多个左对齐的行视为同一段落，且第一行的开头允许多空出两个全角空格的宽度。 ##### 横排-合并多行-模糊匹配只要垂直投影有重叠，行高一致，距离较近的文本块，视为同一段落。 ##### 竖排-从左到右-单行 / 竖排-从右至左-单行优化竖排识别，合并同一行文字，按从左到右或从右到左的顺序输出每一行。注意，必须搭配支持竖排识别的模型库（识别语言）一起使用。 #### 可视化预览：可以在忽略区域编辑器内预览文本块后处理的效果。编辑器中以虚线框标出识别到、经过后处理的文字块。这里仅仅是借

评论收藏

内容反馈