用于用户输入语句的同音自动纠错.
依赖于pynlpir
https://github.com/tsroten/pynlpir
数据是抓取的某东客服语料训练的,可以后续把自己抓取的语料共享
给大家训练用
./proc.py 训练产生数据
使用方法:
./server.py 或者 /usr/bin/python3 server.py 启动服务端
然后./client_run.py 或者 /usr/bin/python3 client_run.py XXX来进行纠错测试
➜ utf-8 ./client_run.py "我想买哥苹果手机" "对京东新人度大打折扣"
原语句:我想买哥苹果手机
纠正句:我想买个苹果手机
原语句:对京东新人度大打折扣
纠正句:对京东信任度大打折扣
➜ utf-8
中文词义消歧也是这个思路,但是效果比较差,有时间后续研究。使用到了
同义词词林(没有加入库,utils目录中的只做参考)。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
介绍了一种使用Python语言实现的中文错别字高亮系统。该系统能够自动检测文本中的错别字,并将其高亮显示,以便用户快速识别和纠正。文章首先解释了错别字检测的重要性,然后详细介绍了系统的架构、核心算法以及实现过程。最后,通过实例展示了系统的运行效果。此系统非常适合需要进行大量文本校对的工作者,如编辑、校对员、教师和学生等。 适用人群: 文字工作者、教育工作者、学生、软件开发者和对自然语言处理感兴趣的技术人员。 使用场景: 文档校对、在线内容审核、教育辅助工具、软件开发等。 目标: 提供一个实用且易于实现的错别字检测工具,帮助用户提高文本质量,减少沟通误解。 关键词标签: Python 中文错别字 高亮系统 文本校对
资源推荐
资源详情
资源评论
收起资源包目录
Python 实现中文错别字高亮系统.rar (29个子文件)
Python 实现中文错别字高亮系统
chinese_correct_wsd-master
correct_client.py 1KB
proc.py 8KB
《同义词词林(扩展版)》说明.pdf 161KB
pynlpir
hanzi_prep.py 3KB
wds_server.py 9KB
hanzi_util.py 2KB
HIT-IRLab-同义词词林(扩展版)_full_2005.3.3.txt 680KB
correct.exe 32KB
同音纠错.doc 14KB
correct.c 3KB
pinyin.py 115KB
utils
《同义词词林(扩展版)》说明.pdf 161KB
tyccl.py 987B
sqlite_db.py 3KB
HIT-IRLab-同义词词林(扩展版)_full_2005.3.3.txt 680KB
encode.sh 122B
ReadMe.sh 304B
to_pinyin.py 330B
.gitignore 22B
to_sqlite.py 2KB
skip_words.dat 4B
server.py.bak_d 12KB
py_test.py 12KB
correct_server.py 14KB
wds_client.py 1KB
test.py 3KB
README.md 830B
correct.cpp 6KB
a.txt 28B
共 29 条
- 1
资源评论
拙_言
- 粉丝: 759
- 资源: 191
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功