没有合适的资源?快使用搜索试试~ 我知道了~
深圳面试java常见笔试题-pycorrector:错别字纠正算法。调用pycorrector接口,使用规则
共135个文件
py:73个
txt:34个
png:8个
需积分: 50 7 下载量 189 浏览量
2021-06-13
14:21:54
上传
评论 1
收藏 15.56MB ZIP 举报
温馨提示
深圳面试java常见笔试题 pycorrector 中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3开发。 pycorrector依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。 问题 中文文本纠错任务,常见错误类型包括: 谐音字词,如 配副眼睛-配副眼镜 混淆音字词,如 流浪织女-牛郎织女 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪 字词补全,如 爱有天意-假如爱有天意 形似字错误,如 高梁-高粱 中文拼音全拼,如 xingfu-幸福 中文拼音缩写,如 sz-深圳 语法错误,如 想象难以-难以想象 当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音识别后文本纠错只需要处理前两种, 其中'形似字错误'主要针对五笔或者笔画手写输入等。 解决方案 规则的解决思路 中文纠错分为两步走,第一步是错误检测,第二步是错误纠正; 错误检测部分先通过结巴中文分词器切词,由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两
资源推荐
资源详情
资源评论
收起资源包目录
深圳面试java常见笔试题-pycorrector:错别字纠正算法。调用pycorrector接口,使用规则 (135个子文件)
bert_config.json 531B
.keep 0B
LICENSE 11KB
README.md 14KB
README.md 3KB
README.md 3KB
README.md 357B
README.md 292B
README.md 241B
README.md 178B
基于深度学习的中文文本自动校对研究与实现.pdf 1.77MB
sighan15_A2.pkl 120KB
clp14_C1.pkl 75KB
peoplecorpus.png 937KB
long_train.png 799KB
seq2seq_train.png 455KB
long_text.png 455KB
short_train.png 368KB
bert_finetuned_ch_result.png 307KB
short_result.png 163KB
erweima.png 93KB
zh_wiki.py 140KB
modeling.py 40KB
tf_predict_perplexity.py 20KB
nlc_model.py 18KB
predict_mask.py 17KB
detector.py 16KB
get_file.py 12KB
tokenization.py 11KB
corrector.py 10KB
error_analysis.py 9KB
model.py 9KB
langconv.py 8KB
nlc_data.py 7KB
train.py 7KB
network.py 7KB
interactive.py 7KB
train.py 6KB
evaluate.py 6KB
infer.py 6KB
bert_corrector.py 5KB
prepare_conll_data.py 5KB
seq2seq_attn_model.py 5KB
bert_detector.py 4KB
text_utils.py 4KB
train.py 4KB
corpus_reader.py 4KB
use_custom_confusion.py 4KB
infer.py 4KB
eval.py 4KB
reader.py 4KB
util.py 3KB
reader.py 3KB
evaluate.py 3KB
loss.py 3KB
preprocess.py 3KB
data_reader.py 3KB
preprocess.py 3KB
train.py 3KB
preprocess.py 2KB
infer.py 2KB
tokenizer.py 2KB
en_spell.py 2KB
math_utils.py 2KB
setup.py 2KB
infer.py 2KB
preprocess.py 2KB
config.py 2KB
enable_char_error_detect.py 1KB
config.py 1KB
preprocess.py 1KB
config.py 1KB
logger.py 1KB
data_util.py 1KB
infer.py 1KB
config.py 1KB
config.py 1KB
__init__.py 886B
config.py 719B
load_custom_language_model.py 687B
io_utils.py 627B
config.py 414B
tf_utils.py 361B
get_src_dst_data.py 350B
correct_demo.py 284B
detect_demo.py 226B
test.py 221B
version.py 104B
__init__.py 83B
__init__.py 83B
__init__.py 0B
__init__.py 0B
__init__.py 0B
__init__.py 0B
train.sh 818B
interactive.sh 521B
logo.svg 2KB
word_freq.txt 8.19MB
big.txt 6.19MB
fce_train.txt 4.01MB
共 135 条
- 1
- 2
资源评论
weixin_38644141
- 粉丝: 5
- 资源: 925
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功