没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
| 简体中文 pycorrector 中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3.6开发。 pycorrector依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。 Guide Question 中文文本纠错任务,常见错误类型包括: 谐音字词,如 配副眼睛-配副眼镜 混淆音字词,如 流浪织女-牛郎织女 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪 字词补全,如 爱有天意-假如爱有天意 形似字错误,如 高梁-高粱 中文拼音全拼,如 xingfu-幸福 中文拼音缩写,如 sz-深圳 语法错误,如 想象难以-难以想象 当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音识别后文本纠错只需要处理前两种, 其中'形似字错误'主要针对五笔或者笔画手
资源推荐
资源详情
资源评论
收起资源包目录
pycorrector:pycorrector is a toolkit for text error correction. 文本纠错,Kenlm,Seq2Seq_Attention,BERT,MacBERT,ELECTRA,ERNIE,Transformer等模型实现,开箱即用 (243个子文件)
Dockerfile 460B
.gitignore 1KB
framework_context.jpeg 513KB
wechat_group2.jpeg 51KB
wechat.jpeg 40KB
macbert_result.jpg 770KB
eval_corpus.json 210KB
LICENSE 11KB
README.md 25KB
CONTRIBUTING.md 7KB
README.md 7KB
README.en.md 6KB
README.md 6KB
README.md 4KB
README.md 3KB
README.md 2KB
README.md 2KB
README.md 1KB
README.md 1KB
README.md 1KB
bug-report.md 1KB
feature-request.md 785B
usage-question.md 691B
README.md 292B
基于深度学习的中文文本自动校对研究与实现.pdf 1.77MB
RTD.png 507KB
long_text.png 455KB
bert_result.png 425KB
peoplecorpus.png 212KB
short_result.png 163KB
convseq2seq_ret.png 124KB
ernie_result.png 105KB
erweima.png 93KB
pycorrector.png 5KB
tokenization_utils_base.py 152KB
zh_wiki.py 140KB
modeling_utils.py 85KB
modeling_bert.py 74KB
generation_utils.py 72KB
modeling_bart.py 68KB
pipelines.py 66KB
modeling_roberta.py 62KB
modeling_auto.py 61KB
modeling_electra.py 58KB
modeling_albert.py 53KB
modeling_xlm.py 51KB
modeling_outputs.py 50KB
file_utils.py 49KB
modeling_distilbert.py 37KB
tokenization_utils.py 35KB
tokenization_xlm.py 34KB
configuration_utils.py 31KB
modeling_ernie.py 30KB
eval.py 28KB
modeling_flax_bert.py 27KB
modeling_bert_generation.py 27KB
tokenization_bert.py 24KB
modeling_flax_roberta.py 24KB
modeling_encoder_decoder.py 24KB
convert_slow_tokenizer.py 23KB
tokenization_utils_fast.py 22KB
generation_logits_process.py 21KB
modeling_flax_utils.py 19KB
detector.py 17KB
generation_beam_search.py 16KB
tokenization_bert_fast.py 14KB
tokenization_albert.py 13KB
finetune_language_model.py 13KB
get_file.py 12KB
tokenization_auto.py 12KB
convseq2seq.py 12KB
tokenization_roberta.py 12KB
tokenization_albert_fast.py 12KB
configuration_auto.py 12KB
tokenization_gpt2.py 12KB
configuration_xlm.py 12KB
configuration_bart.py 11KB
corrector.py 11KB
tokenization_roberta_fast.py 11KB
model.py 10KB
modelcard.py 10KB
train.py 10KB
configuration_bert.py 9KB
tokenizing_ernie.py 9KB
configuration_electra.py 9KB
configuration_albert.py 8KB
modeling_flax_auto.py 8KB
langconv.py 8KB
__init__.py 8KB
fix_bug.py 8KB
optimization.py 8KB
seq2seq.py 8KB
tokenization_gpt2_fast.py 7KB
model.py 7KB
model.py 7KB
configuration_distilbert.py 7KB
configuration_bert_generation.py 6KB
ernie_corrector.py 6KB
ner_error_test.py 5KB
error_correct_test.py 5KB
共 243 条
- 1
- 2
- 3
资源评论
BugHunter666
- 粉丝: 22
- 资源: 4699
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功