# T5Corrector
#### 模型功能与结构
1. 该模型功能主要是中文文本纠错,模型结构基于[mengzi-t5-base](https://huggingface.co/Langboat/mengzi-t5-base)进行继续预训练。
2. 使用中文纯语料,通过替换同音字、近音字和形近词来构造错误—修正的平行语料库。具体方法可以参考[中文混淆字挖掘](https://github.com/Macielyoung/Confused_Chinese)的方法。
3. 对于句中词组随机添加词组、删除词组中的部分字,以及字词乱序操作来构建纠错平行语料。
4. 预训练时句子经过分词,对其中ngram的词组进行全部替换来更好支持的词组的纠正。
#### 如何使用
```python
# 加载模型
from transformers import T5Tokenizer, T5ForConditionalGeneration
pretrained = "Maciel/T5Corrector-base-v1"
tokenizer = T5Tokenizer.from_pretrained(pretrained)
model = T5ForConditionalGeneration.from_pretrained(pretrained)
# 文本纠错推理
import torch
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
def correct(text, max_length):
model_inputs = tokenizer(text,
max_length=max_length,
truncation=True,
return_tensors="pt").to(device)
output = model.generate(**model_inputs,
num_beams=5,
no_repeat_ngram_size=4,
do_sample=True,
early_stopping=True,
max_length=max_length,
return_dict_in_generate=True,
output_scores=True)
pred_output = tokenizer.batch_decode(output.sequences, skip_special_tokens=True)[0]
return pred_output
text = "听到这个消息,心情真的蓝瘦"
correction = correct(text, max_length=32)
print(correction)
```
我们在**huggingface**上提供了下载链接和体验接口:
| 模型 | 支持语言 | 备注 |
| :----------------------------------------------------------- | :------- | :----------------------------------------------------------- |
| [T5Corrector-base-v1](https://huggingface.co/Maciel/T5Corrector-base-v1) | 中文 | 选择500w中文文本,替换关联词,生成3kw+对照语料 |
| [T5Corrector-base-v2](https://huggingface.co/Maciel/T5Corrector-base-v2) | 中文 | 选择2kw+中文文本,替换关联词,针对词组做增加、删除和乱序操作,生成2亿+对照语料 |
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
<项目介绍> 基于T5模型的中文文本纠错Python源码+文档说明+数据+模型 - 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
资源推荐
资源详情
资源评论
收起资源包目录
T5Corrector-main.zip (15个子文件)
T5Corrector-main
.DS_Store 6KB
processor
processing.py 12KB
preprocess.py 1KB
pronunciating.py 6KB
filtering.py 732B
__pycache__
pronunciating.cpython-38.pyc 5KB
trainer
.DS_Store 6KB
pretrain.py 6KB
prediction.py 2KB
rawdata
.DS_Store 6KB
chinese_3500.txt 11KB
chinese_pronunciation.txt 567KB
confused_chinese.json 8.94MB
stock.txt 60KB
README.md 3KB
共 15 条
- 1
资源评论
- wina123csdn2024-04-08资源很实用,内容详细,值得借鉴的内容很多,感谢分享。
Android安卓科研室
- 粉丝: 1528
- 资源: 1164
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功