# Sighan2013/2014/2015原始纠错数据提取
## 依赖
python2.7
regex、bs4、opencc_python_reimplemented
## 原始数据
raw_data/
SIGHAN-2013 shared task on CSC: [LINK](http://ir.itc.ntnu.edu.tw/lre/sighan7csc_release1.0.zip)
SIGHAN-2014 shared task on CSC: [LINK](http://ir.itc.ntnu.edu.tw/lre/clp14csc_release1.1.zip)
SIGHAN-2015 shared task on CSC: [LINK](http://ir.itc.ntnu.edu.tw/lre/sighan8csc_release1.0.zip)
注意:
- 原始训练数据中存在一定比例的标注错误,已经进行手工纠正,因此与原始下载数据(.zip文件)存在不同。
## 提取数据
运行程序
```shell
python generate_pair_data.py
```
### 繁体
pair_data/traditional/
### 简体
pair_data/simplified/
使用opencc对繁体进行转换得到
注意:
- sighan纠错任务中正确句子和错误句子的长度是一致的。
- 存在正确/错误繁体字对应同一个简体字的情况,转换成简体后有的文本错误消失了,因此简体版本的文本错误数量少于繁体版本的。
没有合适的资源?快使用搜索试试~ 我知道了~
SIGHAN中文纠错数据集及转换后格式.zip
共78个文件
txt:56个
sgml:4个
zip:3个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 28 浏览量
2023-10-19
21:31:06
上传
评论
收藏 19.92MB ZIP 举报
温馨提示
SIGHAN中文纠错数据集及转换后格式.zip
资源推荐
资源详情
资源评论
收起资源包目录
SIGHAN中文纠错数据集及转换后格式.zip (78个子文件)
sighan_raw-master
raw_data
clp14csc_release1.1
clp14csc_overview.pdf 332KB
README 2KB
Dryrun
CLP14_CSC_DryRun_Input.txt 3KB
CLP14_CSC_DryRun_Truth.txt 421B
Training
C1_training.sgml 117KB
B1_training.sgml 1.16MB
Test
CLP14_CSC_TestTruth.txt 19KB
CLP14_CSC_FinalTestSummary.xlsx 42KB
CLP14_CSC_TestInput.txt 173KB
Tool
CLP14_Toy_Truth.txt 217B
clp14csc.jar 2.49MB
CLP14_Toy_Result.txt 210B
CLP14_Toy_Evaluation.txt 1KB
clp14csc_release1.1.zip 3MB
sighan7csc_release1.0.zip 3.15MB
sighan8csc_release1.0
README 2KB
SIGHAN8CSC_Overview.pdf 324KB
Training
SIGHAN15_CSC_A2_Training.sgml 227KB
SIGHAN15_CSC_B2_Training.sgml 472KB
Dry
SIGHAN15_CSC_DryTruth.txt 666B
SIGHAN15_CSC_DryInput.txt 4KB
Test
SIGHAN15_CSC_TestInput.txt 117KB
SIGHAN15_CSC_TestSummary.xlsx 40KB
SIGHAN15_CSC_TestTruth.txt 18KB
Tool
sighan15csc.jar 2.49MB
SIGHAN15_Toy_Result.txt 200B
SIGHAN15_Toy_Evaluation.txt 1KB
SIGHAN15_Toy_Truth.txt 207B
sighan8csc_release1.0.zip 2.82MB
sighan7csc_release1.0
README 2KB
FinalTest
FinalTest_SubTask1_Truth.txt 8KB
FinalTest_SubTask2.txt 230KB
FinalTest_SubTask1.txt 213KB
FinalTest_SubTask2_Truth.txt 17KB
ConfusionSet
Bakeoff2013_CharacterSet_SimilarShape.txt 427KB
Bakeoff2013_CharacterSet_SimilarPronunciation.txt 1.13MB
SampleSet
Bakeoff2013_SampleSet_WithoutError_10001-10350.txt 65KB
Bakeoff2013_SampleSet_WithError_00001-00350.txt 98KB
EvaluationTool
Toy_SubTask2_Truth.txt 105B
Toy_SubTask1_Result.txt 61B
Toy_SubTask2_Evaluation.txt 797B
Toy_SubTask1_Evaluation.txt 1KB
Toy_SubTask2_Result.txt 80B
Toy_SubTask1_Truth.txt 56B
sighan7csc.jar 2.01MB
DryRun
DryRun_SubTask1_Truth.txt 431B
DryRun_SubTask1.txt 13KB
DryRun_SubTask2_Truth.txt 965B
DryRun_SubTask2.txt 13KB
sighan7csc_overview.pdf 403KB
pair_data
simplified
test14_correct.txt 157KB
test14_error.txt 157KB
test13_correct.txt 219KB
train15_correct.txt 217KB
train13_correct.txt 86KB
train13_error.txt 86KB
test15_error.txt 100KB
train15_error.txt 217KB
test15_correct.txt 100KB
test13_error.txt 219KB
train14_error.txt 502KB
train14_correct.txt 502KB
traditional
test14_correct.txt 157KB
test14_error.txt 157KB
test13_correct.txt 219KB
train15_correct.txt 217KB
train13_correct.txt 86KB
train13_error.txt 86KB
test15_error.txt 100KB
train15_error.txt 217KB
test15_correct.txt 100KB
test13_error.txt 219KB
train14_error.txt 502KB
train14_correct.txt 502KB
file_io.py 2KB
ss.md 0B
generate_pair_data.py 14KB
README.md 1KB
共 78 条
- 1
资源评论
天天501
- 粉丝: 596
- 资源: 4666
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- RAG技术知识图谱概览
- VMware Workstation功能强大的桌面虚拟计算机软件
- 中文命名实体识别,采用bilstm+crf模型基于Pytorch实现
- PowerGREP V5.3.3 Retail
- 美赛数学建模算法-使用Matlab实现灰色系统建模GreySystem-国赛-题解.zip
- 基于albert-bilstm-crf架构利用keras框架实现NER
- RegexMagic V2.13.1 Retail
- python-3.6.5-macosx 安装包
- 美赛数学建模算法-使用Matlab实现图论GraphTheory-包括求最短路径-国赛-题解.zip
- RegexBuddy v4.14.1 Retail
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功