SIGHAN中文纠错数据集及转换后格式.zip_sighan数据集资源-CSDN文库

共78个文件

txt：56个

sgml：4个

zip：3个

版权申诉

5星 · 超过95%的资源 129 浏览量 2023-10-19 21:31:06 上传评论收藏 19.92MB ZIP 举报

《SIGHAN中文纠错数据集及其转换格式详解》 SIGHAN（Simplified Chinese, Grammar Error Correction and Hanyu Pinyin）中文纠错数据集是针对汉语语法错误检测和拼音标注的一项重要资源，由新加坡国立大学的计算语言学研究团队创建。这个数据集主要用于评估和改进汉语自然语言处理系统，特别是中文拼写检查和语料库建设等领域。在SIGHAN数据集中，原始版本被称为"SIGHAN_raw-master"，包含了多种不同来源和类型的文本，这些文本都包含了人工标注的错误信息，以便于模型学习识别和纠正中文语法错误。这些错误涵盖了错别字、词序错误、词语搭配不当等多种类型，是训练和测试中文纠错算法的理想素材。数据集的转换格式通常是为了适应不同的算法和工具，以便更高效地利用这些数据。例如，可能会将原始的文本格式转换为CSV或TSV格式，其中每一行代表一个句子，错误的位置用特殊标记表示。这种格式有利于机器学习模型进行批量处理和训练。此外，为了便于比较和评估不同算法的性能，数据集通常会被划分为训练集、验证集和测试集。转换过程可能包括以下步骤： 1. 数据预处理：清洗原始文本，去除无关字符，标准化标点符号。 2. 错误标注：将每个错误位置标注出来，通常用特殊字符或者编号表示。 3. 数据分割：根据一定比例，将数据集划分为训练、验证和测试集。 4. 格式转换：将处理后的数据转换为适合特定算法的格式，如CoNLL格式，每行包含词性、词义等信息。 5. 创建标签：为每个错误创建对应的纠正标签，以便模型学习正确答案。对于研究人员和开发者来说，理解和掌握SIGHAN中文纠错数据集的转换格式至关重要，因为这直接影响到模型的训练效果和评估准确性。在实际应用中，可能还需要根据具体任务需求对数据集进行进一步的定制，例如增加多源语料、调整错误类型分布等。 SIGHAN中文纠错数据集是推动汉语自然语言处理技术发展的重要工具，其转换格式则为模型的训练和评估提供了便利。通过深入理解并有效地利用这些资源，我们可以构建出更加精准和智能的中文错误检测和纠正系统，进一步提升汉语的数字化处理水平。

资源推荐

资源详情

资源评论

收起资源包目录

SIGHAN中文纠错数据集及转换后格式.zip （78个子文件）

sighan_raw-master

raw_data

clp14csc_release1.1

clp14csc_overview.pdf 332KB

README 2KB

Dryrun

CLP14_CSC_DryRun_Input.txt 3KB

CLP14_CSC_DryRun_Truth.txt 421B

Training

C1_training.sgml 117KB

B1_training.sgml 1.16MB

Test

CLP14_CSC_TestTruth.txt 19KB

CLP14_CSC_FinalTestSummary.xlsx 42KB

CLP14_CSC_TestInput.txt 173KB

Tool

CLP14_Toy_Truth.txt 217B

clp14csc.jar 2.49MB

CLP14_Toy_Result.txt 210B

CLP14_Toy_Evaluation.txt 1KB

clp14csc_release1.1.zip 3MB

sighan7csc_release1.0.zip 3.15MB

sighan8csc_release1.0

README 2KB

SIGHAN8CSC_Overview.pdf 324KB

Training

SIGHAN15_CSC_A2_Training.sgml 227KB

SIGHAN15_CSC_B2_Training.sgml 472KB

Dry

SIGHAN15_CSC_DryTruth.txt 666B

SIGHAN15_CSC_DryInput.txt 4KB

Test

SIGHAN15_CSC_TestInput.txt 117KB

SIGHAN15_CSC_TestSummary.xlsx 40KB

SIGHAN15_CSC_TestTruth.txt 18KB

Tool

sighan15csc.jar 2.49MB

SIGHAN15_Toy_Result.txt 200B

SIGHAN15_Toy_Evaluation.txt 1KB

SIGHAN15_Toy_Truth.txt 207B

sighan8csc_release1.0.zip 2.82MB

sighan7csc_release1.0

README 2KB

FinalTest

FinalTest_SubTask1_Truth.txt 8KB

FinalTest_SubTask2.txt 230KB

FinalTest_SubTask1.txt 213KB

FinalTest_SubTask2_Truth.txt 17KB

ConfusionSet

Bakeoff2013_CharacterSet_SimilarShape.txt 427KB

Bakeoff2013_CharacterSet_SimilarPronunciation.txt 1.13MB

SampleSet

Bakeoff2013_SampleSet_WithoutError_10001-10350.txt 65KB

Bakeoff2013_SampleSet_WithError_00001-00350.txt 98KB

EvaluationTool

Toy_SubTask2_Truth.txt 105B

Toy_SubTask1_Result.txt 61B

Toy_SubTask2_Evaluation.txt 797B

Toy_SubTask1_Evaluation.txt 1KB

Toy_SubTask2_Result.txt 80B

Toy_SubTask1_Truth.txt 56B

sighan7csc.jar 2.01MB

DryRun

DryRun_SubTask1_Truth.txt 431B

DryRun_SubTask1.txt 13KB

DryRun_SubTask2_Truth.txt 965B

DryRun_SubTask2.txt 13KB

sighan7csc_overview.pdf 403KB

pair_data

simplified

test14_correct.txt 157KB

test14_error.txt 157KB

test13_correct.txt 219KB

train15_correct.txt 217KB

train13_correct.txt 86KB

train13_error.txt 86KB

test15_error.txt 100KB

train15_error.txt 217KB

test15_correct.txt 100KB

test13_error.txt 219KB

train14_error.txt 502KB

train14_correct.txt 502KB

traditional

test14_correct.txt 157KB

test14_error.txt 157KB

test13_correct.txt 219KB

train15_correct.txt 217KB

train13_correct.txt 86KB

train13_error.txt 86KB

test15_error.txt 100KB

train15_error.txt 217KB

test15_correct.txt 100KB

test13_error.txt 219KB

train14_error.txt 502KB

train14_correct.txt 502KB

file_io.py 2KB

ss.md 0B

generate_pair_data.py 14KB

README.md 1KB

# Sighan2013/2014/2015原始纠错数据提取 ## 依赖 python2.7 regex、bs4、opencc_python_reimplemented ## 原始数据 raw_data/ SIGHAN-2013 shared task on CSC: [LINK](http://ir.itc.ntnu.edu.tw/lre/sighan7csc_release1.0.zip) SIGHAN-2014 shared task on CSC: [LINK](http://ir.itc.ntnu.edu.tw/lre/clp14csc_release1.1.zip) SIGHAN-2015 shared task on CSC: [LINK](http://ir.itc.ntnu.edu.tw/lre/sighan8csc_release1.0.zip) 注意： - 原始训练数据中存在一定比例的标注错误，已经进行手工纠正，因此与原始下载数据（.zip文件）存在不同。 ## 提取数据运行程序 ```shell python generate_pair_data.py ``` ### 繁体 pair_data/traditional/ ### 简体 pair_data/simplified/ 使用opencc对繁体进行转换得到注意： - sighan纠错任务中正确句子和错误句子的长度是一致的。 - 存在正确/错误繁体字对应同一个简体字的情况，转换成简体后有的文本错误消失了，因此简体版本的文本错误数量少于繁体版本的。

评论收藏

内容反馈

版权申诉