下载 >  课程资源 >  讲义 > SIGHAN-中文分词

SIGHAN-中文分词 评分:

中文分词
2015-09-22 上传大小:6.87MB
分享
收藏 举报
SIGHAN评测回顾-1-(2003-2005)
sighan-bakeoff

著名的Sighan Bakeoff语料。包含了训练集、测试集及测试集的(黄金)标准切分,同时也包括了一个用于评分的脚本和一个可以作为基线测试的简单中文分词器。

立即下载
sighan 2006 MSRA命名实体语料(BIO格式)

2006年sighan命名实体识别任务语料,MSRA提供。已经转成BIO格式,可直接用于NER训练

立即下载
SIGHAN评测回顾-2-(2006-2010)
项目实践 -- CRF实体识别
SIGHAN国际汉语分词数据集backoff2005

2nd International Chinese Word Segmentation Bakeoff - Data Release Release 1, 2005-11-18 * Introduction This directory contains the training, test, and gold-standard data used in the 2nd International Chinese Word Segmentation Bakeoff. Also included is the script used to score the results submitte

立即下载
msra(命名实体语料)

msra(命名实体语料),sighan bakeoff 2006 命名实体识别的语料库,

立即下载
msra公开命名实体训练语料

msra公开命名实体训练语料,具体文档见压缩包,可以用于训练命名识别识别

立即下载
msra Ner+ 分词

msar实体命名与分词资源,同一处资料,训练集与测试集均有分词和ner标注

立即下载
30万 中文分词词库

格式: 序号 单词 词频 词性 词性请参考:http://ictclas.org/ictclas_docs_003.html http://hi.baidu.com/drkevinzhang/blog/category/ictclas%B7%D6%B4%CA/index/1 自己做毕设整理的分词词库,使用中科院的标注集合北大标注集,也就是两种标注混合用的。每个词一个词性,也有词频。由于使用多个词典整合的,词频不是特别准。但是能满足一般的需求。 容量为29.8w. 包含了三级地名、名胜、重要山川河流、一万左右的成语。由于一部分词来自搜狗互联网词库,有些词明显是拼写时常连着拼而不是词。对词库要

立即下载
msra(NER)命名实体识别语料

采用如下标注方法: nr人名 ns 地名   nt 机构团体    “团”的声母为t,名词代码n和t并在一起。 nz 其他专名 eg:红军/nt 将领/o 孙毅/nr 将军/o 为/o 我们/o 收藏/o 的/o 二十余册/o (/o 1937年/o —/o 1945年/o )/o 晋察冀抗日根据地/ns 出版物/o

立即下载
中文分词词库

中科院的标注、北大标注集。也有词频。可以满足大多数的需求。这个是我写java分词器的时候用到的,现在分词器已经编写完毕,特把词库分享给大家。 分词总数是29万8左右。其中包括三级地名、名胜古迹、知名的山川河流、1万多成语,还有就是其中的一部词语是来自搜狗输入法的词库。

立即下载
中文分词入门与字标注法

作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,好在SIGHAN Bakeoff为我们提供了一个非商业使用(non-commercial)的免费获取途

立即下载
中文自然语言处理中文分词训练语料

本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M,包含1116903条数据,数据用空格隔开,可以用来训练分词模型。

立即下载
常见中文停用词表

常见中文停用词表 可用于中文分词 常见中文停用词表 可用于中文分词 常见中文停用词表 可用于中文分词 常见中文停用词表 可用于中文分词

立即下载
中文分词C语言程序

基于C语言文本文件的中文分词程序,可实现基本功能,还有待完善

立即下载
中文分词停用词StopWords

中文分词中常用的停用词StopWords集合。

立即下载
微软亚洲研究院中文分词语料库

微软亚洲研究院中文分词语料库,研究中文分词,研究中文分词

立即下载
中文分词+自动提取关键字

1:中文分词 2:词频统计 3:罗列出要自动提取的关键字 ---------------------------------------- 具有60 万字/秒的高速处理能力。

立即下载
中文词表(可用于分词,53143个词条,全!)

中文词表,可用于分词,共53143个词条

立即下载

热点文章

img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
点击完成任务获取下载码
输入下载码
为了良好体验,不建议使用迅雷下载
img

SIGHAN-中文分词

会员到期时间: 剩余下载个数: 剩余C币: 剩余积分:0
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
8 0 0
为了良好体验,不建议使用迅雷下载
VIP和C币套餐优惠
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载
您还未下载过该资源
无法举报自己的资源

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

  • 举报人:
  • 被举报人:
  • *类型:
    • *投诉人姓名:
    • *投诉人联系方式:
    • *版权证明:
  • *详细原因: