下载 >  人工智能 >  深度学习 > 中文分词入门与字标注法

中文分词入门与字标注法 评分:

作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,好在SIGHAN Bakeoff为我们提供了一个非商业使用(non-commercial)的免费获取途径,以下将介绍SIGHAN Bakeoff及相关的中文分词入门资源。   SIGHAN是国际计算语言学会(ACL)中文语言处理小组的简称,其英文全称为“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”,又可以理解为“SIG汉“或“SIG漢“。而Bakeoff则是SIGHAN所主办的国际中文语言处理竞赛,第一届于2003年在日本札幌举行(Bakeoff 2003),第二届于2005年在韩国济州岛举行(Bakeoff 2005), 而2006年在悉尼举行的第三届(Bakeoff 2006)则在前两届的基础上加入了中文命名实体识别评测。目前SIGHAN Bakeoff已成功举办了6届,其中Bakeoff 2005的数据和结果在其主页上是完全免费和公开的,但是请注意使用的前提是非商业使用
...展开详情收缩
2017-12-14 上传大小:246KB
分享
收藏 举报
《中文分词之字标注法----概述》
中文分词 基于字标注法的分词
中文分词及词性标注语料

中文分词及词性标注语料,包含微软亚研院、搜狗、北京大学等的语料库

立即下载
中文分词与词性标注

成熟的中文分词系统,输入的训练文件比较特别。HMM技术。

立即下载
带词性标注中文分词词典

人民日报统计出来的用于自然语言处理的中文词典

立即下载
中文分词+关键提取

1:中文分词 2:词频统计 3:罗列出要自动提取的关键字 ---------------------------------------- 具有60 万字/秒的高速处理能力。

立即下载
Deep Learning 在中文分词和词性标注中的应用

本文档是关于复旦大学郑骁庆博士等人的文章《Deep Learning for Chinese Word Segmentation and POS tagging》的一则读书笔记,介绍 Deep Learning 在中文分词和词性标注任务中的应用.

立即下载
中文文本自动分词和标注

本书介绍了信息处理用现代汉语分词词表的收词原则和方法,《信息处理用现代汉语分词规范》设计原则及规范内容,中文文本歧义切分技术等内容。

立即下载
中文分词及词性标注

java 词性标注

立即下载
Lucene4.7+IK Analyzer中文分词入门教程

Lucene4.7+IK Analyzer中文分词入门教程

立即下载
中文分词中文分词中文分词

中文分词中文分词中文分词中文分词中文分词中文分词中文分词中文分词中文分词中文分词中文分词

立即下载
中文自动分词和词性标注

本资源包括源代码,ppt,技术报告,能够实现中文的自动分词,词性标注。代码是java编写,用eclipse工具实现。是我们自然语言的课程设计。供大家之用

立即下载
C# 中文分词 词性标注

C# 中文分词 词性标注

立即下载
中文分词 提取关键

采用php写的 中文分词 提取关键字功能,简单实用,

立即下载
可训练的中文分词和词性标注系统

采用机器学习的方法进行自然语言处理,对中文进行分词和词性标注。分词采用crf模型,词性标注用hmm模型,解码算法为Vertibi算法。本系统使用java语言编写

立即下载
中文分词标注,实体识别代码

Jiagu深度学习自然语言处理工具 中文分词 词性标注 命名实体识别 情感分析 知识图谱关系抽取 新词发现 关键词 文本摘要

立即下载
ICTCLAS中文分词和关键匹配

本程序使用ICTCLAS中文分词系统,支持中文分词,同时实现高效率的关键字匹配,使用的分词系统支持用户自定义词典,并支持GBK和UTF-8编码,在Linux系统上运行,同时避免某些因证书引起的问题,适用于个人研究,因商业使用带来的问题,本人不负责。 系统采用2中高效的算法进行多模式串的匹配。 测试与Ubuntu14.04系统。

立即下载
词频统计和切分词工具(词性标注工具,用于分词管理)

字词频统计和切分词工具(词性标注工具,用于分词管理),两个工具,支持单文件和目录处理。

立即下载
微软亚研的中文分词、词性标注和命名实体识别语料

微软亚研的中文分词、词性标注和命名实体识别语料,包括训练和验证集,xml格式,方便使用,机器学习、信息检索以及NLP领域的研究人员使用来训练模型

立即下载
Python书籍全集(16,17年最新书籍,9本超清完整非扫描版)

《Python编程:从入门到实践》2016.7 《Python项目开发实战(第2版)》2017.1 《Python核心编程(第3版)》2016.6 《Python编程快速上手:让繁琐工作自动化》2016.7 《Python游戏编程快速上手》2016.8 《Python网络数据采集》2016.3 《Python机器学习:预测分析核心算法》2017.1 《精通Python设计模式》2016.7 《用Python写网络爬虫》2016.9

立即下载

热点文章

下载码下载
做任务获取下载码
取消 提交下载码
img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
点击完成任务获取下载码
输入下载码
为了良好体验,不建议使用迅雷下载
img

中文分词入门与字标注法

会员到期时间: 剩余下载个数: 剩余C币: 剩余积分:0
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
为了良好体验,不建议使用迅雷下载
VIP和C币套餐优惠
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载
您还未下载过该资源
无法举报自己的资源

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

  • 举报人:
  • 被举报人:
  • *类型:
    • *投诉人姓名:
    • *投诉人联系方式:
    • *版权证明:
  • *详细原因: