下载 >  开发技术 >  Python > 基于python的中文分词法
3

基于python的中文分词法

很不错的分词方法,包括原理方法和代码。很详细很具体
2010-12-27 上传大小:966KB
想读
分享
收藏 举报

评论 共2条

u010405727 不是原创的吧。没什么用
2013-05-04
回复
kalethars 对我的分词程序有所帮助.
2013-04-28
回复
中文分词入门与字标注法

作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,好在SIGHAN Bakeoff为我们提供了一个非商业使用(non-commercial)的免费获取途径,以下将介绍SIGHAN Bakeoff及相关的中文分词入门资源。   SIGHAN是国际计算语言学会(ACL)中文语言处理小组的简称,其英文全称为“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”,又可以理解为“SIG汉“或“SIG漢“。而Bakeoff则是SIGHAN所主办的国际中文语言处理竞赛,第一届于2003年在日本札幌举行(Bakeoff 2003),第二届于2005年在韩国济州岛举行(Bakeoff 2005), 而2006年在悉尼举行的第三届(Bakeoff 2006)则在前两届的基础上加入了中文命名实体识别评测。目前SIGHAN Bakeoff已成功举办了6届,其中Bakeoff 2005的数据和结果在其主页上是完全免费和公开的,但是请注意使用的前提是非商业使用

立即下载
Python中文分词_中文分词软件

Python中文分词_中文分词软件,使用jieba字典

立即下载
基于python中文分词程序

使用Python编写的中文分词软件,功能多样,可以自己更换字典,也有机器学习,检测中文人名,检测高频词语等多种功能,速度适中,准确率可观.

立即下载
python中文分词

python中文分词

立即下载
一个简单的分词系统(可以选择正向最大匹配分词或逆向最大匹配)

使用正向最大匹配FMM分词 以及逆向最大匹配BMM分词 但不是同时使用

立即下载
python实现基于最大概率的中文分词

任务:实现基于最大概率的汉语切分算法。 要求:最大概率采用n-gram语言模型进行计算,n-gram中n>1,如果采用MLE估计,则应采用平滑方法(至少用Laplace平滑)。 资源中包含训练集和测试集txt以及说明文档。

立即下载
jieba-0.35.zip

"结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.

立即下载
基于Lucene的中文分词方法设计与实现

基于Lucene的中文分词方法设计与实现 基于Lucene的中文分词方法设计与实现 基于Lucene的中文分词方法设计与实现

立即下载
中文分词词典

中文分词词典,Python 作业 中文 分词 词典

立即下载
Python高级编程.(法)莱德

Python高级编程.(法)莱德Python高级编程.(法)莱德Python高级编程.(法)莱德

立即下载
C语言编写的中文分词程序

包内包含中文分词作业描述、C语言源程序、可执行文件和说明文档

立即下载
Spark大数据中文分词统计Scala语言工程源码

参考网络资源使用IKAnalyzer分词组件,实现了在Spark框架下使用Scala语言对唐诗宋词等国学经典进行中文分词统计排序的功能,你可以轻松发现唐诗宋词中最常用的词是那几个。

立即下载
基于HMM的中文分词

该代码为隐马尔科夫的demo案例,适用于已经了解HMM原理进行实践的读者

立即下载
基于CRF++的中文分词 数据+CRF++工具+java源码.zip

基于CRF++的中文分词 数据+CRF++工具+java源码.zip

立即下载
java 实现的中文分词算法(代码)

java 实现的基于FMM BMM算法的,中文分词算法(代码)

立即下载
中科院开发的基于开放源码的中文分词技术实现(源码)

中科院开发的基于开放源码的中文分词技术实现(源码);中科院开发的基于开放源码的中文分词技术实现(源码)

立即下载
[Python高级编程].(法)莱德.扫描版.part3.rar

[Python高级编程].(法)莱德.扫描版.part3.rar[Python高级编程].(法)莱德.扫描版.part3.rar[Python高级编程].(法)莱德.扫描版.part3.rar[Python高级编程].(法)莱德.扫描版.part3.rar

立即下载
HMM实现中文分词

以新闻语料为基础,用HMM算法实现中文分词。按照每个字为B,E,S,M进行划分。

立即下载
Jieba分词工具的使用

jieba分词工具的使用,python环境下,中文分词,jieba

立即下载
中文分词程序

用python写的中文分词,实现了你想最大匹配算法

立即下载
关闭
img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
点击完成任务获取下载码
输入下载码
为了良好体验,不建议使用迅雷下载
img

基于python的中文分词法

会员到期时间: 剩余下载个数: 剩余C币: 剩余积分:0
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
为了良好体验,不建议使用迅雷下载
VIP和C币套餐优惠
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载
您还未下载过该资源
无法举报自己的资源

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

若举报审核通过,可返还被扣除的积分

  • 举报人:
  • 被举报人:
  • *类型:
    • *投诉人姓名:
    • *投诉人联系方式:
    • *版权证明:
  • *详细原因: