没有合适的资源？快使用搜索试试~ 我知道了~

文库首页课程资源专业指导分词系统研究完整版(ICTCLAS)

分词系统研究完整版(ICTCLAS)

中文分词

ICTCLAS

4星 · 超过85%的资源需积分: 10 59 下载量 29 浏览量 2008-12-30 23:15:33 上传评论收藏 603KB DOC 举报

温馨提示

试读

44页

也是去年收集的资料，转载到csdn大家一起学习研究。版权属原作者所有。

资源推荐

资源详情

资源评论

分词系统研究完整版

 分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统，

难能可贵的是该版的  版开放了源代码，为我们很多初学者提供了宝贵的学习材料。

但有一点不完美的是，该源代码没有配套的文档，阅读起来可能有一定的障碍，尤其是对

不熟的人来说本人就一直用  作为主要的开发语言上大学时倒是学过

不过工作之后一直没有再使用过语法什么的忘的几乎一干二净了但语言这东西基本的东西都

相通的况且  也是在 的基础上形成的有一定的相似处阅读一遍源代码主要的语法

都应该不成问题了

虽然在  的系统中没有完整的文档说明但是我们可以通过查阅张华平和刘群发表的

一些相关论文资料还是可以窥探出主要的思路

该分词系统的主要是思想是先通过 层叠形马尔可夫模型进行分词通过分层既增加

了分词的准确性又保证了分词的效率共分五层如下图一所示

基本思路先进行原子切分然后在此基础上进行 最短路径粗切分找出前  个最符合的切分结

果生成二元分词表然后生成分词结果接着进行词性标注并完成主要分词步骤

下面是对源代码的主要内容的研究：

１首先， 分词程序首先调用  !"# $ %& 开始程序的执行并

且可以从看出它的处理方法是把源字符串分段处理。并且在分词前，完成词典的加载过程，即

生成 ' 对象时调用构造函数完成词典库的加载。关于词典结构的分析，请参加分词

系统研究（二）。

() !"# $ %& 



在此处进行分词和词性标记

+,'-"./-(011 "0/2-%'1(&01%1&$

'1%1&$('$3错误：程序初始化异常！34

1

'1%1&$('$35131%1&$4输出最终分词结果



２在 # $ %& 方法里面调用分段分词处理方法 7((

%1&$-"./-(011 "0/21-"./0/21%1&$完成分词的整个处理

过程，包括分词的词性标注其中第一个参数为源字符串，第二个参数为分词后的字符串在这

两个方法中即完成了整个分词处理过程，下面需要了解的是在此方法中，如何调用其它方法一

步步按照上图所示的分析框架完成分词过程为了简单起见，我们先不做未登录词的分析。

-"./"' $ )-#"" "

7((%1&$-"./-(011 "0/21-"./0/21%1&$



-(011 "1 $ 084-(011 " )(&$.&$$/1&$(+0& $1 $ 0

#&$.&$'.%1&$9:;1 $ 0%1&$71$" (4#&$.&$$($/')$

1&$



３主要的分词处理是在 -(011 "方法里面发生的，下面我们对它进行进一步的分析

7((%1&$-(011 "0/21 $ 0& 1" ) $ (& $



进行二叉分词

'""' $1 $ 0

')'(($/ "-')0$(')0$"' (& $4



在此处进行词性标注

'-#""-#"" "'"'.()"9  )<;')0$(')0$(4



４现在我们先不管词性标注，把注意力集中在二叉分词上，因为这个是分词的两大关键步骤的

第一步

参考文章

8==基于层叠隐马模型的汉语词法分析>>刘群张华平等

?==基于 最短路径的中文词语粗分模型>>张华平刘群

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

@@@@@@@@@@@@@@@@@@@@@@@@@@

 分词系统研究（二）词典结构

 的词典结构是理解分词的重要依据，通过这么一个数据结构设计合理访问速度高效的

词典才能达到快速准备的分词的目的。

通过阅读和分析源代码，我们可以知道，是程序运行初，先把词典加载到内存中，以提高访问

的速度。源代码在 %1&$0.. 的构造函数 %1&$（）内实现了词典和分词规则库的加载。

如下代码所示

%1&$%1&$

AA

')0$(()3)$BB0(!0$)0$34

'-#""()( $<$3)$BB<00$<34

我们再跳进 () 方法具体分析它是怎样读取数据词典的看 () 的源代码

7((!0$( C()0/21 '7((7%1$

D2+.4

 $E &F9G;4

剩余43页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

new_chiokchi

2011-11-04

还好了，内容丰富，但是没整理一下

minmaxlee

粉丝: 4
资源: 16

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

分词系统研究完整版(ICTCLAS)

ICTCLAS分词系统研究

分词系统研究

ICTCLAS中文分词系统

中科院ICTCLAS分词系统认识与代码研究

中科院ICTCLAS分词软件C# WINFORM版

中科院中文分词系统及各种调用示例

ICTCLAS2012—SDK中科院分词工具最新版

ICTCLAS的Java改造版本

中科院开源分词系统ICTCLAS

中文分词技术在智能评分系统中的应用研究.rar

ICTCLAS的Java分词系统

中文分词技术在智能评分系统中的应用研究.pdf

基于 B Bs 文 本 信息的中文自动分词系统的研究

X3BLOG AJAX国产大型开源多用户博客系统 1.1.0.beta1编译版

X3BLOG AJAX国产大型开源多用户博客系统 1.1.0.beta1源码版

x3blog 单用户博客系统 1.0.80802 编译版

最新.net技术博客源代码.rar

X3BLOG 单用户版 1.0 build80707 (access)

NLPIR-ICTCLAS分词系统开发手册2016版

NLPIR-ICTCLAS分词系统开发手册2016版1

NLPIR-ICTCLAS分词系统开发手册2017版 1

基于分词的关联规则预测系统研究.pdf

ICTCLAS分词系统-java实现

X3-BLOG 博客源码

X3BLOG 单用户版 FOR ACCESS 1.0beta 源代码

x3blog 单用户博客系统 1.0.80802 源代码

XML,XSLT,AJAX三大技术打造开源多用户博客X3BLOG

X3BLOG v0.7.5.0

最新资源

基于 B Bs 文本信息的中文自动分词系统的研究