没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
分词系统研究完整版
分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,
难能可贵的是该版的 版开放了源代码,为我们很多初学者提供了宝贵的学习材料。
但有一点不完美的是,该源代码没有配套的文档,阅读起来可能有一定的障碍,尤其是对
不熟的人来说本人就一直用 作为主要的开发语言上大学时倒是学过
不过工作之后一直没有再使用过语法什么的忘的几乎一干二净了但语言这东西基本的东西都
相通的况且 也是在 的基础上形成的有一定的相似处阅读一遍源代码主要的语法
都应该不成问题了
虽然在 的系统中没有完整的文档说明但是我们可以通过查阅张华平和刘群发表的
一些相关论文资料还是可以窥探出主要的思路
该分词系统的主要是思想是先通过 层叠形马尔可夫模型进行分词通过分层既增加
了分词的准确性又保证了分词的效率共分五层如下图一所示
基本思路先进行原子切分然后在此基础上进行 最短路径粗切分找出前 个最符合的切分结
果生成二元分词表然后生成分词结果接着进行词性标注并完成主要分词步骤
下面是对源代码的主要内容的研究:
1首先, 分词程序首先调用 !"# $ %& 开始程序的执行并
且可以从看出它的处理方法是把源字符串分段处理。并且在分词前,完成词典的加载过程,即
生成 ' 对象时调用构造函数完成词典库的加载。关于词典结构的分析,请参加分词
系统研究(二)。
() !"# $ %&
*
在此处进行分词和词性标记
+,'-"./-(011 "0/2-%'1(&01%1&$
'1%1&$('$3错误:程序初始化异常!34
1
'1%1&$('$35131%1&$4输出最终分词结果
6
2在 # $ %& 方法里面调用分段分词处理方法 7((
%1&$-"./-(011 "0/21-"./0/21%1&$完成分词的整个处理
过程,包括分词的词性标注其中第一个参数为源字符串,第二个参数为分词后的字符串在这
两个方法中即完成了整个分词处理过程,下面需要了解的是在此方法中,如何调用其它方法一
步步按照上图所示的分析框架完成分词过程为了简单起见,我们先不做未登录词的分析。
-"./"' $ )-#"" "
7((%1&$-"./-(011 "0/21-"./0/21%1&$
*
-(011 "1 $ 084-(011 " )(&$.&$$/1&$(+0& $1 $ 0
#&$.&$'.%1&$9:;1 $ 0%1&$71$" (4#&$.&$$($/')$
1&$
6
3主要的分词处理是在 -(011 "方法里面发生的,下面我们对它进行进一步的分析
7((%1&$-(011 "0/21 $ 0& 1" ) $ (& $
*
进行二叉分词
'""' $1 $ 0
')'(($/ "-')0$(')0$"' (& $4
在此处进行词性标注
'-#""-#"" "'"'.()"9 )<;')0$(')0$(4
6
4现在我们先不管词性标注,把注意力集中在二叉分词上,因为这个是分词的两大关键步骤的
第一步
参考文章
8==基于层叠隐马模型的汉语词法分析>>刘群 张华平等
?==基于 最短路径的中文词语粗分模型>>张华平 刘群
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@@@@@@@@@@@@@@@@@@@@@@@@@@
分词系统研究(二)词典结构
的词典结构是理解分词的重要依据,通过这么一个数据结构设计合理访问速度高效的
词典才能达到快速准备的分词的目的。
通过阅读和分析源代码,我们可以知道,是程序运行初,先把词典加载到内存中,以提高访问
的速度。源代码在 %1&$0.. 的构造函数 %1&$()内实现了词典和分词规则库的加载。
如下代码所示
%1&$%1&$
*
AA
')0$(()3)$BB0(!0$)0$34
'-#""()( $<$3)$BB<00$<34
AA
6
我们再跳进 () 方法具体分析它是怎样读取数据词典的看 () 的源代码
7((!0$( C()0/21 '7((7%1$
*
D2+.4
$E &F9G;4
剩余43页未读,继续阅读
资源评论
- new_chiokchi2011-11-04还好了,内容丰富,但是没整理一下
minmaxlee
- 粉丝: 4
- 资源: 16
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功