C omputer Engineering and Applications 计算机工程与应用
2015,51(2)
1 引言
哈萨克语自然语言信息处理技术在文字处理、词法
分析、文本校对等阶段均取得了一定的成果,目前可以
考虑句子的处理阶段,即如何自动分析短语结构、短语
哈萨克语动词短语自动识别研究与实现
古丽扎达·海沙
1
,古丽拉·阿东别克
2,3
GULIZADA·Haisa
1
, GULILA·Altenbek
2,3
1.新疆艺术学院,乌鲁木齐 830046
2.新疆大学 信息科学与工程学院,乌鲁木齐 830046
3.国家语言资源监测与研究中心少数民族语言中心哈萨克和柯尔克孜语文基地,乌鲁木齐 830046
1.Xinji ang Arts University, Urumqi 830046, China
2.College of Information Science and Engineer ing, Xinjiang University, Urumqi 830046, China
3.The Base of Kazakh and Kirghiz Language of National Language Resource Monitoring and Research Center Minority
Languages, Urumqi 830046, China
GULIZADA·Haisa, GULILA·Altenbek. Resea rch on automatic identification of base verb phrases in K azakh. Com-
puter Engineering and Appl ications , 2015, 51(2):218-223.
Abstract:The method based on rules can’t be used to process because the structure of K zB aseVP is complex and ambi-
guity is common, so this paper puts forward a com bined method of rules and statistics to recogniz e Kazakh Base Verb
Phrase(KzBaseVP). I n this mixed strategy system, the set of KzBaseVP mat ch rules has been established according to the
features of exclusive K zB aseVP, the unambiguous KzBaseVP has been tagged through a set of rules, t he correct rate is
85.43% . It uses the maximum entropy model to identify ambiguities KzBa seVP based on statistics, designs maximum
entropy model f eature template according to the Kazakh word, POS, affix and context information, the model has been
improved, the first N maximum pr obability of context information has been added to the f eature vectors of next VP and so
on until the end of the text, an optimal probability VP tagging has been selected in the end. Experiment al results show that
the cl ose test and open test of average a ccuracy of identifying Kazakh B ase VP is 97.23% and 93.22%.
Key words:Kazakh bas e verb phra se; phrase analysis; ambiguity; maximum entropy; rules collection
摘 要:由于哈萨克语基本动词短语 KzBaseVP 的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等
问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与
最大熵相结合的方法对哈萨克语基本动词短语(KzBaseVP)进行识别。在该混合策略系统中,根据专属 KzBase VP
的特点构建了 KzBaseVP 搭配规则集,通过规则集对无歧义的 Kz BaseVP 进行标注,其正确率为 8 5.43%;运用基于统
计的最大熵模型对存在歧义的 KzBaseV P 进行识别,根据哈萨克语的单词、词性、词缀和上下文信息等来设计最大熵
模型的特征模板,并对模型进行了改进,在解码中选取概率最大的前 n 个上下文信息分别加入到下一个 VP 的特征向
量中,以此类推直至文本结束,最终选出一条概率最优的 VP 标注。实验证明,在封闭和开发测试条件下对基本动词
短语的识别准确率分别为 97.23%和 93.22 %。
关键词:哈萨克语基本动词短语;短语分析;歧义;最大熵模型;规则集
文献标志码:A 中图分类号:TP393 doi:10.3778/j.issn.1002-8331.1301-0119
基金项目:国家自然科学基金(No.61063025,No.60763005);新疆多语种信息技术重点实验室开放项目(No.049807)。
作者简介:古丽扎达·海沙(1987—),女,硕士,主要研究方向为自然语言信息处理;古丽拉·阿东别克(1962—),女,教授,博士生
导师,主要研究领域为自然语言信息处理。E-mail:gu lzada8855@163.com
收稿日期:2013-01-11 修回日期:2013-04-2 7 文章编号:1002-8331(2015)02-0218-06
CNKI 网络优先出版:2013-06-08, http://www.cnki.net/kcms/detail/11.2127.TP.20130608.0953.006.html
218