收稿日期:20180829;修回日期:20181101 基金项目:国家自然科学基金资助项目(61363062)
作者简介:柴伟(1994),女,新疆昌吉人,硕士,主要研究方向为自然语言处理(chai1012@foxmail.com);古丽拉·阿东别克(1962),女,新疆
乌鲁木齐人,教授,博导,主要研究方向为自然语言信息处理.
基于句子跨度的哈萨克语句法分析研究
柴 伟
1,2,3
,古丽拉·阿东别克
1,2,3
(1.新疆大学 信息科学与工程学院,乌鲁木齐 830046;2.新疆多语种信息技术实验室,乌鲁木齐 830046;3.国
家语言资源监测与研究少数民族语言中心哈萨克和柯尔克孜语文基地,乌鲁木齐 830046)
摘 要:由于目前哈萨克语句法分析准确率较低并缺乏基于神经网络的哈萨克语句法分析的相关研究,针对哈
萨克语短语结构的句法分析,使用基于移进—归约的方法,采用在栈中存储句子跨度而不是部分树结构,从而在
进行句法树解析时不需要对句法树进行二叉化。该研究在句子特征提取时使用双向 LSTM对句子跨度特征进
行提取,得到句子跨度在整个句子上下文中信息,再使用多层感知机对句法分析模型进行训练,最后在解码时使
用动态规划选取最优句法分析结果;最终使得哈萨克语短语句法分析准确率达到了 76.92%。研究成果对哈萨
克语句法分析准确率有了进一步的提高,并为后续的哈萨克语机器翻译及语义分析奠定良好的基础。
关键词:双向 LSTM;句子跨度;动态规划
中图分类号:TP391 文献标志码:A 文章编号:10013695(2020)03020073103
doi:10.19734/j.issn.10013695.2018.08.0632
ResearchofKazakhparsingbasedonspan
ChaiWei
1,2,3
,GulilaAltenbek
1,2,3
(1.CollegeofInformationScience&Engineering,XinjiangUniversity,Urumqi830046,China;2.XinjiangLaboratoryofMultilanguageInfor
mationTechnology,Urumqi830046,China;3.TheBaseofKazakh&KirghizLanguageofNationalLanguageResourceMonitoring&Research
CenteronMinorityLanguage,Urumqi830046,China)
Abstract:DuetothelowaccuracyofKazakhparsingandthelackofcorrelationresearchbasedonneuralnetworkKazakh
parsing
,thispaperfocusedontheparsingofKazakhphrasestructure,basedontheshiftreducemethod,butbythestackele
mentsweresentencespansratherthanpartialtree,thenitdidn’tneedtocarryoutthebinarytreeinparsing.Theresearch
usedthebidirectionalLSTMtoextractthefeaturesofsentencespan
,andobtainedthesentencespaninthewholesentence
context,usingthemultilayerperceptrontotraintheparsingmodel.Intheend,theKazakhparsingaccuracyachieved
76.92%.TheresearchresultsimprovedtheaccuracyofKazakhparsingandbuiltagoodfoundationforKazakhmachinetrans
lationandsemanticanalysis.
Keywords:BiLSTM;span;dynamicoracle
0 引言
句法分析是根据给定的语法体系,自动推导出句子的语法
结构,分析句子所包含的语法单元和这些语法单元之间的关
系,将句子转换为一棵结构化的语法树
[1]
。句法分析可为更
深层次的机器翻译、语义角色标注等提供良好的基础,是自然
语言处理中起承上启下重要作用的一个研究环节。
在句法分析研究中,基于规则的方法进行句法分析研究
时,规则由语言学家进行提炼,例如 Colins
[2]
和 Hall等人
[3]
使
用上下文无关文法产生的规则或根据产生的规则对句子进行
打分,生成短语句法树。在基于统计的句法分析研究中,例如:
Charniak
[4]
提出了单纯的 PCFG的句法分析方法,并在此基础
上又提出了基于词汇化的 PCFG句法分析方法。目前,使用神
经网络的方法对句法分析准确率有较大提高,语法规则在句法
分析中的重要性降低。例如 Dyer等人
[5]
和 Stern等人
[6]
使用
编码—解码模型,编码主要是将句子读入并表示为向量,解码
是使用这些向量生成标记好的句法树。哈萨克语的自然语言
处理目前已经进行了短语结构的句法分析研究,文献[
7]利用
PCFG方法,并将 Viterbi算法加入解码模块,实现了有自学习
能力的哈萨克语短语句法分析器。文献[8]将概率上下文无
关文法模型和
Chart算法结合,实现了基于 PChart算法的哈萨
克语短语句法分析器;文献[9]使用 PCFG与感知机结合进行
重排序,实现了由粗到精的哈萨克语短语句法分析等。
虽然哈萨克语句法分析已在基于规则和统计的方法上进
行了一定的研究,但随着神经网络技术的发展,对于句子序列
预测的模型越来越多,准确率也越来越高,面临此类技术应用
到哈萨克语句法分析中的问题。本文在基于移进—归约系统
基础上,将栈中存储的部分树结构改为存储句子跨度,使用双
向 LSTM获取句子跨度的上下文特征。双向 LSTM获取的是
句子级别的信息,得到句子跨度在整个句子上下文信息。同时
也将动态规划方法应用在哈萨克语句法分析中,使得在句法分
析解码时不需要重排序就可取得句法分析的最好结果。句子
跨度相较于部分树结构的优势主要是:句子跨度表示句子的一
个片段对应的子树,核心词必须位于段首或段尾,因此减少了
解码时的搜索空间,使搜索空间复杂度降低。
本文的主要贡献有:
a)将神经网络应用在哈萨克语句法
分析中,并取得了良好的效果;b)进行哈萨克语短语句法分析
时将句子跨度作为移进—归约方法中栈中存储的基本单位;
c)使用双向 LSTM神经网络获取句子上下文信息;d)使用动态
规划使得句法分析解码时不需要重排序就可得到最好的句法
分析结果。
第 37卷第 3期
2020年 3月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.37No.3
Mar.2020