4
第一章 词法和句法分析研究进展、现状及趋势
1.任务定义、目标和研究意义
自然语言处理中的自然语言句子级分析技术,可以大致分为词法分析、句法分析、语义
分析三个层面。
第一层面的词法分析(lexical analysis)包括汉语分词和词性标注两部分。和大部分
西方语言不同,汉语书面语词语之间没有明显的空格标记,文本中的句子以字串的形式出现。
因此汉语自然语言处理的首要工作就是要将输入的字串切分为单独的词语,然后在此基础上
进行其他更高级的分析,这一步骤称为分词(word segmentation 或 tokenization)。除了
分词,词性标注也通常认为是词法分析的一部分。给定一个切好词的句子,词性标注的目的
是为每一个词赋予一个类别,这个类别称为词性标记(part-of-speech tag),比如,名词
(noun)、动词(verb)、形容词(adjective)等。一般来说,属于相同词性的词,在句法
中承担类似的角色。
第二个层面的句法分析(syntactic parsing)是对输入的文本句子进行分析以得到句
子的句法结构的处理过程。对句法结构进行分析,一方面是语言理解的自身需求,句法分析
是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统
计机器翻译需要对源语言或目标语言(或者同时两种语言)进行句法分析;语义分析通常以
句法分析的输出结果作为输入以便获得更多的指示信息。
根据句法结构的表示形式不同,最常见的句法分析任务可以分为以下三种:(1) 短语结
构句法分析(phrase-structure syntactic parsing),该任务也被称作成分句法分析
(constituent syntactic parsing),作用是识别出句子中的短语结构以及短语之间的层次
句法关系;(2) 依存句法分析(dependency syntactic parsing),作用是识别句子中词汇
与词汇之间的相互依存关系;(3) 深层文法句法分析,即利用深层文法,例如词汇化树邻接
文法(Lexicalized Tree Adjoining Grammar,LTAG)、词汇功能文法(Lexical Functional
Grammar,LFG)、组合范畴文法(Combinatory Categorial Grammar,CCG)等,对句子进行
深层的句法以及语义分析。
上述几种句法分析任务比较而言,依存句法分析属于浅层句法分析。其实现过程相对简
单,比较适合在多语言环境下的应用,但是依存句法分析所能提供的信息也相对较少。深层
文法句法分析可以提供丰富的句法和语义信息,但是采用的文法相对复杂,分析器的运行复
杂度也较高,这使得深层句法分析当前不适合处理大规模数据。短语结构句法分析介于依存
句法分析和深层文法句法分析之间。
自然语言处理的第三个层面是语义分析(semantic parsing)。语义分析的最终目的是
理解句子表达的真实语义。但是,语义应该采用什么表示形式一直困扰着研究者们,至今这
个问题也没有一个统一的答案。语义角色标注(semantic role labeling)是目前比较成熟
的浅层语义分析技术。基于逻辑表达的语义分析也得到学术界的长期关注。
出于机器学习模型复杂度、效率的考虑,自然语言处理系统通常采用级联的方式,即分
词、词性标注、句法分析、语义分析分别训练模型。实际使用时,给定输入句子,逐一使用
各个模块进行分析,最终得到所有结果。近年来,随着研究工作的深入,研究者们提出了很
多有效的联合模型,将多个任务联合学习和解码,如分词词性联合、词性句法联合、分词词
性句法联合、句法语义联合等。联合模型通常都可以显著提高分析质量,原因在于:联合模
型可以让相互关联的多个任务互相帮助,同时对于任何单任务而言,人工标注的信息也更多
了。然而,联合模型的复杂度更高,速度也更慢。
本章集中讨论第一和第二层面的词法和句法分析技术。
评论0
最新资源