首先,介绍一下什么是自然语言处理(也叫自然语言理解):
语言学家刘涌泉在《大百科全书》(2002)中对自然语言处理的定义为:“自
然语言处理是人工智能领域的主要内容,即利用电子计算机等工具对人类所特有
的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人-
机-人系统,自然语言理解是其核心,其中包括语音和语符的自动识别以及语音
的自动合成。”
从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的
一种映射。
从宏观上看,自然语言理解是指机器能够执行人类所期望的某些语言功能。
这些功能包括:
①回答有关提问;计算机正确地回答用自然语言输入的有关问题
②提取材料摘要;机器能产生输入文本的摘要
③ 同词语叙述;机器能用不同的词语和句型来复述输入的自然语言信息
④ 不同语言翻译。机器能把一种语言翻译成另外一种语言
自然语言处理的关键技术
自然语言处理的关键技术包括:词法分析、句法分析、语义分析、语用分
析和语句分析。
词法分析的主要目的是从句子中切分出单词,找出词汇的各个词素,并确定其词义。
词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前
缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系
统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通
过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过
程。它是中文全文检索技术的重要发展方向。
不同的语言对词法分析有不同的要求,例如英语和汉语就有较大的差距
汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切
分出各个词就非常难。
如”我们研究所有东西“,可以是“我们——研究所——有——东西”也可
是“我们——研究——所有——东西” 。
英语等语言的单词之间是用空格自然分开的,很容易切分一个单词,因而很