基于《知网》的词汇语义相似度计算
1
Word Similarity Computing Based on How-net
刘群
*
﹑李素建
+
Qun LIU , Sujian LI
摘要
词义相似度计算在很多领域中都有广泛的应用,例如信息检索、信息抽取、文
本分类、词义排歧、基于实例的机器翻译等等。词义相似度计算的两种基本方
法是基于世界知识(Ontology)或某种分类体系(Taxonomy)的方法和基于统
计的上下文向量空间模型方法。这两种方法各有优缺点。
《知网》是一部比较详尽的语义知识词典,受到了人们普遍的重视。不过,由
于《知网》中对于一个词的语义采用的是一种多维的知识表示形式,这给词语
相似度的计算带来了麻烦。这一点与 WordNet 和《同义词词林》不同。在
WordNet 和《同义词词林》中,所有同类的语义项(WordNet 的 synset 或《同
义词词林》的词群)构成一个树状结构,要计算语义项之间的距离,只要计算
树状结构中相应结点的距离即可。而在《知网》中词汇语义相似度的计算存在
以下问题:
1. 每一个词的语义描述由多个义原组成;
2. 词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通
过一种专门的知识描述语言来表示。
我们的工作主要包括:
1. 研究《知网》中知识描述语言的语法,了解其描述一个词义所用的多个义
原之间的关系,区分其在词语相似度计算中所起的作用;我们采用一种更
1
本项研究受国家重点基础研究计划(973)支持,项目编号是 G1998030507-4 和 G1998030510。
*
北京大学计算语言学研究所 & 中国科学院计算技术研究所 E-mail: liuqun@ict.ac.cn
Institute of Computational Linguistics, Peking University &
Institute of Computing Technology, Chinese Academy of Science
+
中国科学院计算技术研究所 E-mail: lisujian@ict.ac.cn
Institute of Computing Technology, Chinese Academy of Sciences
2
刘群﹑李素建
为结构化的方式改写了《知网》中词的定义(DEF),其中采用了“集合”
和“特征结构”这两种抽象数据结构。
2. 研究了义原的相似度计算方法、集合和特征结构的相似度计算方法,并在
此基础上提出了利用《知网》进行词语相似度计算的算法;
3. 通过实验验证该算法的有效性,并与其它算法进行比较。
关键词:《知网》 词汇语义相似度计算 自然语言处理
Abstract
Word similarity is broadly used in many applications, such as information retrieval,
information extraction, text classification, word sense disambiguation,
example-based machine translation, etc. There are two different methods used to
compute similarity: one is based on ontology or a semantic taxonomy; the other is
based on collocations of words in a corpus.
As a lexical knowledgebase with rich semantic information, How-net has been
employed in various researches. Unlike other thesauri, such as WordNet and
Tongyici Cilin, in which word similarity is defined based on the distance between
words in a semantic taxonomy tree, How-net defines a word in a complicated
multi-dimensional knowledge description language. As a result, a series of
problems arise in the process of word similarity computation using How-net. The
difficulties are outlined below:
1. The description of each word consists of a group of sememes. For example,
the Chinese word “暗箱(camera obscura)” is described as: “part|部件,
#TakePicture|拍摄, %tool|用具, body|身”, and the Chinese word “写信(write
a letter)” is described as: “write|写, ContentProduct=letter|信件”;
2. The meaning of a word is not a simple combination of these sememes.
Sememes are organized using a specific knowledge description language.
To meet these challenges, our work includes:
1. A study on the How-net knowledge description language. We rewrite the
How-net definition of a word in a more structural format, using the abstract
data structure of set and feature structure.
2. A study on the algorithm used to compute word similarity based on How-net.
The similarity between sememes, that between sets, and that between feature
structures are given. To compute the similarity between two sememes, we
基于《知网》的词汇语义相似度计算
3
use the distance between the sememes in the semantic taxonomy, as is done in
Wordnet and Tongyici Cilin. To compute the similarity between two sets or
two feature structures, we first establish a one-to-one mapping between the
elements of the sets or the feature structures. Then, the similarity between
the sets or feature structures is defined as the weighted average of the
similarity between their elements. For feature structures, a one-to-one
mapping is established according to the attributes. For sets, a one-to-one
mapping is established according to the similarity between their elements.
3. Finally, we give experiment results to show the validity of the algorithm and
compare them with results obtained using other algorithms. Our results for
word similarity agree with people’s intuition to a large extent, and they are
better than the results of two comparative experiments.
Keywords:
How-net, Word Similarity Computing, Natural Language
Processing
1. 引言
自然语言的词语之间有着非常复杂的关系,在实际的应用中,有时需要把这种复杂的关
系用一种简单的数量来度量,而词义相似度就是其中的一种。
词义相似度计算在很多领域中都有广泛的应用,例如信息检索、信息抽取、文本分
类、词义排歧、基于实例的机器翻译等等[Gauch&Chong 1995,LI, Szpakowicz & Matwin
1995,王斌,1999,李涓子,1999]。本文的研究背景是基于实例的机器翻译。在基于实
例的机器翻译中,词语相似度的计算有着重要的作用。例如要翻译“张三写的小说”这
个短语,通过语料库检索得到译例:
1)李四写的小说/the novel written by Li Si
2)去年写的小说/the novel written last year
通过相似度计算我们发现,“张三”和“李四”都是具体的人,语义上非常相似,
而“去年”的语义是时间,和“张三”相似度较低,因此我们选用“李四写的小说”这
个实例进行模拟翻译,就可以得到正确的译文:
the novel written by Zhang San
如果选用后者作为实例,那么得到的错误译文将是:
* the novel written Zhang San
通过这个例子可以看出相似度计算在基于实例的机器翻译中所起的作用。
在基于实例的翻译中另一个重要的工作是双语对齐。在双语对齐过程中要用到两种
语言的词义相似度计算,这不在本文所考虑的范围之内。
4
刘群﹑李素建
2. 词语相似度及其计算的方法 2. 词语相似度及其计算的方法
2.1 词语相似度的含义 2.1 词语相似度的含义
词语相似度是一个主观性相当强的概念,没有明确的客观标准可以衡量。脱离具体的应
用去谈论词语相似度,很难得到一个统一的定义。
词语相似度是一个主观性相当强的概念,没有明确的客观标准可以衡量。脱离具体的应
用去谈论词语相似度,很难得到一个统一的定义。
本文的研究主要以基于实例的机器翻译为背景,因此在本文中我们所理解的词语相
似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的
程度。两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的
可能性越大,二者的相似度就越高,否则相似度就越低。
本文的研究主要以基于实例的机器翻译为背景,因此在本文中我们所理解的词语相
似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的
程度。两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的
可能性越大,二者的相似度就越高,否则相似度就越低。
相似度这个概念,涉及到词语的词法、句法、语义甚至语用等方方面面的特点。其
中,对词语相似度影响最大的应该是词的语义。
相似度这个概念,涉及到词语的词法、句法、语义甚至语用等方方面面的特点。其
中,对词语相似度影响最大的应该是词的语义。
在本文中,相似度被定义为一个 0 到 1 之间的实数。 在本文中,相似度被定义为一个 0 到 1 之间的实数。
词语距离与词语相似度之间有着密切的关系。实际上,词语距离和词语相似度是一
对词语的相同关系特征的不同表现形式,二者之间可以建立一种简单的对应关系。对于
两个词语 W
1
和 W
2
,我们记其相似度为 Sim(W
1
,W
2
),其词语距离为 Dis(W
1
,W
2
),那么我
们可以定义一个满足以上条件的简单转换关系:
词语距离与词语相似度之间有着密切的关系。实际上,词语距离和词语相似度是一
对词语的相同关系特征的不同表现形式,二者之间可以建立一种简单的对应关系。对于
两个词语 W
1
和 W
2
,我们记其相似度为 Sim(W
1
,W
2
),其词语距离为 Dis(W
1
,W
2
),那么我
们可以定义一个满足以上条件的简单转换关系:
α
……(1)
α
+
=
),(
),(
21
21
WWDis
WWSim
其中
α
是一个可调节的参数。
α
的含义是:当相似度为 0.5 时的词语距离值。 其中
α
是一个可调节的参数。
α
的含义是:当相似度为 0.5 时的词语距离值。
这种转换关系并不是唯一的,我们这里只是给出了其中的一种可能。 这种转换关系并不是唯一的,我们这里只是给出了其中的一种可能。
在很多情况下,直接计算词语的相似度比较困难,通常可以先计算词语的距离,然
后再转换成词语的相似度。
在很多情况下,直接计算词语的相似度比较困难,通常可以先计算词语的距离,然
后再转换成词语的相似度。
词语相关性反映的是两个词语互相关联的程度。可以用这两个词语在同一个语境中
共现的可能性来衡量。词语相关性和词语相似性是两个不同的概念,二者没有直接的对
应关系。
词语相关性反映的是两个词语互相关联的程度。可以用这两个词语在同一个语境中
共现的可能性来衡量。词语相关性和词语相似性是两个不同的概念,二者没有直接的对
应关系。
2.2 词语相似度的计算方法 2.2 词语相似度的计算方法
词语距离有两类常见的计算方法,一种是根据某种世界知识(Ontology)或分类体系
(Taxonomy)来计算,一种利用大规模的语料库进行统计。
词语距离有两类常见的计算方法,一种是根据某种世界知识(Ontology)或分类体系
(Taxonomy)来计算,一种利用大规模的语料库进行统计。
根据世界知识(Ontology)或分类体系(Taxonomy)计算词语语义距离的方法,一
般是利用一部同义词词典(Thesaurus)。一般同义词词典都是将所有的词组织在一棵或
几棵树状的层次结构中。我们知道,在一棵树状图中,任何两个结点之间有且只有一条
路径。于是,这条路径的长度就可以作为这两个概念的语义距离的一种度量。
根据世界知识(Ontology)或分类体系(Taxonomy)计算词语语义距离的方法,一
般是利用一部同义词词典(Thesaurus)。一般同义词词典都是将所有的词组织在一棵或
几棵树状的层次结构中。我们知道,在一棵树状图中,任何两个结点之间有且只有一条
路径。于是,这条路径的长度就可以作为这两个概念的语义距离的一种度量。
基于《知网》的词汇语义相似度计算
5
01 02…01...01 01 … 01 …… ...
01 02... 01 ... 01 … 01 …… …
01 02... 01… 01… …… 01
a b
……
l
a
A B L
O
虚线用于标识某上层结点到下层结点的路径
图
1
《同义词词林》语义分类树状图
[王斌,1999]采用这种方法利用《同义词词林》来计算汉语词语之间的相似度(如
图 1 所示)。有些研究者考虑的情况更复杂。[Agirre & Rigau 1995]在利用 Wordnet 计算
词语的语义相似度时,除了结点间的路径长度外,还考虑到了其它一些因素。例如:
概念层次树的深度:路径长度相同的两个结点,如果位于概念层次的越高层,其语
义距离较大;比如说:“动物”和“植物”、“哺乳动物”和“爬行动物”,这两对概
念间的路径长度都是 2,但前一对词处于语义树的较高层,因此认为其语义距离较大,
后一对词处于语义树的较低层,其语义距离较小;
概念层次树的区域密度:路径长度相同的两对结点,如果一对位于概念层次树中低
密度区域,另一对位于高密度区域,那么前者的语义距离应大于后者。引入区域密度的
原因在于,有些概念层次树中概念描述的粗细程度不均,例如在 Wordnet 中,动植物分
类的描述极其详尽,而有些区域的概念描述又比较粗疏,这会导致语义距离计算的不合
理。
另一种词语相似度的计算方法是用大规模的语料来统计。例如,利用词语的相关性
来计算词语的相似度。事先选择一组特征词,然后计算这一组特征词与每一个词的相关
性(一般用这组特征词在实际的大规模语料中在该词的上下文中出现的频率来度量),
于是,对于每一个词都可以得到一个相关性的特征词向量,然后利用这些向量之间的相
似度(一般用向量的夹角余弦来计算)作为这两个词的相似度。这种做法的假设是,凡
是语义相近的词,他们的上下文也应该相似。[李涓子,1999]利用这种思想来实现语义
的自动排歧;[鲁松,2001]研究了如何利用词语的相关性来计算词语的相似度。[Dagan et
al. 1995,1999]使用了更为复杂的概率模型来计算词语的距离。
这两种方法各有特点。基于世界知识的方法简单有效,无需用语料库进行训练,也
比较直观,易于理解,但这种方法得到的结果受人的主观意识影响较大,有时并不能准
- 1
- 2
- 3
- 4
- 5
- 6
前往页