基于知网的语义相似度计算软件包资源-CSDN文库

共4个文件

doc：2个

pdf：1个

zip：1个

相似度计算

4星 · 超过85%的资源需积分: 13 86 浏览量 2010-03-22 16:58:58 上传评论 5 收藏 987KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

WordSimilarity.zip （4个子文件）

《基于＜知网＞的词汇语义相似度计算》软件使用手册.doc 70KB

自然语言处理开放资源许可证.doc 24KB

WordSimilarity.zip 787KB

《基于＜知网＞的词汇语义相似度计算》论文.pdf 348KB

基于《知网》的词汇语义相似度计算

Word Similarity Computing Based on How-net

刘群

﹑李素建

Qun LIU , Sujian LI

摘要

词义相似度计算在很多领域中都有广泛的应用，例如信息检索、信息抽取、文

本分类、词义排歧、基于实例的机器翻译等等。词义相似度计算的两种基本方

法是基于世界知识（Ontology）或某种分类体系（Taxonomy）的方法和基于统

计的上下文向量空间模型方法。这两种方法各有优缺点。

《知网》是一部比较详尽的语义知识词典，受到了人们普遍的重视。不过，由

于《知网》中对于一个词的语义采用的是一种多维的知识表示形式，这给词语

相似度的计算带来了麻烦。这一点与 WordNet 和《同义词词林》不同。在

WordNet 和《同义词词林》中，所有同类的语义项（WordNet 的 synset 或《同

义词词林》的词群）构成一个树状结构，要计算语义项之间的距离，只要计算

树状结构中相应结点的距离即可。而在《知网》中词汇语义相似度的计算存在

以下问题：

1. 每一个词的语义描述由多个义原组成；

2. 词语的语义描述中各个义原并不是平等的，它们之间有着复杂的关系，通

过一种专门的知识描述语言来表示。

我们的工作主要包括：

1. 研究《知网》中知识描述语言的语法，了解其描述一个词义所用的多个义

原之间的关系，区分其在词语相似度计算中所起的作用；我们采用一种更

本项研究受国家重点基础研究计划（973）支持，项目编号是 G1998030507-4 和 G1998030510。

北京大学计算语言学研究所 & 中国科学院计算技术研究所 E-mail: liuqun@ict.ac.cn

Institute of Computational Linguistics, Peking University &

Institute of Computing Technology, Chinese Academy of Science

中国科学院计算技术研究所 E-mail: lisujian@ict.ac.cn

Institute of Computing Technology, Chinese Academy of Sciences

刘群﹑李素建

为结构化的方式改写了《知网》中词的定义（DEF），其中采用了“集合”

和“特征结构”这两种抽象数据结构。

2. 研究了义原的相似度计算方法、集合和特征结构的相似度计算方法，并在

此基础上提出了利用《知网》进行词语相似度计算的算法；

3. 通过实验验证该算法的有效性，并与其它算法进行比较。

关键词：《知网》词汇语义相似度计算自然语言处理

Abstract

Word similarity is broadly used in many applications, such as information retrieval,

information extraction, text classification, word sense disambiguation,

example-based machine translation, etc. There are two different methods used to

compute similarity: one is based on ontology or a semantic taxonomy; the other is

based on collocations of words in a corpus.

As a lexical knowledgebase with rich semantic information, How-net has been

employed in various researches. Unlike other thesauri, such as WordNet and

Tongyici Cilin, in which word similarity is defined based on the distance between

words in a semantic taxonomy tree, How-net defines a word in a complicated

multi-dimensional knowledge description language. As a result, a series of

problems arise in the process of word similarity computation using How-net. The

difficulties are outlined below:

1. The description of each word consists of a group of sememes. For example,

the Chinese word “暗箱(camera obscura)” is described as: “part|部件,

#TakePicture|拍摄, %tool|用具, body|身”, and the Chinese word “写信(write

a letter)” is described as: “write|写, ContentProduct=letter|信件”;

2. The meaning of a word is not a simple combination of these sememes.

Sememes are organized using a specific knowledge description language.

To meet these challenges, our work includes:

1. A study on the How-net knowledge description language. We rewrite the

How-net definition of a word in a more structural format, using the abstract

data structure of set and feature structure.

2. A study on the algorithm used to compute word similarity based on How-net.

The similarity between sememes, that between sets, and that between feature

structures are given. To compute the similarity between two sememes, we

基于《知网》的词汇语义相似度计算

use the distance between the sememes in the semantic taxonomy, as is done in

Wordnet and Tongyici Cilin. To compute the similarity between two sets or

two feature structures, we first establish a one-to-one mapping between the

elements of the sets or the feature structures. Then, the similarity between

the sets or feature structures is defined as the weighted average of the

similarity between their elements. For feature structures, a one-to-one

mapping is established according to the attributes. For sets, a one-to-one

mapping is established according to the similarity between their elements.

3. Finally, we give experiment results to show the validity of the algorithm and

compare them with results obtained using other algorithms. Our results for

word similarity agree with people’s intuition to a large extent, and they are

better than the results of two comparative experiments.

Keywords:

How-net, Word Similarity Computing, Natural Language

Processing

1. 引言

自然语言的词语之间有着非常复杂的关系，在实际的应用中，有时需要把这种复杂的关

系用一种简单的数量来度量，而词义相似度就是其中的一种。

词义相似度计算在很多领域中都有广泛的应用，例如信息检索、信息抽取、文本分

类、词义排歧、基于实例的机器翻译等等[Gauch&Chong 1995，LI, Szpakowicz & Matwin

1995，王斌，1999，李涓子，1999]。本文的研究背景是基于实例的机器翻译。在基于实

例的机器翻译中，词语相似度的计算有着重要的作用。例如要翻译“张三写的小说”这

个短语，通过语料库检索得到译例：

1）李四写的小说／the novel written by Li Si

2）去年写的小说／the novel written last year

通过相似度计算我们发现，“张三”和“李四”都是具体的人，语义上非常相似，

而“去年”的语义是时间，和“张三”相似度较低，因此我们选用“李四写的小说”这

个实例进行模拟翻译，就可以得到正确的译文：

the novel written by Zhang San

如果选用后者作为实例，那么得到的错误译文将是：

* the novel written Zhang San

通过这个例子可以看出相似度计算在基于实例的机器翻译中所起的作用。

在基于实例的翻译中另一个重要的工作是双语对齐。在双语对齐过程中要用到两种

语言的词义相似度计算，这不在本文所考虑的范围之内。

刘群﹑李素建

2. 词语相似度及其计算的方法 2. 词语相似度及其计算的方法

2.1 词语相似度的含义 2.1 词语相似度的含义

词语相似度是一个主观性相当强的概念，没有明确的客观标准可以衡量。脱离具体的应

用去谈论词语相似度，很难得到一个统一的定义。

词语相似度是一个主观性相当强的概念，没有明确的客观标准可以衡量。脱离具体的应

用去谈论词语相似度，很难得到一个统一的定义。

本文的研究主要以基于实例的机器翻译为背景，因此在本文中我们所理解的词语相

似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的

程度。两个词语，如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的

可能性越大，二者的相似度就越高，否则相似度就越低。

本文的研究主要以基于实例的机器翻译为背景，因此在本文中我们所理解的词语相

似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的

程度。两个词语，如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的

可能性越大，二者的相似度就越高，否则相似度就越低。

相似度这个概念，涉及到词语的词法、句法、语义甚至语用等方方面面的特点。其

中，对词语相似度影响最大的应该是词的语义。

相似度这个概念，涉及到词语的词法、句法、语义甚至语用等方方面面的特点。其

中，对词语相似度影响最大的应该是词的语义。

在本文中，相似度被定义为一个 0 到 1 之间的实数。在本文中，相似度被定义为一个 0 到 1 之间的实数。

词语距离与词语相似度之间有着密切的关系。实际上，词语距离和词语相似度是一

对词语的相同关系特征的不同表现形式，二者之间可以建立一种简单的对应关系。对于

两个词语 W

和 W

，我们记其相似度为 Sim(W

)，其词语距离为 Dis(W

)，那么我

们可以定义一个满足以上条件的简单转换关系：

词语距离与词语相似度之间有着密切的关系。实际上，词语距离和词语相似度是一

对词语的相同关系特征的不同表现形式，二者之间可以建立一种简单的对应关系。对于

两个词语 W

和 W

，我们记其相似度为 Sim(W

)，其词语距离为 Dis(W

)，那么我

们可以定义一个满足以上条件的简单转换关系：

……(1)

),(

WWDis

WWSim

其中

是一个可调节的参数。

的含义是：当相似度为 0.5 时的词语距离值。其中

是一个可调节的参数。

的含义是：当相似度为 0.5 时的词语距离值。

这种转换关系并不是唯一的，我们这里只是给出了其中的一种可能。这种转换关系并不是唯一的，我们这里只是给出了其中的一种可能。

在很多情况下，直接计算词语的相似度比较困难，通常可以先计算词语的距离，然

后再转换成词语的相似度。

在很多情况下，直接计算词语的相似度比较困难，通常可以先计算词语的距离，然

后再转换成词语的相似度。

词语相关性反映的是两个词语互相关联的程度。可以用这两个词语在同一个语境中

共现的可能性来衡量。词语相关性和词语相似性是两个不同的概念，二者没有直接的对

应关系。

词语相关性反映的是两个词语互相关联的程度。可以用这两个词语在同一个语境中

共现的可能性来衡量。词语相关性和词语相似性是两个不同的概念，二者没有直接的对

应关系。

2.2 词语相似度的计算方法 2.2 词语相似度的计算方法

词语距离有两类常见的计算方法，一种是根据某种世界知识（Ontology）或分类体系

（Taxonomy）来计算，一种利用大规模的语料库进行统计。

词语距离有两类常见的计算方法，一种是根据某种世界知识（Ontology）或分类体系

（Taxonomy）来计算，一种利用大规模的语料库进行统计。

根据世界知识（Ontology）或分类体系（Taxonomy）计算词语语义距离的方法，一

般是利用一部同义词词典（Thesaurus）。一般同义词词典都是将所有的词组织在一棵或

几棵树状的层次结构中。我们知道，在一棵树状图中，任何两个结点之间有且只有一条

路径。于是，这条路径的长度就可以作为这两个概念的语义距离的一种度量。

根据世界知识（Ontology）或分类体系（Taxonomy）计算词语语义距离的方法，一

般是利用一部同义词词典（Thesaurus）。一般同义词词典都是将所有的词组织在一棵或

几棵树状的层次结构中。我们知道，在一棵树状图中，任何两个结点之间有且只有一条

路径。于是，这条路径的长度就可以作为这两个概念的语义距离的一种度量。

基于《知网》的词汇语义相似度计算

01 02…01...01 01 … 01 …… ...

01 02... 01 ... 01 … 01 …… …

01 02... 01… 01… …… 01

a b

……

A B L

虚线用于标识某上层结点到下层结点的路径

图

《同义词词林》语义分类树状图

[王斌，1999]采用这种方法利用《同义词词林》来计算汉语词语之间的相似度（如

图 1 所示）。有些研究者考虑的情况更复杂。[Agirre & Rigau 1995]在利用 Wordnet 计算

词语的语义相似度时，除了结点间的路径长度外，还考虑到了其它一些因素。例如：

概念层次树的深度：路径长度相同的两个结点，如果位于概念层次的越高层，其语

义距离较大；比如说：“动物”和“植物”、“哺乳动物”和“爬行动物”，这两对概

念间的路径长度都是 2，但前一对词处于语义树的较高层，因此认为其语义距离较大，

后一对词处于语义树的较低层，其语义距离较小；

概念层次树的区域密度：路径长度相同的两对结点，如果一对位于概念层次树中低

密度区域，另一对位于高密度区域，那么前者的语义距离应大于后者。引入区域密度的

原因在于，有些概念层次树中概念描述的粗细程度不均，例如在 Wordnet 中，动植物分

类的描述极其详尽，而有些区域的概念描述又比较粗疏，这会导致语义距离计算的不合

理。

另一种词语相似度的计算方法是用大规模的语料来统计。例如，利用词语的相关性

来计算词语的相似度。事先选择一组特征词，然后计算这一组特征词与每一个词的相关

性（一般用这组特征词在实际的大规模语料中在该词的上下文中出现的频率来度量），

于是，对于每一个词都可以得到一个相关性的特征词向量，然后利用这些向量之间的相

似度（一般用向量的夹角余弦来计算）作为这两个词的相似度。这种做法的假设是，凡

是语义相近的词，他们的上下文也应该相似。[李涓子，1999]利用这种思想来实现语义

的自动排歧；[鲁松，2001]研究了如何利用词语的相关性来计算词语的相似度。[Dagan et

al. 1995,1999]使用了更为复杂的概率模型来计算词语的距离。

这两种方法各有特点。基于世界知识的方法简单有效，无需用语料库进行训练，也

比较直观，易于理解，但这种方法得到的结果受人的主观意识影响较大，有时并不能准

评论收藏

内容反馈

it骚客

2016-09-29

It just soso, but thank you all the same.
zhouqi2014

2014-12-07

没有源代码啊，不过整体不错
zclcherry

2012-04-27

挺好的软件，不过只有执行程序，没有源码，谢谢
雪山复出了

2012-09-28

不错！就是没有源码。。
xueerfeifei

2013-02-25

可以直接计算词语相似度，但是处理很多文件间的好像不行。

前往

页

hwzxaww

粉丝: 0
资源: 1

基于知网的语义相似度计算软件包

C#编写的基于知网HowNet的词语相似度计算

基于词林和知网的词语相似度计算python源代码--最新算法

知网语义相似度计算JAVA源码

C#实现计算两个特征词相似度

hownet c#词语相似度

水和蒸汽性质计算软件包V5.5

水和蒸汽性质计算软件包.rar

基于Matlab的径向基函数数值计算软件包.pdf

研究论文-浮筏系统非线性冲击动响应计算软件包.pdf

matpower最优潮流计算软件包

电力系统仿真计算软件包_包括潮流计算_最优潮流计算等_matlab

标准节流装置计算机辅助计算软件包.pdf

工业锅炉CAD计算软件包的开发.pdf

大飞机气动力部件计算软件包的研制与开发初探

likert, 分析基于likert的项目的软件包.zip

PCTRAN是基于PC的核能仿真软件包尤其针对核电站运行和事故反应_.docx

WASPCN.rar_Excel xll加载宏_WASPCN_waspcn.xll_水和蒸汽性质计算软件包_蒸汽 excel

云计算-建筑虹吸雨水排除系统计算软件包的研究与开发.pdf

第一性原理计算软件包在GPU集群上的加速.pdf

带式输送机选型计算系列软件包.rar

基于STC单片机的虚拟IIC软件包

基于Matlab GUI的插值软件包

起重机设计计算复核校验软件包V4.6

Des算法计算和演示软件包与使用手册

python大作业 含爬虫、数据可视化、地图、报告、及源码（整和为一个文件）（2014-2020全国各地区原油加工量）.rar

仿真电路以及操作方法

【纯干货啊】华为IPD流程管理(完整版).pptx

可编程语言标准IEC61131-3中文版.pdf

OFDM完整仿真过程与教程.zip

最新资源

python大作业含爬虫、数据可视化、地图、报告、及源码（整和为一个文件）（2014-2020全国各地区原油加工量）.rar