【免费】基于知网与词林的词语语义相似度计算_朱新华1

需积分: 0 143 浏览量 2022-08-04 12:37:42 上传评论收藏 663KB PDF 举报

资源详情

资源评论

资源推荐

第

３０

卷

第

４

期

２０１６

年

７

月

中文信息学报

ＪＯＵＲＮＡＬ

ＯＦ

ＣＨＩＮＥＳＥ

ＩＮＦＯＲＭＡＴＩＯＮ

ＰＲＯＣＥＳＳＩＮＧ

Ｖｏｌ．３０

，

Ｎｏ．４

Ｊｕｌ．

，

２０１６

文章编号

：

１００３

－

００７７

（

２０１６

）

０４

－

００２９

－

０８

基于知网与词林的词语语义相似度计算

朱新华

，

马润聪

，

孙柳

，

陈宏朝

（

广西师范大学计算机科学与信息工程学院

，

广西桂林

５４１００４

）

摘

要

：

该文提出了一种综合知网与同义词词林的词语语义相似度计算方法

。

知网部分根据义原层次结构的特

征

，

采用了顶部平缓而底部陡峭的曲线单调递减的边权重策略

，

改进了现有的义原相似度算法

；

词林部分采用以词

语距离为主要因素

、

分支节点数和分支间隔为微调节参数的方法

，

改进了现有的词林词语相似度算法

。

然后再根

据词语的分布情况

，

采用综合考虑知网与同义词林的动态加权策略计算出最终的词语语义相似度

。

该方法充分利

用了词语在知网与词林中的语义信息

，

极大地扩充了可计算词语的范围

，

同时也提高了词语相似度计算的准确率

。

关键词

：

语义相似度

；

知网

；

同义词词林

；

语义距离

中图分类号

：

ＴＰ３９１

文献标识码

：

Ａ

Ｗｏｒｄ

Ｓｅｍａｎｔｉｃ

Ｓｉｍｉｌａｒｉｔ

ｙ

Ｃｏｍ

ｐ

ｕｔａｔｉｏｎ

Ｂａｓｅｄ

ｏｎ

ＨｏｗＮｅｔ

ａｎｄ

ＣｉＬｉｎ

ＺＨＵ

Ｘｉｎｈｕａ

，

ＭＡ

Ｒｕｎｃｏｎ

ｇ

，

ＳＵＮ

Ｌｉｕ

，

ＣＨＥＮ

Ｈｏｎ

ｇ

ｃｈａｏ

（

Ｃｏｌｌｅ

ｇ

ｅ

ｏｆ

Ｃｏｍ

ｐ

ｕｔｅｒ

Ｓｃｉｅｎｃｅ

＆Ｉｎｆｏｒｍａｔｉｏｎ

Ｔｅｃｈｎｏｌｏ

ｇｙ

，

Ｇｕａｎ

ｇ

ｘｉ

Ｎｏｒｍａｌ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｇｕｉｌｉｎ

，

Ｇｕａｎ

ｇ

ｘｉ

５４１００４

，

Ｃｈｉｎａ

）

Ａｂｓｔｒａｃｔ

：

Ａ

ｗｏｒｄ

ｓｅｍａｎｔｉｃ

ｓｉｍｉｌａｒｉｔ

ｙ

ｃｏｍ

ｐ

ｕｔａｔｉｏｎ

ｍｅｔｈｏｄ

ｂａｓｅｄ

ｏｎ

ｔｈｅ

ＨｏｗＮｅｔ

ａｎｄ

ＣｉＬｉｎ

ｉｓ

ｐ

ｒｏ

ｐ

ｏｓｅｄ

ｉｎ

ｔｈｉｓ

ｐ

ａ

ｐ

ｅｒ．

Ｆｉｒｓｔ

，

ａｃｃｏｒｄｉｎ

ｇ

ｔｏ

ｔｈｅ

ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ

ｏｆ

ｓｅｍｅｍｅ

ｈｉｅｒａｒｃｈｉｃａｌ

ｓｔｒｕｃｔｕｒｅ

，

ａｎ

ｅｄ

ｇ

ｅ

ｗｅｉ

ｇ

ｈｔｉｎ

ｇ

ｓｔｒａｔｅ

ｇｙ

ｏｆ

ｍｏｎｏｔｏｎｉｃ

ｄｅ

－

ｃｒｅａｓｉｎ

ｇ

ｃｕｒｖｅ

ｗｉｔｈ

ｆｌａｔ

ｔｏ

ｐ

ａｎｄ

ｓｔｅｅ

ｐ

ｂｏｔｔｏｍ

ｉｓ

ｕｓｅｄ

ｉｎ

ｔｈｅ

ＨｏｗＮｅｔ

ｐ

ａｒｔ．Ｉｎ

ｔｈｅ

ＣｉＬｉｎ

ｐ

ａｒｔ

，

ａ

ｓ

ｐ

ｅｃｉａｌ

ｍｅｔｈｏｄ

ｏｆ

ｔａｋ

－

ｉｎ

ｇ

ｔｈｅ

ｄｉｓｔａｎｃｅ

ｂｅｔｗｅｅｎ

ｗｏｒｄｓ

ａｓ

ｔｈｅ

ｍａｉｎ

ｆａｃｔｏｒ

ａｎｄ

ｔｈｅ

ｂｒａｎｃｈ

ｎｏｄｅ

ｑ

ｕａｎｔｉｔ

ｙ

ａｎｄ

ｂｒａｎｃｈ

ｉｎｔｅｒｖａｌ

ａｓ

ｍｉｃｒｏ－ａｄ

－

ｊ

ｕｓｔａｂｌｅ

ｐ

ａｒａｍｅｔｅｒｓ

ｉｓ

ｕｓｅｄ．Ｔｈｅｎ

，

ａｃｃｏｒｄｉｎ

ｇ

ｔｏ

ｔｈｅ

ｄｉｓｔｒｉｂｕｔｉｏｎ

ｏｆ

ｗｏｒｄｓ

，

ａ

ｄ

ｙ

ｎａｍｉｃ

ｗｅｉ

ｇ

ｈｔｉｎ

ｇ

ｓｔｒａｔｅ

ｇｙ

ｏｆ

ｃｏｎｓｉｄｅｒ

－

ｉｎ

ｇ

ｂｏｔｈ

ＨｏｗＮｅｔ

ａｎｄ

ＣｉＬｉｎ

ｉｓ

ｕｓｅｄ

ｔｏ

ｃａｌｃｕｌａｔｅ

ｔｈｅ

ｆｉｎａｌ

ｓｉｍｉｌａｒｉｔ

ｙ

，

ｗｈｉｃｈ

ｇ

ｒｅａｔｌ

ｙ

ｅｘ

ｐ

ａｎｄｓ

ｔｈｅ

ｃｏｍ

ｐ

ｕｔａｂｌｅ

ｒａｎ

ｇ

ｅ

ｏｆ

ｗｏｒｄｓ

ａｎｄ

ｉｍ

ｐ

ｒｏｖｅｓ

ｔｈｅ

ｃｏｍ

ｐ

ｕｔａｔｉｏｎ

ａｃｃｕｒａｃ

ｙ

ｏｆ

ｗｏｒｄ

ｓｉｍｉｌａｒｉｔ

ｙ

．

Ｋｅ

ｙ

ｗｏｒｄｓ

：

ｓｅｍａｎｔｉｃ

ｓｉｍｉｌａｒｉｔ

ｙ

；

ＨｏｗＮｅｔ

；

ＣｉＬｉｎ

；

ｓｅｍａｎｔｉｃ

ｄｉｓｔａｎｃｅ

收稿日期

：

２０１４

－

０６

－

２５

定稿日期

：

２０１４

－

１０

－

２７

基金项目

：

国家自然科学基金

（

６１３６３０３６

）

１

引言

词语语义相似度的计算在信息检索

、

文本聚类

、

机器翻译

、

词义消歧和智能教学等领域有着广泛的

应用

。

当前词汇语义相似度计算方法大致可分为两

类

：

一类利用大规模语料库进行统计

，

依据词汇上

下文信息的概率分布进行计算

；

另一类基于某种世

界知识来计算

，

通常是基于某个知识完备的语义词

典中的层次结构关系进行计算

［

１

］

。

无论是基于本体

知识还是基于大规模语料库都有自己的优劣

，

具体

要看应用环境才能选出最佳方案

。

基于世界知识的

方法简单有效

，

无需用语料库进行训练

，

也比较直

观

，

易于理解

，

但这种方法得到的结果受人的主观意

识影响较大

，

有时并不能准确反映客观事实

［

２

］

。

基

于语料库的方法比较客观

，

综合反映了词语在句法

、

语义

、

语用等方面的相似性和差异

。

但是

，

这种方法

比较依赖于训练所用的语料库

，

计算量大

，

计算方法

复杂

，

另外

，

受资料稀疏和资料噪声的干扰较大

［

２

］

。

在信息检索和文本聚类中一般用语料库的方法

，

机

器翻译以及智能教学中一般采用基于世界知识的

方法

。

１．１

知网简介

知网是董振东先生花了数十年时间建设的一个

汉语常识库

，

其设计目标是通过汉语词语意义的描

述实现中英文机器翻译

，

目前仍在发展更新中

。《

知

网

》

中与词语意义相关的概念有

：

义原

、

义项

、

语义

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余7页未读，立即下载

评论收藏

内容反馈

生活教会我们

粉丝: 25
资源: 316

基于知网与词林的词语语义相似度计算_朱新华1

评论0

最新资源

基于知网与词林的词语语义相似度计算_朱新华1

评论0

《基于＜知网＞的词汇语义相似度计算》

基于《知网》的词汇语义相似度计算

知网的词汇语义相似度计算1

2017-3基于抽象概念的知网词语相似度计算_朱新华1

贷前调查朱新华.pptx

改进的基于《知网》的词汇语义相似度计算

基于词林的语意相似度计算

基于知网词语相似度的计算C#

基于知网的语义相似度计算软件包

基于2008版《知网》的词语相似度计算方法

基于同义词词林的词语相似度计算方法1

基于同义词词林的词语相似度计算方法

基于Python实现知网与词林的词语语义相似度计算【100012116】

基于词向量的词语相似度计算

基于领域知识和知网的词语义相似度计算

知网语义相似度计算JAVA源码

Java之词义相似度计算（语义识别、词语情感趋势、词林相似度、拼音相似度、概念相似度、字面相似度）

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

现代永磁同步电机控制原理及MATLAB仿真__袁雷编著1

2024最新：Hvv中常见的面试问题

最新资源