没有合适的资源?快使用搜索试试~ 我知道了~
基于知网与词林的词语语义相似度计算_朱新华1
需积分: 0 0 下载量 143 浏览量
2022-08-04
12:37:42
上传
评论
收藏 663KB PDF 举报
温馨提示
试读
8页
摘要:该文提出了一种综合知网与同义词词林的词语语义相似度计算方法。知网部分根据义原层次结构的特征,采用了顶部平缓而底部陡峭的曲线单调递减的边权重策略,改进了现有
资源详情
资源评论
资源推荐
第
30
卷
第
4
期
2016
年
7
月
中文信息学报
JOURNAL
OF
CHINESE
INFORMATION
PROCESSING
Vol.30
,
No.4
Jul.
,
2016
文章编号
:
1003
-
0077
(
2016
)
04
-
0029
-
08
基于知网与词林的词语语义相似度计算
朱新华
,
马润聪
,
孙 柳
,
陈宏朝
(
广西师范大学 计算机科学与信息工程学院
,
广西 桂林
541004
)
摘
要
:
该文提出了一种综合知网与同义词词林的词语语义相似度计算方法
。
知网部分根据义原层次结构的特
征
,
采用了顶部平缓而底部陡峭的曲线单调递减的边权重策略
,
改进了现有的义原相似度算法
;
词林部分采用以词
语距离为主要因素
、
分支节点数和分支间隔为微调节参数的方法
,
改进了现有的词林词语相似度算法
。
然后再根
据词语的分布情况
,
采用综合考虑知网与同义词林的动态加权策略计算出最终的词语语义相似度
。
该方法充分利
用了词语在知网与词林中的语义信息
,
极大地扩充了可计算词语的范围
,
同时也提高了词语相似度计算的准确率
。
关键词
:
语义相似度
;
知网
;
同义词词林
;
语义距离
中图分类号
:
TP391
文献标识码
:
A
Word
Semantic
Similarit
y
Com
p
utation
Based
on
HowNet
and
CiLin
ZHU
Xinhua
,
MA
Runcon
g
,
SUN
Liu
,
CHEN
Hon
g
chao
(
Colle
g
e
of
Com
p
uter
Science
&Information
Technolo
gy
,
Guan
g
xi
Normal
Universit
y
,
Guilin
,
Guan
g
xi
541004
,
China
)
Abstract
:
A
word
semantic
similarit
y
com
p
utation
method
based
on
the
HowNet
and
CiLin
is
p
ro
p
osed
in
this
p
a
p
er.
First
,
accordin
g
to
the
characteristics
of
sememe
hierarchical
structure
,
an
ed
g
e
wei
g
htin
g
strate
gy
of
monotonic
de
-
creasin
g
curve
with
flat
to
p
and
stee
p
bottom
is
used
in
the
HowNet
p
art.In
the
CiLin
p
art
,
a
s
p
ecial
method
of
tak
-
in
g
the
distance
between
words
as
the
main
factor
and
the
branch
node
q
uantit
y
and
branch
interval
as
micro-ad
-
j
ustable
p
arameters
is
used.Then
,
accordin
g
to
the
distribution
of
words
,
a
d
y
namic
wei
g
htin
g
strate
gy
of
consider
-
in
g
both
HowNet
and
CiLin
is
used
to
calculate
the
final
similarit
y
,
which
g
reatl
y
ex
p
ands
the
com
p
utable
ran
g
e
of
words
and
im
p
roves
the
com
p
utation
accurac
y
of
word
similarit
y
.
Ke
y
words
:
semantic
similarit
y
;
HowNet
;
CiLin
;
semantic
distance
收稿日期
:
2014
-
06
-
25
定稿日期
:
2014
-
10
-
27
基金项目
:
国家自然科学基金
(
61363036
)
1
引言
词语语义相似度的计算在信息检索
、
文本聚类
、
机器翻译
、
词义消歧和智能教学等领域有着广泛的
应用
。
当前词汇语义相似度计算方法大致可分为两
类
:
一类利用大规模语料库进行统计
,
依据词汇上
下文信息的概率分布进行计算
;
另一类基于某种世
界知识来计算
,
通常是基于某个知识完备的语义词
典中的层次结构关系进行计算
[
1
]
。
无论是基于本体
知识还是基于大规模语料库都有自己的优劣
,
具体
要看应用环境才能选出最佳方案
。
基于世界知识的
方法简单有效
,
无需用语料库进行训练
,
也比较 直
观
,
易于理解
,
但这种方法得到的结果受人的主观意
识影响较大
,
有时并不能准确反映客观事实
[
2
]
。
基
于语料库的方法比较客观
,
综合反映了词语在句法
、
语义
、
语用等方面的相似性和差异
。
但是
,
这种方法
比较依赖于训练所用的语料库
,
计算量大
,
计算方法
复杂
,
另外
,
受资料稀疏和资料噪声的干扰较大
[
2
]
。
在信息检索和文本聚类中一般用语料库的方法
,
机
器翻译以及智能教学中一般采用基于世界知识的
方法
。
1.1
知网简介
知网是董振东先生花了数十年时间建设的一个
汉语常识库
,
其设计目标是通过汉语词语意义的描
述实现中英文机器翻译
,
目前仍在发展更新中
。《
知
网
》
中与词语意义相关的概念有
:
义原
、
义项
、
语义
生活教会我们
- 粉丝: 25
- 资源: 316
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0