没有合适的资源?快使用搜索试试~ 我知道了~
无监督词义消歧研究1
需积分: 0 1 下载量 25 浏览量
2022-08-04
11:54:25
上传
评论
收藏 803KB PDF 举报
温馨提示
试读
15页
摘要:研究的目的是对现有的无监督词义消歧技术进行总结,以期为进一步的研究指明方向.首先,介绍了无监督词义消歧研究的意义.然后,重点总结分析了国内外各类无监督词义
资源详情
资源评论
资源推荐
ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software, Vol.20, No.8, August 2009, pp.2138−2152 http://www.jos.org.cn
doi: 10.3724/SP.J.1001.2009.03566 Tel/Fax: +86-10-62562563
© by Institute of Software, the Chinese Academy of Sciences. All rights reserved.
无监督词义消歧研究
∗
王瑞琴
1,2+
,
孔繁胜
1
1
(浙江大学 人工智能研究所,浙江 杭州 310027)
2
(温州大学物理与电子信息工程学院,浙江 温州 325035)
Research on Unsupervised Word Sense Disambiguation
WANG Rui-Qin
1,2+
, KONG Fan-Sheng
1
1
(Artificial Intelligence Institute, Zhejiang University, Hangzhou 310027, China)
2
(College of Physics & Electronic Information Engineering, Wenzhou University, Wenzhou 325035, China)
+ Corresponding author: E-mail: angelwrq@163.com
Wang RQ, Kong FS. Research on unsupervised word sense disambiguation. Journal of Software, 2009,20(8):
2138−2152. http://www.jos.org.cn/1000-9825/3566.htm
Abstract: The goal of this paper is to give a brief summary of the current unsupervised word sense
disambiguation techniques in order to facilitate future research. First of all, the significance of unsupervised word
sense disambiguation study is introduced. Then, key techniques of various unsupervised word sense disambiguation
studies at home and abroad are reviewed, including data sources, disambiguation methods, evaluation system and
the achieved performance. Finally, 14 novel unsupervised word sense disambiguation methods are summarized, and
the existing research and possible direction for the development of unsupervised word sense disambiguation study
are pointed out.
Key words: word sense disambiguation; unsupervised word sense disambiguation; natural language processing;
semantic understanding
摘 要: 研究的目的是对现有的无监督词义消歧技术进行总结,以期为进一步的研究指明方向.首先,介绍了无监
督词义消歧研究的意义.然后,重点总结分析了国内外各类无监督词义消歧研究中的各项关键技术,包括使用的数据
源、采用的消歧方法、评价体系以及达到的消歧效果等方面.最后,对 14 个较有特色的无监督词义消歧方法进行了
总结,并指出无监督词义消歧的现有研究成果和可能的发展方向.
关键词: 词义消歧;无监督词义消歧;自然语言处理;语义理解
中图法分类号: TP391 文献标识码: A
∗ Supported by the Zhejiang Provincial Natural Science Foundation of China under Grant No.Y1080372 (浙江省自然科学基金)
Received 2008-07-06; Accepted 2009-01-14
王瑞琴 等:无监督词义消歧研究
2139
1 词义消歧(word sense disambiguation)的基础知识及研究意义
1.1 词义消歧的定义
词汇的歧义性是自然语言的固有特征.词义消歧根据一个多义词在文本中出现的上下文环境来确定其词
义,作为各项自然语言处理的基础步骤和必经阶段被提出来.所谓的词义消歧是指根据一个多义词在文本中出
现的上下文环境来确定其词义.形式化地,令词语 w 具有 n 个词义,w 在特定的上下文环境 C 里只有 S′是正确的
词义,词义消歧的任务就是在这 n 个词义中确定词义 S′.每个词义 S
K
和上下文 C 都存在或强或弱的联系,记为
R(S
K
,C),其中 S′与上下文 C 的关系应当是最强的.词义消歧技术通过分析和计算 W 出现的上下文 C 和每个词义
S
K
之间的关系 R,排除干扰词义,最后确定 S′.整个过程可用下面的公式来描述:
argmax ( , )
K
S' R S C
=
(1)
上下文中的某些词语限定了多义词的词义,正是这些词的存在,可以帮助人们迅速地去推理和判断,最终得
到答案.自动词义消岐研究的是机器模拟人类思维的过程,在上下文中收集重要的语义信息,提取特征词语来指
导对多义词的歧义消解.词义消歧问题曾一度被认为是一个计算机无法攻克的难题
[1]
,致使从那以后的一段时
间里,研究人员逐渐放弃了对词义消歧的研究.但随着计算技术的飞速发展,超大容量的存储设备和具有强大计
算能力的多核处理器相继出现,包括词义消歧在内的自然语言处理领域的各种问题研究一一复苏,并进入了崭
新的发展阶段,词义消歧逐渐成为计算语言学和自然语言处理领域中的一个重要研究课题,也是近些年来该领
域的热点研究问题之一.
1.2 词义消歧的分类
每个分类问题都会根据分类依据的不同而得到不同的分类结果,词义消歧也不例外.根据消歧知识来源的
不同,词义消歧方法可分为基于知识的方法和基于统计的方法,基于知识的消歧一般又细分为基于规则的方法
和基于词典的方法.基于知识库的消歧方法主要是依赖语言学专家的语言知识构造知识库,通过分析多义词所
在的上下文,选择满足一定规则的义项.知识库的类型包括专家规则库、词典、本体、知识库等.基于统计的方
法则以大型语料库为知识源,从标注或未标注词义的语料中学习各种不同的消歧特征,进而用于词义消歧.
按照消歧过程有无指导,词义消歧分为有导消歧和无导消歧.前者利用已标注了词义的大型语料库来提取
特定词义的特征属性,利用机器学习方法生成分类器或分类规则对新实例进行词义判定;后者则从原始的数据
文集或机器可读字典中获取词义的相关特征,对新实例进行词义判定.所以,有指导的词义消歧常被看作词义分
类问题,无指导词义消歧被看作聚类问题.
按照消歧结果的评价体系,词义消歧分为独立型评估和应用型评估.独立型评估是指不依赖于应用领域,使
用一组标准的测试集,独立评价词义消歧性能.应用型评估不单独地评价词义消歧的效果,而是考察其对实际自
然语言处理系统最终目标的贡献,比如,词义消歧在机器翻译系统中对翻译性能的影响、在信息检索中对搜索
性能的改善情况等等.
1.3 词义消歧研究的意义
词义消歧是对词的处理,属于自然语言理解的底层研究,在许多高层次的研究和应用上,词义消歧都大有用
武之地.词义消歧并不是自然语言处理的最终目的,而是自然语言处理中不可缺少的一个环节,歧义问题的解决
将会带动至少下列自然语言处理领域的新进展:
• 机器翻译:在机器翻译中,要让计算机进行准确的译文选择,一个重要的前提条件就是能够在某个特定
上下文中自动排除歧义,确定多义词的词义.所以,词义消歧从 50 年代初期开始机器翻译研究起就一直
备受计算语言学家的关注.
• 信息检索:一个拼写正确的词汇通常包含许多词义,在特定的查询上下文中,很多词义是不相关的.在一
个特定的查询中,用户只对其中一个词义感兴趣,因此只需检索和那个词义相关的文档,而当前基于关键
字的搜索引擎就面临检索包含相关词义文档而过滤掉无关词义文档的大难题.据统计,在信息检索中引
2140
Journal of Software 软件学报 Vol.20, No.8, August 2009
入部分多义词消歧技术以后,可使其整个系统的正确率由 29%提高到 34.2%,取得较为明显的改善.
• 主题内容分析和文本处理:如文本分类、信息抽取、自动文摘和辅助写作等文本处理任务,只有对文本
中的多义词进行消歧,明确单词所表示的概念,才能正确分析文本及句子的概念和主题.
• 语音处理和文语转换:这类任务往往同时涉及语音和文字的处理,语音识别中同音字的识别、语音合成
中语音的校正以及文字的处理都离不开词义消歧.
• 语法分析或句法分析:帮助解决语法的歧义问题,降低语法分析难度,改善语法分析效果.
总之,词义消歧是计算语言学和自然语言处理领域的基础研究课题,提高词义消歧的研究水平,提供高质量
的词义消歧技术,对包括机器翻译、信息检索、文本分类等在内的众多研究领域都会有重要的推动作用.
2 无监督词义消歧方法概述
无监督词义消歧按照消歧数据源的不同分为基于知识的方法和基于统计的方法两大类.本节将分门别类
地讨论当前国内外各类主流的无监督词义消歧方法,从消歧过程中使用的数据源、采用的消歧技术、评估体系
和消歧效果 4 个方面进行阐述,研究各类消歧方法使用的关键技术及其消歧性能,指出各自的优缺点及改进方
案,特别地,对那些具有代表性的消歧算法将进行详细论述.
2.1 基于知识的无监督词义消岐
基于知识的无导词义消岐进一步被划分为基于规则的方法和基于词典的方法.早期人们所使用的词义消
歧知识一般是凭人手工编制的规则,由于手工编写规则费时、费力,存在严重的知识获取的瓶颈问题,20 世纪 80
年代以后,语言学家提供的各类词典成为人们获取词义消歧知识的一个重要知识源.
2.1.1 基于机读词典的词义消歧
机读词典提供了有关词汇用法及词义描述的丰富知识,是早期词义消歧的主要知识来源.最早利用机器可
读字典实现无监督词义消歧的研究始于 1986 年的 Lesk 方法
[2]
.Lesk 利用词典中词义的解释或定义来指导多义
词在上下文中的词义判定.该方法简单易行,只需计算多义词的各个词义在词典中的定义与多义词上下文词语
的定义之间的词汇重叠度,选择重叠度最大的词义作为其正确的词义即可.Lesk 分别用 3 个机器可读词典
(Webster’s 7th Collegiate,Collins English Dictionary 和 Oxford Advanced Learner’s Dictionary of Current English)
对一组多义词实例进行了词义消歧测试,正确率在 50%~70%之间.随着 Lesk 方法的提出,无监督词义消歧逐渐
流行起来.研究者对 Lesk 方法进行了各种改良,总体思想是进一步扩展词义的定义描述,使得词汇重叠的几率增
加.Wilks
[3]
对 Longman 字典(Longman Dictionary of Contemporary English,简称 LDOCE)中每个词义的定义添加
了与其定义词汇同现频率较高的其他词汇(同现频率的高低使用该词典的所有定义条目统计得到),如此将词典
中的所有定义进行了扩展之后,大大提高了定义词汇重叠的概率.Pook 等人
[4]
提出一种改进方案,对上下义词语
进行同义词扩展,从而扩大了上下文窗口的大小.实验结果表明此方法可以增加词义消歧的覆盖率.Dagan
[5]
和
Gale
[6]
则利用双语对照词典来帮助多义词消歧.
2.1.2 基于义类词典的词义消歧
义类词典的编排与传统词典有很多不同之处.它是按照词语含义编纂的辞典,把相类似的词语放在相同的
目录下,使得查找同类或同义词更加方便、快捷.义类词典有助于我们提高用词的准确性.Roget’s Thesaurus
[7]
和
WordNet
[8]
是常用的英语义类词典.Yarowsky(1994)
[9]
和卢志茂等人
[10]
利用Roget’s 词典进行词义消
歧;Voorhees
[11]
和Resnik
[12]
从不同角度利用WordNet中的上下位关系、同义关系进行英语的词义消歧探索.《同
义词词林》
[13]
和知网(HowNet)
[14]
是最常用的汉语义类资源.汉语词义消歧研究从 20 世纪 90 年代以后才开始.
陈浩等人
[15,16]
使用HowNet作为知识源,利用聚类技术进行词义消歧.李涓子
[17]
和中国科学院计算技术研究所
的鲁松
[18]
都采用《同义词词林》进行无指导的词义消歧,李涓子在大规模语料库中自动获取任意同义词集中单
义词的同现实词,按照同现实词的词义分辨能力对它们加权,构成词义分类器,实现一种代价最小的无指导学习
算法;鲁松则把待消歧的多义词的上下文视为查询,把与该多义词某个义项具有相同、相似或相关语义范畴的
词语的上下文视为文档,从而用信息检索中的向量空间模型来解决词义消歧问题.
剩余14页未读,继续阅读
艾闻
- 粉丝: 34
- 资源: 302
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 海信智能电视刷机数据 LED42K330X3D(0000) 生产用软件数据 务必确认机编一致 强制刷机 整机USB升级程序
- shujudaochuceshi
- learn-ruby.zip
- test111111111111111111
- face-detect.ipynb
- 以下是一些关于ACM(国际大学生程序设计竞赛)、NOI(全国青少年信息学奥林匹克竞赛)以及CSP(全国青少年信息学奥林匹克竞赛提
- 是一些电子设计竞赛(电赛)经验分享,包括备赛策略、项目管理、团队合作和比赛期间的注意事项
- 全能运行库修复工具DirectX Repair v4.1.0.30770
- las格式点云数据使用详解(附VS编译好的LAStools工具)
- KRPano插件一键解密大师1.4.0 (解压密码1234)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0