没有合适的资源?快使用搜索试试~ 我知道了~
基于词向量的句子相似度计算及其应用研究_郭胜国1
需积分: 0 1 下载量 175 浏览量
2022-08-04
15:01:54
上传
评论
收藏 1.45MB PDF 举报
温馨提示
试读
5页
基于词向量的句子相似度计算及其应用研究_郭胜国1
资源详情
资源评论
资源推荐
现代电子技术
Modern Electronics Technique
2016 年 7 月 1 日
第 39卷第 13 期
Jul. 2016
Vol. 39 No. 13
doi:10.16652/j.issn.1004⁃373x.2016.13.024
近年来,机器翻译的需求量越来越大。从学术文献
翻译到搜索引擎跨语言检索,机器翻译都呈现出巨大的
需求空间。但是传统的机器翻译一直都存在较大的问
题,就是准确率过低。通过前期调查,现有的机器翻译
无法满足实际需求,同时随着“大数据”时代的到来,越
来越多的学者将目光转向了计算机辅助翻译
[1⁃2]
。
计算机的翻译结果仅仅作为一个辅助性的参考,最
终的结果由使用者根据候选结果的好坏进行修改取舍,
实例语料库可以结合具体领域进行分门别类的应用,使
得其翻译效果进一步提升,从而更加契合用户的需要。
由于领域性的差异,尤其是专业术语较多的时候,这一
优点在特定领域的翻译中显得更加突出
[3]
。
1 计算机辅助翻译及句子相似度计算
1.1 计算机辅助翻译技术
计算机辅助翻译系统涉及到的技术构成如图 1 所
示。在翻译系统的整体构成上,相似度计算模块是计算
机辅助系统的核心部分
[4]
。它主要完成输入句子与翻译
记忆库的匹配并为用户提供参考功能。而翻译记忆库
则是计算机辅助翻译的基础构成,它主要用来对已翻译
的句子进行存储和检索。
图 1 计算机辅助翻译系统技术构成
1.2 句子相似度计算算法
1.2.1 基于共现词的相似度计算
相似度不仅受到共现词汇数量的影响,同时还要结
基于词向量的句子相似度计算及其应用研究
郭胜国,邢丹丹
(郑州财经学院 计算机系,河南 郑州 450044)
摘 要:目前计算机辅助翻译在相似度计算方面存在很大的局限性,精度较低。针对特定领域,收集领域相关的训练
语料,采用 Google 的 word2vec 进行英语和汉语的词向量模型构建,设计并实现汉语句子的相似度计算方法,提出基于词向量
Jaccard 相似度与基于词向量依存句法相结合的相似度计算方法,实验结果显示其效果比传统方法有较大提升。最后,将相
关英汉句子相似度算法以接口的形式封装,作为商品化软件华建 IAT 系统的相似度计算模块投入实际应用。
关键词:计算机辅助翻译;相似度计算;词向量;IAT 系统
中图分类号:TN711⁃34;TM417 文献标识码:A 文章编号:1004⁃373X(2016)13⁃0099⁃04
Sentence similarity calculation based on word vector and its application res earch
GUO Shengguo,XING Dandan
(Department of Computer,Zhengzhou Institute of Finance and Economics,Zhengzhou 450044,China)
Abstract:Currently,the computer aided translation has great limitation on similarity calculation,and its accuracy is low.
For the specific field,the training corpus about the field was collected,and the word vector model of English and Chinese was
constructed by using word2vec developed by Google to design and implement the similarity calculation method of Chinese sen⁃
tences. The similarity calculation method of combining word vector Jaccard similarity with word vector dependent syntax is pro⁃
posed. The experiment results show that effect of the proposed method has more improvement than that of the traditional method.
The similarity algorithm of relevant English and Chinese sentences is packaged by means of interface form. The similarity calcu⁃
lation module of Huajian IAT system was put into practical application as a commodity software.
Keywords:computer aided translation;similarity calculation;word vector;IAT system
收稿日期:2015⁃11⁃24
99
99
VashtaNerada
- 粉丝: 19
- 资源: 297
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0