没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
文章编号
一种高效的基于启发式规则和词典相结合的双语词对齐方法
任志敏蔡东风尹宝生
沈阳航空航空航天大学 知识工程中心辽宁 沈阳
摘要双语词对齐是指在互译的双语句对中找到词汇级的对译关系是自然语言处理领域一个
非常有用而又比较困难的研究课题 本文在对当前主流的词对齐方法进行实验分析的基础上
综合考虑了各种因素提出了基于启发式统计规则和词典相结合的方法该方法充分利用现有资
源同时考虑到了后续的应用问题 实验表明该方法在训练语料规模较小的情况下取得了较
好的对齐结果
关键词自然语言处理双语词对齐锚点启发式规则高效
中图分类号V
doijissn
文献标识码A
对齐是指从互译的两种不同语言文本中找出
不同粒度的对译片断的过程可分为篇章段落
句子短语和单词等不同粒度的对齐 双语词对
齐是指在对译的双语句对中找到词汇级的对译关
系最早是作为统计机器翻译模型的中间产物而
被提出Brown et al
词对齐的前提是
语料已经句对齐由于经过词语对齐的语料是重
要的与翻译相关的资源词语对齐对统计机器翻
译而言十分重要
目前主流的关于词对齐的方法大体可分为
两类统计方法
和启发式方法
统计方法往
往通过建立模型来描述双语文本之间的关系并
通过 EM 算法从训练语料库中迭代训练模型参
数最典型的莫过于 IBM 的 个对齐模型 启发
式方法则是通过计算词汇间的同现测度函数值来
判断词汇的对齐与否基于词典
的方法在一定
程度上也可以看作一种简单的启发式方法 研究
表明统计模型要优于一些简单的启发式方法但
是统计模型不仅需要大规模的训练语料而且训
练需要耗费大量的时间
实验发现单纯的用一些启发式方法去判断
对齐与否往往准确度比较低而反过来用它去判
收稿日期
作者简介任志敏 男甘肃天水人在读硕士主要研究
方向自然语言处理译文质量自动评测E mailren sina
com蔡东风 男河 北辛 集 人博 士教 授主 要 研究 方
向人工智能理自然语言处理
断不是对齐的情况时往往比较可信由此我们可
以确信一些启发式规则可以作为对齐的必要条
件而不是充分条件可以用来排除非对齐的情
况而且启发式方法
还有规则添加简单高效
等特点因此考虑到词语对齐的后续应用问题
整合现有的比较好的一些启发式的方法来开发出
一个准确高效的词对齐系统很有必要
本文在分析各种现有的词对齐的算法的基础
上提出了一种高效的基于启发式规则和词典相
结合的词对齐算法在我们的算法中我们充分利
用了现有词对齐的算法的优点比如基于词典的
对齐主要用于找到高准确度的对齐锚点并为后
续的启发式过滤缩小片段进而在位置选择中为
位置扭曲度模型提供位置锚点而启发式规则的
应用主要是在基于实验分析的基础上利用其对齐
的必要性特点作为一种词对齐的过滤器来使用
本文算法的特点是把词对齐这个总体的任务划分
为不同的阶段每个阶段用不同的对齐策略前一
个阶段是后一个阶段的基础最后在扩展和消除
歧义后的到最后的对齐结果 实验表明本文的方
法在同等的语料上不仅准确度得到了一定的提
高而效率相对于统计的方法则是大大的提高
了
我们首先描述本文所用到的方法然后讨论
其算法实现过程 最后是实验结果和分析以及
未来的研究方向
方法概述
在词对齐的任务中我们的最终目的是输入
年月
第 卷第期
沈阳航空工业学院学报
Journal of Shenyang Institute of Aeronautical Engineering
Oct
VolNo
资源评论
weixin_38621150
- 粉丝: 3
- 资源: 880
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功