《基于神经网络特征的句子级别译文质量估计》是一篇探讨如何利用深度学习技术改进机器翻译质量评估的科研论文。该研究由陈志明、李茂西和王明文共同完成,发表在计算机研究与发展期刊上。论文的核心是提出一种新的方法来提高句子级别的机器翻译质量估计的准确性,尤其是针对无需人类参考的自动评估。
传统的机器翻译自动评价方法往往依赖于语言学分析,这限制了其泛化能力和后续支持向量回归算法的系统性能。为解决这个问题,研究者们引入了深度学习中的上下文词预测模型和矩阵分解模型来提取句子嵌入特征,并通过循环神经网络语言模型(RNN-LM)进一步增强这些特征,以提升自动质量评估方法与人类判断的相关性。
具体来说,他们首先利用上下文词预测模型生成句内单词的语境依赖表示,这种模型能够捕捉到词汇之间的复杂关系,从而反映句子的语义结构。接着,采用矩阵分解技术来降低高维词向量的维度,同时保持其语义信息,使得特征更加精简且有效。循环神经网络语言模型的加入进一步增强了模型对句子连贯性和语法结构的理解,因为RNN-LM可以捕获句子的序列信息。
实验在WMT 2015和WMT 2016机器翻译质量估计子任务的数据集上进行,结果显示,使用上下文词预测模型提取的句子嵌入特征的系统性能优于传统的QuEst方法以及使用连续空间语言模型提取特征的方法。这一结果表明,提出的特征提取方法能够在不依赖于语言分析的情况下显著提高机器翻译质量估计的系统性能。
关键词涉及的领域包括机器翻译质量估计、句子级别评估、词嵌入、循环神经网络语言模型和支持向量回归。这项研究对于提升机器翻译系统的自动评价效果,以及推动深度学习在自然语言处理中的应用具有重要意义。