的用于统计语言建模的n-gram模型——今天,可以对几乎所有可用的
数据(万亿字[3])培训n-gram。然而,在许多任务中,简单的技术
都是有限的。例如,用于自动语音识别的相关域内数据的数量是有限
的——性能通常由高质量的转录语音数据(通常只有数百万个字)的
大小决定。在机器翻译中,许多语言的现有语料库只包含几十亿个单
词或更少的单词。因此,在某些情况下,简单地扩展基本技术不会导
致任何显著的进步,我们必须关注更先进的技术。随着近年来机器学
习技术的进步,在更大的数据集上训练更复杂的模型已经成为可能,
而且它们通常优于简单模型。可能最成功的概念是使用分布式的单词
表示[10]。例如,基于神经网络的语言模型明显优于N-gram模型
[1,27,17]。
1.1 论文的目标
本论文的主要目的是介绍从海量的数亿字和数亿字的数据集中学习高
质量的词汇向量的技术。据我们所知,之前提出的架构中没有一个在
2013年9月7日的1301.3781v3[cs.cl]7上成功地训练了数亿个单词,单
词向量的适度维数在50-100之间。我们使用最近提出的技术来测量
产生的向量表示的质量,期望不仅相似的词彼此接近,而且这些词可
以具有多个相似度[20]。这一点在之前的屈折语言中已经被观察到
了,例如,名词可以有多个词尾,如果我们在原始向量空间的子空间
中搜索相似的词,就可以找到具有相似词尾的词[13,14]。令人惊讶
的是,人们发现词语表达的相似性超出了简单的句法规则。使用字偏
移技术,在字向量上执行简单的代数运算,例如,矢量(“king”)-
矢量(“man”)+矢量(“woman”)产生的矢量最接近于单词queen
的矢量表示[20]。
在本文中,我们试图通过开发新的模型体系结构来最大限度地提高这
些向量运算的准确性,这种模型体系结构可以保持单词之间的线性规
律。我们设计了一个新的综合测试集来测量句法规则和语义规则1,
并表明许多这样的规则都可以被高精度地学习。此外,我们还讨论了
训练时间和准确性如何取决于单词向量的维数和训练数据的数量。
NLP系列:Word2Vec原始论文:Efficient Estimation of Word Re... about:reader?url=https://www.jianshu.com/p/4517181ca9c3
第3页 共22页 2019/10/24/周四 23:26
评论0
最新资源