深度学习word2vec学习笔记.docx_Skip-gram模型公式资源-CSDN文库

5星 · 超过95%的资源需积分: 33 81 浏览量 2015-04-05 17:14:18 上传评论 25 收藏 1.02MB DOCX 举报

资源详情

资源评论

深度学习 word2vec 笔记之基础篇

北流浪子

博客地址：

基础篇：

一．前言

伴随着深度学习的大红大紫，只要是在自己的成果里打上  字样，总会有

人去看。深度学习可以称为当今机器学习领域的当之无愧的巨星，也特别得到工业界的青

睐。

在各种大举深度学习大旗的公司中， 公司无疑是旗举得最高的，口号喊得最响

亮的那一个。 正好也是互联网界璀璨巨星，与深度学习的联姻，就像影视巨星刘德

华和林志玲的结合那么光彩夺目。

巨星联姻产生的成果自然是天生的宠儿。  年末， 发布的 !" 工具引

起了一帮人的热捧，互联网界大量  公司的粉丝们兴奋了，从而  公司的股票开

始大涨，如今直逼苹果公司。

在大量赞叹 !" 的微博或者短文中，几乎都认为它是深度学习在自然语言领域的

一项了不起的应用，各种欢呼“深度学习在自然语言领域开始发力了”。

互联网界很多公司也开始跟进，使用 !" 产出了不少成果。身为一个互联网民工，

有必要对这种炙手可热的技术进行一定程度的理解。

好在 !" 也算是比较简单的，只是一个简单三层神经网络。在浏览了多位大牛的

博客，随笔和笔记后，整理成自己的博文，或者说抄出来自己的博文。

二．背景知识

2.1 词向量

自然语言处理（#$%）相关任务中，要将自然语言交给机器学习中的算法来处理，通

常需要首先将语言数学化，因为机器不是人，机器只认数学符号。向量是人把自然界的东

西抽象出来交给机器处理的东西，基本上可以说向量是人对机器输入的主要方式了。



词向量就是用来将语言中的词进行数学化的一种方式，顾名思义，词向量就是把一个

词表示成一个向量。

主要有两种表示方式，下面分别介绍，主要参考了&皮果提在知乎上的问答，也就是

参考文献【】。

2.1.1 One-Hot Representation

一种最简单的词向量方式是 '，就是用一个很长的向量来表示一

个词，向量的长度为词典的大小，向量的分量只有一个 ，其他全为， 的位置对应该

词在词典中的位置。举个例子，

　　“话筒”表示为 (               )

　　“麦克”表示为 (               )

每个词都是茫茫 海中的一个 。

这种 *'+如果采用稀疏方式存储，会是非常的简洁：也就是给每个

词分配一个数字 ,-。比如刚才的例子中，话筒记为 ，麦克记为 .（假设从 开始记）。

如果要编程实现的话，用 /表给每个词分配一个编号就可以了。这么简洁的表示方法配

合上最大熵、012、3+4等等算法已经很好地完成了 #$%领域的各种主流任务。

但这种词表示有两个缺点：（）容易受维数灾难的困扰，尤其是将其用于 -

$的一些算法时；（）不能很好地刻画词与词之间的相似性（术语好像叫做“词汇

鸿沟”）：任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系，哪怕

是话筒和麦克这样的同义词也不能幸免于难。

所以会寻求发展，用另外的方式表示，就是下面这种。

2.1.2 Distributed Representation

另一种就是 -5+这种表示，它最早是 /于 .年提出的，

可以克服 '的缺点。其基本想法是直接用一个普通的向量表示一个词，

这种向量一般长成这个样子：( 678 6678  67  78 7)，也就是普通的向量

表示形式。维度以  维和  维比较常见。

当然一个词怎么表示成这么样的一个向量是要经过一番训练的，训练方法较多，

!" 是其中一种，在后面会提到，这里先说它的意义。还要注意的是每个词在不同的

语料库和不同的训练方法下，得到的词向量可能是不一样的。

词向量一般维数不高，很少有人闲着没事训练的时候定义一个  维以上的维数，

所以用起来维数灾难的机会现对于 ' 表示就大大减少了。

由于是用向量表示，而且用较好的训练算法得到的词向量的向量一般是有空间上的意

义的，也就是说，将所有这些向量放在一起形成一个词向量空间，而每一向量则为该空间

中的一个点，在这个空间上的词向量之间的距离度量也可以表示对应的两个词之间的“距

离”。所谓两个词之间的“距离”，就是这两个词之间的语法，语义之间的相似性。

一个比较爽的应用方法是，得到词向量后，假如对于某个词 9，想找出这个词最相似

的词，这个场景对人来说都不轻松，毕竟比较主观，但是对于建立好词向量后的情况，对



计算机来说，只要拿这个词的词向量跟其他词的词向量一一计算欧式距离或者  距离，

得到距离最小的那个词，就是它最相似的。

这样的特性使得词向量很有意义，自然就会吸引比较多的人去研究，前有 : 发表

在 ;2$+ 上的论文《9#5%$52 》，又有 / 的层次化 $'

: 模型，还有  的 <2="团队搞的 !"，等等。

词向量在机器翻译领域的一个应用，就是  的 <2="团队开发了一种词

典和术语表的自动生成技术，该技术通过向量空间，把一种语言转变成另一种语言，实验

中对英语和西班牙语间的翻译准确率高达  >。

介绍算法工作原理的时候举了一个例子：考虑英语和西班牙语两种语言，通过训练分

别得到它们对应的词向量空间 ?和 0。从英语中取出五个词 ，!，，@5，A"，

设其在 ?中对应的词向量分别为 "，"，"，"，"，为方便作图，利用主成分分析

（%39）降维，得到相应的二维向量 5，5，5，5，5，在二维平面上将这五个点描出

来，如下图左图所示。类似地，在西班牙语中取出（与 ，!，，@5，A"对应

的） 5 ，  ，  ， 5 ，  ，设其在 0  中对应的词向量分别为

，，，，，用 %39降维后的二维向量分别为 ，，，，，将它们在二维

平面上描出来（可能还需作适当的旋转），如下图右图所示：

观察左、右两幅图，容易发现：五个词在两个向量空间中的相对位置差不多，这说明

两种不同语言对应向量空间的结构之间具有相似性，从而进一步说明了在词向量空间中利

用距离刻画词之间相似性的合理性。

2.2 语言模型

2.2.1 基本概念

语言模型其实就是看一句话是不是正常人说出来的。这玩意很有用，比如机器翻译、

语音识别得到若干候选之后，可以利用语言模型挑一个尽量靠谱的结果。在 #$%的其它任

务里也都能用到。

语言模型形式化的描述就是给定一个 < 个词的字符串 ，看它是自然语言的概率

%B!7!7C7!D。!到 !<依次表示这句话中的各个词。有个很简单的推论是：



(

)

= p

(

, w

, ⋯ w

)

= p

(

)

(

¿ p(w

∨w

, w

)⋯ p (w

∨w

, w

,⋯ w

T−1

)

BD

上面那个概率表示的意义是：第一个词确定后，看后面的词在前面的词出现的情况下

出现的概率。如一句话“大家喜欢吃苹果”，总共四个词“大家”，“喜欢”，“吃”，“苹果”，怎么

分词现在不讨论，总之词已经分好，就这四个。那么这句话是一个自然语言的概率是：

%B大家，喜欢，吃，苹果DEB大家DB喜欢F大家DB吃F大家7喜欢DB苹果F大家7喜欢7吃D

B大家D表示“大家”这个词在语料库里面出现的概率；

B喜欢F大家D表示“喜欢”这个词出现在“大家”后面的概率G

B吃F大家，喜欢D表示“吃”这个词出现在“大家喜欢”后面的概率；

B苹果F大家7喜欢7吃D表示“苹果”这个词出现在“大家喜欢吃”后面的概率。

把这些概率连乘起来，得到的就是这句话平时出现的概率。

如果这个概率特别低，说明这句话不常出现，那么就不算是一句自然语言，因为在语

料库里面很少出现。如果出现的概率高，就说明是一句自然语言。

看到了上面的计算，看有多麻烦：只有四个词的一句话，需要计算的是 B大家D，B喜

欢F大家D，B吃F大家7喜欢D，B苹果F大家7喜欢7吃D这四个概率，这四个概率还要预先计算

好，考虑词的数量，成千上万个，再考虑组合数，B吃F大家7喜欢D这个有“大家”、“喜欢”和

“吃”的组合，总共会上亿种情况吧；再考虑 B苹果F大家7喜欢7吃D这个概率，总共也会超过

万亿种。

从上面的情况看来，计算起来是非常麻烦的，一般都用偷懒的方式。

为了表示简单，上面的公式（）用下面的方式表示

(

)

= p

(

, w

, ⋯ w

)

∏

i=1

p(w

∨Context

)

其中，如果 3H 是空的话，就是它自己 B!D，另外如“吃”的 3H 就是“大家”、

“喜欢”，其余的对号入座。

符号搞清楚了，就看怎么偷懒了。

2.2.2 N-gram 模型

接下来说怎么计算

p(w

∨Context

)

，上面看的是跟据这句话前面的所有词来计算，那

么

p(w

∨ Context

)

就得计算很多了，比如就得把语料库里面 B苹果F大家7喜欢7吃D这种情

况全部统计一遍，那么为了计算这句话的概率，就上面那个例子，都得扫描四次语料库。

这样一句话有多少个词就得扫描多少趟，语料库一般都比较大，越大的语料库越能提供准

确的判断。这样的计算速度在真正使用的时候是万万不可接受的，线上扫描一篇文章是不

是一推乱七八糟的没有序列的文字都得扫描很久，这样的应用根本没人考虑。

最好的办法就是直接把所有的

p(w

∨Context

)

提前算好了，那么根据排列组上面的来

算，对于一个只有四个词的语料库，总共就有 IJIJIJI个情况要计算，那就是  个情况

要计算；换成  个词的语料库，就是

∑

i=1

1000

i !

个情况需要统计，对于计算机来说，计算这



剩余33页未读，继续阅读

评论收藏

内容反馈

zzuhuliang

2017-02-28

感谢您的辛苦工作，谢谢整理

深度学习word2vec学习笔记.docx

评论30

最新资源

深度学习word2vec学习笔记.docx

评论30

最新资源

相关推荐

深度学习word2vec学习笔记

深度学习word2vec笔记之基础篇

深度学习word2vec学习笔记pdf版.pdf

word2vec

word2vec系列资料

唐宇迪word2vec的系列代码自然语言处理

word2vec.pdf

唐宇迪-机器学习-代码PPT

word2vec text8数据集

深度学习word2vector测试语料text8

word2vec 学习笔记整理

深度学习word2vec学习笔记1

文本分析——gensim库word2vec学习笔记

基于深度学习的Wiki中文语料词word2vec向量模型.zip

word2vec訓練集text8.zip

深度学习笔记5.43的word版本

word2vec入门训练语料.txt

word2vec+dna2vec.pptx

word2vec中文词向量.zip

text8测试文档

word2vec语料文档text8.zip

Deep Learning 实战之 Word2Vec

机器学习算法教程 深度学习算法系列教程英文PPT课件 无监督学习：词嵌入word2vec 共23页.pptx

DeepLearning-Lab：用于深度学习的代码实验室。 包括rnn，seq2seq，word2vec，交叉熵，双向rnn，卷积运算，池运算，InceptionV3，转移学习

word2vec.pdf+计算机视觉.pdf文档 基于python+tensorflow《深度学习在互联网上的应用》——寒小阳

（word2vec 写的太好啦）word2vec Parameter Learning Explained.pdf

Java 面经手册·小傅哥.pdf

解压后拖入浏览器扩展程序使用.zip

103套PPT模板.zip

机器学习算法教程深度学习算法系列教程英文PPT课件无监督学习：词嵌入word2vec 共23页.pptx

DeepLearning-Lab：用于深度学习的代码实验室。包括rnn，seq2seq，word2vec，交叉熵，双向rnn，卷积运算，池运算，InceptionV3，转移学习

word2vec.pdf+计算机视觉.pdf文档基于python+tensorflow《深度学习在互联网上的应用》——寒小阳