论文研究-基于神经网络语言模型的DSSM模型优化 .pdf

所需积分/C币:10 2019-08-15 15:07:39 778KB .PDF
0
收藏 收藏
举报

基于神经网络语言模型的DSSM模型优化,刘杨,李静林,DSSM模型是一个通过把搜索关键词和文档注入到低维空间并计算两者相似度的具有多层神经网络结构的隐含语义模型,通过最大化给出训��
山国武花论文在丝 和语义关系,而且对于英文而言,可用的单词大约万个,如果是词袋模型,那么输入 数据的维度则至少是千万级别的。模型是通过将检索关键词和网页中的文档内容通过 深度学习框架映射到一个低维的语义模型空间中,输入层输入的数据是一个三元数据组(检 索关键词,输入后点击过的链接,随机分配一个未点击的链接)数据对进行训练 通过 方法对输入数据进行降维处理,并且可以表示拼写错误的单词 或特殊符号,但是对中文来说,这种方法非但不能降维,反而是维度人人增加,所以该模型 不能盲接应用到中文文夲处理。同时,在短文本领域,如果使用传统的词袋模型进行建模 效果会非常差。 在接下来的一章,我们将首先解决如何得到史好的中文语言模型,尤其是如何对短文本 建模,然后根据通过该语言模型得到词向量,作为 的输入,解决 的 层无法处中文以及词袋模型无法有效的对短文本建模的问题。 基于神经网络语言模型的 模型 模犁的整体结构图如图所示,由两部分构成,第一部分是“基于字词联合训练”的 神经网络语言模型部分,该部分训练的得到词向量,构成一个句子的词的词向量加和归一化 后得到一条句子的向量,该句向量作为第二部分 模型的输入,整个模型的损失函数 由两部分组成,第部分是训练神经网终语言模型的损失函数,第二部分是深层神经网络模 型的损失函数。 山国武技论文在丝 R(Q,D1) R(Q, D2 R(Q, Dn] 低维特征空间 隐藏层L2 128 128 II II 隐藏层L1 128 128 128 词向量ⅹ 256 256 256 256 sum Wt-1 W ○o Q○QQ 输入层 QQ③◎g○ 0○○◎○O tanh 隐藏层 fost max 输出层 图基于神经网络语言模型的DsSM模型 “基于字词联合训练”神经网络语言模型 在将文本向量化的方法中,常见的是词袋模型,但是词袋模型忽视了词语之间的顺序和 词语之间的语义关系;同时词袋模型无法有效的向量化短文本。现有工作在学习中文文本的 向量表示时往往直接沿用了英文的处理方式,而忽略了中文的特殊性。但是在中文里,最自 然的语言单位是“字”。不同」富含语义信息的词,字仅为记录汉语用的符号系统,木身不 具备语义。为了让字的衣示具有更丰富的语义信息,本文借鉴了 和 的思想, 提出利用某个词上下文中各个词的分布以及构成这个词的字的分布,作为这个词的表示。虽 然字本身仍然不具备语义信息,但是利用这种表示,把字放入词的语义空间中,通过字词联 合训练,可以更有效地对中文语言进行建模 山国武技论文在丝 fost rax 输出层 隐藏层 e Wtn+1) e(W:2) e(Wt1) C(W-) C(cht-2 C(W C(cht-1) 输入层 ⊙○Q○③ ⊙OC OOO W+-n.1 Wt-1 图2.2“字词联合训练”神经网络语言模型 神经网络语言模型采用普通的三层前馈神经网络结构,其中第一层为输入层。其中输入 层首先把构成第个词语的字向量加和归一化后得到的 然后把 和第个词的 词向量拼接,组成输入层向量 因此输入层为词 的字词联合 向量的顺序拼接: 当输入层完成对上文的表示之后,模型将其送入剩下两层神经网络,依次得到隐藏 层和输出层 其中 为输入层到隐喊层的权重矩阵,∈ 为隐藏层到输出层 的权重矩阵,表示词表的大小,表示词向量的维度,为隐藏层的维度 均为模型中的偏置项。矩阵 表示从输入层到输出层的直连边权重矩阵。输 出层一共有个元素,依次对应下一个词为词表中某个词的可能性。这里将其中对应词 的元素记作 由于神经网络的输出层并不直接保证各元素之和为,输出层的并不 是概率值。因此,在输出层之后,需要加入 函数,将转成对应的概率值: 对于整个语料而言,语言模型需要最大化: 般神经网络的输入层只是个输入值,而在这里,输入层也是个参数(仔在向量 中),这也是需要优化的。优化结束后,词向量就有了,语言模型也有了。在字词联合训 山国武花论文在丝 练中,不仅每个词具有对应的词向量,每个字也具有对应的字向量。词向量和字向量的维度 相同,字和词的向量表示在同一个语义空间中。 训练时,神经网络语言模型使用随机梯度下降法米优化上述训练目标。每次迭代, 随机从语料中选取一段文本 作为训练样本,使用下式进行一次梯度迭 代 6<+c ce 式中,∝是学习速率;θ为模型中的所有参数,包括词向量和网络结构中的权重 通过“字词联合训练”得到的词向量,作为输入到 模型中进行训练,解决了 模型的 无法处中文问题,以及常见的词袋模型中忽略的词语的顺序和语义问 题,同时还解决了常见的词向量模犁中忽视了中文以“字”为单位的问题。 基于词向量的 深度神经网络模型 常用的英文单词有万个,如果用词袋模型对文本进行向量化,则会导致文本向量 的维度很高,而且对于一些不常见的或者偏僻的网络用词,如果词袋模型中没有收录这个词, 那么就无法进行量化该词。为了降维和使文本描述更健壮, 模型使用 方 法对单词进行量化, 方法是指假设对单词“”进行一个滑动窗口为的量 化过程,首先在单词的首尾拼接一个特殊字符“”,变成“”,然后用一个长度为 的滑动窗口进行滑动,将单词依次分为“”、“”、“”、“”四个子串, 然后根据这些子串的值映射到一个固定维度的向量中。实验结果表明,经过此转换, 可以将大约 个英语单词,映射到万维的向量中,冲突很少,也可以通过此方 法向量化生僻单词。 但是 方法忽略了词语之间的顺序和词语之间的语义关系,而且如果按照上 述 方法处理中文数据,假如常见的汉字有个,那么至少为 维,这将会造成严重的维度灾难。传统方法是使用词袋模型处理中文文本,但词袋模型也存 在忽视词语之间的顺序以及语义关系的缺陷。 针对上述 模型处理中文文本的缺陷,本文提出基于神经网络语言模型的 多层神经网络模型,通过上面提出的适用于中文文本表示方法的“基于字词联合”训练的神 经网络语言模型得到词向量,充分利用了词语在语义空间的特征和中文的语言特性,同时可 以减少 多层神经网终中 算法的隐减层,降低了神经网络的结构复杂度 和计算复杂度。 优化后的基于神经网络语言模型的模型的结构如图 山国武技论文在丝 P(D1Q) P(D2Q P(Dn Q RIQ, D1 R(O, Dn 低维特征空间y 64 匚64 隐藏层L2 128 128 128 128 隐藏层L1 128 128 词向量ⅹ 255 256 D1 图2.3DSM模型姌经网络结构 其中,是输入的搜索关键词, 包括两部分,分别是点击过的网页和随机分配 的未点击过的网页。 该模型主要分为两部分:()将表示单词的向量映射到他们对应的语义概念向量;() 通过计算 和 的向量的余弦值来计算两者的相似度 其中,包括两部分,一部分是输入后点击过的链接,+,一部分是随机分配 的个木点击过的链接,,本实验设置包括个点击过的网页,包括个未点击 过的网页,计算出检索关键词和网页在低维特征空间的向量的余弦值,即 ,模型的 输出层是 模型,训练过程中就是求解最大似然函数,即: 同样使用随机梯度下降法去优化该模型 实验结果 模型的应用玚景可以从关键词搜索延伸到用户画像和新闻推荐等场景,本实验使 用某新闻客户端的用户画像数据和用户点击过的客户端推荐给用户的新闻数据。考虑到实验 的复杂度,本实验的字词联合分布模型采用的是个隐藏层的神经网络。首先建立生成 词向量的神经网络语言模型时,部分参考 的代码,对训练过程中的随机梯度下降 进行了优化, 只对词向量进行求导更新,优化后的梯度下降是将词向量和字问量 同时求导更新,神经网络语言模型训练结束后,每个词都被映射到一个低维的语义空间,我 们设置的词向量低维语义空间维度为,获得词向量后可以通过一个句子包含的词语的向 量的加权求和得到句向量。 模型实现借助了深度学习框架,采用个隐藏层的深度神经网络,每个隐 藏层的输出结果维度为、 ,输入层是字词联合向量模型得到的词向量加和之后 的向量,采用输出层是一个 分类器 模型最后的输出层是个 分类器,训练模型吋可以将输出转换为对应的 概率。 输入的是一个(搜索关键词,点击过的网页,未点击过的网页)的三元组,将 “字词联合训练”模型生成的词向量输入到 模型中,和使用词袋模型的字词表示方 法作对比,词袋模型设置的是维, 在不同的学习率下的准确率有明显的提升。 山国武技论文在丝 输入测试集后,计算点击过的文档和用户的余弦值、末点击过的文档和用户的余弦值,如果 前者的值大于后者的值,那么我们认为是预测正确的结果,最后正确率预测正确数输入数 据总数。相关实验的准确率如下表,其中是 模型的参数,每一行分别表示在下词袋 模型 和字词联合训练三个模型的准确率,如表 表实验结果 文本表小模型 词袋模型 word2vec 字词联合训练模 型 DSSM多层网络置 a=0.01 g=005 a=0.5 g=1,0 图是通过词袋模型、 和字词联合训练模型产生的词向量在 模型中 的准确率,由图中可以看出,随着 模型的学习率的变化,随着从增大到的 过程中,这三个词向量模型的准确率均为先增大后减小,但是从一条曲线看出,无论的值怎 么变化,准确率均为: 字词联合训练模型 词袋模 型。实验结果曲线验证了“基于词向量的模型”不但解决了 模型无法处理中 文的问题,而且证明“字词联合训练”神经网络语言模型更适合对中文语言模型进行建模。 0.98 冖诃袋袄型 Vec 0.96 一字词联合训练模型 0.94 0.92 0.90 0.88 0.86 0.84 0.82 080 0.78 0.0 0.2 0.4 0.6 0.8 学习率 图 模型在不同学习率下不同模型的准确率 山国武花论文在丝 结论 模型在搜索关键词和搜索结果匹配中会发挥巨大作用,通过计算相似度搜索关键 词和点击网页的相似度并排序,可以返冋最符合搜索关键词的搜索结果。 模型可以扩 展到用户画像和推荐新闻点击等场景应用,这也是本论文实验时基于的应用场景。“基于字 词联合训练”的神经网络语言模型则充分利用了中文以“字”为最自然单位和“词”可以表 达语义信息的特性:学习得到的模型中的词向量作为 模型的输入数据,解决 方法无法处理中文文本问题,充分保留输入数据中词语的顺序和语义信息,減少 神经网络中 方法的隐减层,降低多层神经网终的结构复杂度和 计算复杂度 模型的准确率也有明显提升。 参考文献 李雷基于人工智能机器学习的文字识别方法研究成都:电子科技大学,

...展开详情
试读 9P 论文研究-基于神经网络语言模型的DSSM模型优化 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
抢沙发
一个资源只可评论一次,评论内容不能少于5个字
weixin_39841365 如果觉得有用,不妨留言支持一下
2019-08-15
上传资源赚积分or赚钱
    最新推荐
    论文研究-基于神经网络语言模型的DSSM模型优化 .pdf 10积分/C币 立即下载
    1/9
    论文研究-基于神经网络语言模型的DSSM模型优化 .pdf第1页
    论文研究-基于神经网络语言模型的DSSM模型优化 .pdf第2页

    试读结束, 可继续读1页

    10积分/C币 立即下载 >