论文研究-基于神经网络语言模型的DSSM模型优化 .pdf


-
基于神经网络语言模型的DSSM模型优化,刘杨,李静林,DSSM模型是一个通过把搜索关键词和文档注入到低维空间并计算两者相似度的具有多层神经网络结构的隐含语义模型,通过最大化给出训��
山国武花论文在丝 和语义关系,而且对于英文而言,可用的单词大约万个,如果是词袋模型,那么输入 数据的维度则至少是千万级别的。模型是通过将检索关键词和网页中的文档内容通过 深度学习框架映射到一个低维的语义模型空间中,输入层输入的数据是一个三元数据组(检 索关键词,输入后点击过的链接,随机分配一个未点击的链接)数据对进行训练 通过 方法对输入数据进行降维处理,并且可以表示拼写错误的单词 或特殊符号,但是对中文来说,这种方法非但不能降维,反而是维度人人增加,所以该模型 不能盲接应用到中文文夲处理。同时,在短文本领域,如果使用传统的词袋模型进行建模 效果会非常差。 在接下来的一章,我们将首先解决如何得到史好的中文语言模型,尤其是如何对短文本 建模,然后根据通过该语言模型得到词向量,作为 的输入,解决 的 层无法处中文以及词袋模型无法有效的对短文本建模的问题。 基于神经网络语言模型的 模型 模犁的整体结构图如图所示,由两部分构成,第一部分是“基于字词联合训练”的 神经网络语言模型部分,该部分训练的得到词向量,构成一个句子的词的词向量加和归一化 后得到一条句子的向量,该句向量作为第二部分 模型的输入,整个模型的损失函数 由两部分组成,第部分是训练神经网终语言模型的损失函数,第二部分是深层神经网络模 型的损失函数。 山国武技论文在丝 R(Q,D1) R(Q, D2 R(Q, Dn] 低维特征空间 隐藏层L2 128 128 II II 隐藏层L1 128 128 128 词向量ⅹ 256 256 256 256 sum Wt-1 W ○o Q○QQ 输入层 QQ③◎g○ 0○○◎○O tanh 隐藏层 fost max 输出层 图基于神经网络语言模型的DsSM模型 “基于字词联合训练”神经网络语言模型 在将文本向量化的方法中,常见的是词袋模型,但是词袋模型忽视了词语之间的顺序和 词语之间的语义关系;同时词袋模型无法有效的向量化短文本。现有工作在学习中文文本的 向量表示时往往直接沿用了英文的处理方式,而忽略了中文的特殊性。但是在中文里,最自 然的语言单位是“字”。不同」富含语义信息的词,字仅为记录汉语用的符号系统,木身不 具备语义。为了让字的衣示具有更丰富的语义信息,本文借鉴了 和 的思想, 提出利用某个词上下文中各个词的分布以及构成这个词的字的分布,作为这个词的表示。虽 然字本身仍然不具备语义信息,但是利用这种表示,把字放入词的语义空间中,通过字词联 合训练,可以更有效地对中文语言进行建模 山国武技论文在丝 fost rax 输出层 隐藏层 e Wtn+1) e(W:2) e(Wt1) C(W-) C(cht-2 C(W C(cht-1) 输入层 ⊙○Q○③ ⊙OC OOO W+-n.1 Wt-1 图2.2“字词联合训练”神经网络语言模型 神经网络语言模型采用普通的三层前馈神经网络结构,其中第一层为输入层。其中输入 层首先把构成第个词语的字向量加和归一化后得到的 然后把 和第个词的 词向量拼接,组成输入层向量 因此输入层为词 的字词联合 向量的顺序拼接: 当输入层完成对上文的表示之后,模型将其送入剩下两层神经网络,依次得到隐藏 层和输出层 其中 为输入层到隐喊层的权重矩阵,∈ 为隐藏层到输出层 的权重矩阵,表示词表的大小,表示词向量的维度,为隐藏层的维度 均为模型中的偏置项。矩阵 表示从输入层到输出层的直连边权重矩阵。输 出层一共有个元素,依次对应下一个词为词表中某个词的可能性。这里将其中对应词 的元素记作 由于神经网络的输出层并不直接保证各元素之和为,输出层的并不 是概率值。因此,在输出层之后,需要加入 函数,将转成对应的概率值: 对于整个语料而言,语言模型需要最大化: 般神经网络的输入层只是个输入值,而在这里,输入层也是个参数(仔在向量 中),这也是需要优化的。优化结束后,词向量就有了,语言模型也有了。在字词联合训 山国武花论文在丝 练中,不仅每个词具有对应的词向量,每个字也具有对应的字向量。词向量和字向量的维度 相同,字和词的向量表示在同一个语义空间中。 训练时,神经网络语言模型使用随机梯度下降法米优化上述训练目标。每次迭代, 随机从语料中选取一段文本 作为训练样本,使用下式进行一次梯度迭 代 6<+c ce 式中,∝是学习速率;θ为模型中的所有参数,包括词向量和网络结构中的权重 通过“字词联合训练”得到的词向量,作为输入到 模型中进行训练,解决了 模型的 无法处中文问题,以及常见的词袋模型中忽略的词语的顺序和语义问 题,同时还解决了常见的词向量模犁中忽视了中文以“字”为单位的问题。 基于词向量的 深度神经网络模型 常用的英文单词有万个,如果用词袋模型对文本进行向量化,则会导致文本向量 的维度很高,而且对于一些不常见的或者偏僻的网络用词,如果词袋模型中没有收录这个词, 那么就无法进行量化该词。为了降维和使文本描述更健壮, 模型使用 方 法对单词进行量化, 方法是指假设对单词“”进行一个滑动窗口为的量 化过程,首先在单词的首尾拼接一个特殊字符“”,变成“”,然后用一个长度为 的滑动窗口进行滑动,将单词依次分为“”、“”、“”、“”四个子串, 然后根据这些子串的值映射到一个固定维度的向量中。实验结果表明,经过此转换, 可以将大约 个英语单词,映射到万维的向量中,冲突很少,也可以通过此方 法向量化生僻单词。 但是 方法忽略了词语之间的顺序和词语之间的语义关系,而且如果按照上 述 方法处理中文数据,假如常见的汉字有个,那么至少为 维,这将会造成严重的维度灾难。传统方法是使用词袋模型处理中文文本,但词袋模型也存 在忽视词语之间的顺序以及语义关系的缺陷。 针对上述 模型处理中文文本的缺陷,本文提出基于神经网络语言模型的 多层神经网络模型,通过上面提出的适用于中文文本表示方法的“基于字词联合”训练的神 经网络语言模型得到词向量,充分利用了词语在语义空间的特征和中文的语言特性,同时可 以减少 多层神经网终中 算法的隐减层,降低了神经网络的结构复杂度 和计算复杂度。 优化后的基于神经网络语言模型的模型的结构如图 山国武技论文在丝 P(D1Q) P(D2Q P(Dn Q RIQ, D1 R(O, Dn 低维特征空间y 64 匚64 隐藏层L2 128 128 128 128 隐藏层L1 128 128 词向量ⅹ 255 256 D1 图2.3DSM模型姌经网络结构 其中,是输入的搜索关键词, 包括两部分,分别是点击过的网页和随机分配 的未点击过的网页。 该模型主要分为两部分:()将表示单词的向量映射到他们对应的语义概念向量;() 通过计算 和 的向量的余弦值来计算两者的相似度 其中,包括两部分,一部分是输入后点击过的链接,+,一部分是随机分配 的个木点击过的链接,,本实验设置包括个点击过的网页,包括个未点击 过的网页,计算出检索关键词和网页在低维特征空间的向量的余弦值,即 ,模型的 输出层是 模型,训练过程中就是求解最大似然函数,即: 同样使用随机梯度下降法去优化该模型 实验结果 模型的应用玚景可以从关键词搜索延伸到用户画像和新闻推荐等场景,本实验使 用某新闻客户端的用户画像数据和用户点击过的客户端推荐给用户的新闻数据。考虑到实验 的复杂度,本实验的字词联合分布模型采用的是个隐藏层的神经网络。首先建立生成 词向量的神经网络语言模型时,部分参考 的代码,对训练过程中的随机梯度下降 进行了优化, 只对词向量进行求导更新,优化后的梯度下降是将词向量和字问量 同时求导更新,神经网络语言模型训练结束后,每个词都被映射到一个低维的语义空间,我 们设置的词向量低维语义空间维度为,获得词向量后可以通过一个句子包含的词语的向 量的加权求和得到句向量。 模型实现借助了深度学习框架,采用个隐藏层的深度神经网络,每个隐 藏层的输出结果维度为、 ,输入层是字词联合向量模型得到的词向量加和之后 的向量,采用输出层是一个 分类器 模型最后的输出层是个 分类器,训练模型吋可以将输出转换为对应的 概率。 输入的是一个(搜索关键词,点击过的网页,未点击过的网页)的三元组,将 “字词联合训练”模型生成的词向量输入到 模型中,和使用词袋模型的字词表示方 法作对比,词袋模型设置的是维, 在不同的学习率下的准确率有明显的提升。 山国武技论文在丝 输入测试集后,计算点击过的文档和用户的余弦值、末点击过的文档和用户的余弦值,如果 前者的值大于后者的值,那么我们认为是预测正确的结果,最后正确率预测正确数输入数 据总数。相关实验的准确率如下表,其中是 模型的参数,每一行分别表示在下词袋 模型 和字词联合训练三个模型的准确率,如表 表实验结果 文本表小模型 词袋模型 word2vec 字词联合训练模 型 DSSM多层网络置 a=0.01 g=005 a=0.5 g=1,0 图是通过词袋模型、 和字词联合训练模型产生的词向量在 模型中 的准确率,由图中可以看出,随着 模型的学习率的变化,随着从增大到的 过程中,这三个词向量模型的准确率均为先增大后减小,但是从一条曲线看出,无论的值怎 么变化,准确率均为: 字词联合训练模型 词袋模 型。实验结果曲线验证了“基于词向量的模型”不但解决了 模型无法处理中 文的问题,而且证明“字词联合训练”神经网络语言模型更适合对中文语言模型进行建模。 0.98 冖诃袋袄型 Vec 0.96 一字词联合训练模型 0.94 0.92 0.90 0.88 0.86 0.84 0.82 080 0.78 0.0 0.2 0.4 0.6 0.8 学习率 图 模型在不同学习率下不同模型的准确率 山国武花论文在丝 结论 模型在搜索关键词和搜索结果匹配中会发挥巨大作用,通过计算相似度搜索关键 词和点击网页的相似度并排序,可以返冋最符合搜索关键词的搜索结果。 模型可以扩 展到用户画像和推荐新闻点击等场景应用,这也是本论文实验时基于的应用场景。“基于字 词联合训练”的神经网络语言模型则充分利用了中文以“字”为最自然单位和“词”可以表 达语义信息的特性:学习得到的模型中的词向量作为 模型的输入数据,解决 方法无法处理中文文本问题,充分保留输入数据中词语的顺序和语义信息,減少 神经网络中 方法的隐减层,降低多层神经网终的结构复杂度和 计算复杂度 模型的准确率也有明显提升。 参考文献 李雷基于人工智能机器学习的文字识别方法研究成都:电子科技大学,

-
2019-08-15
7KB
基于lstm的语义相似度计算模型代码
2018-07-03基于lstm的语义相似度计算模型,使用百度qa的数据集进行实验。
大数据的入门视频教程
2018-07-26大数据技术入门视频课程,会从基础思想和原理架构开始,全面介绍大数据的思想体系和架构,为学员进一步学习大数据奠定良好的基础。内容涉及大数据的核心问题、大数据核心思想,Google的三篇论文、GFS,Google的分布式文件系统,MapReduce,BigTable、Hadoop和Spark生态体系以及具体应用演示。
8小时Python零基础轻松入门
2020-05-20
Java系列技术之JavaWeb入门
2018-09-18JavaWeb里的基础核心技术
征服C++ 11视频精讲
2016-09-02【为什么还需要学习C++?】 你是否接触很多语言,但从来没有了解过编程语言的本质? 你是否想成为一名资深开发人员,想开发别人做不了的高性能程序? 你是否经常想要窥探大型企业级开发工程的思路,但苦于没有基础只能望洋兴叹? 那么C++就是你个人能力提升,职业之路进阶的不二之选。 【课程特色】 1.课程共19大章节,239课时内容,涵盖数据结构、函数、类、指针、标准库全部知识体系。 2.带你从知识与思想的层面从0构建C++知识框架,分析大型项目实践思路,为你打下坚实的基础。 3.李宁老师结合4大国外顶级C++著作的精华为大家推出的《征服C++11》课程。 【学完后我将达到什么水平?】 1.对C++的各个知识能够熟练配置、开发、部署; 2.吊打一切关于C++的笔试面试题; 3.面向物联网的“嵌入式”和面向大型化的“分布式”开发,掌握职业钥匙,把握行业先机。 【面向人群】 1.希望一站式快速入门的C++初学者; 2.希望快速学习 C++、掌握编程要义、修炼内功的开发者; 3.有志于挑战更高级的开发项目,成为资深开发的工程师。 【课程设计】 本课程包含3大模块 基础篇 本篇主要讲解c++的基础概念,包含数据类型、运算符等基本语法,数组、指针、字符串等基本词法,循环、函数、类等基本句法等。 进阶篇 本篇主要讲解编程中常用的一些技能,包含类的高级技术、类的继承、编译链接和命名空间等。 提升篇: 本篇可以帮助学员更加高效的进行c++开发,其中包含类型转换、文件操作、异常处理、代码重用等内容。
程序员的数学:概率统计
2019-09-19编程的基础是计算机科学,而计算机科学的基础是数学。因此,学习数学有助于巩固编程的基础,写出更健壮的程序。本门课程主要讲解程序员必备的数学知识,借以培养程序员的数学思维。学习者无需精通编程,也无需精通数学。从概率统计、线性代数、微积分、优化理论、随机过程到当前大热的机器学习,讲师幽默风趣,课件精致美观,深入浅出带你重学数学!
2020华为HCIA/HCNA/数通/路由交换/实验/视频/教程/持续更新赠题库
2020-05-25本课程不仅可以帮助大家顺利考取华为HCIA证书,同时技术视频均为理论+实战配套讲解,讲解细致,通俗易懂,资料完整,可以让大家学到实实在在企业用到的网络技术,本课程包含完整的学习资料,视频+PPT课件,能够帮助你快速掌握HCIA数通网络技术,同时视频中3-4视频后面的附件课件包含了HCIA数通考试题库(带答案),适合从零基础学网络考HCIA的同学!
C++入门基础视频精讲
2018-09-28本课程讲述了c++的基本语言,进阶语言,以实战为基准,高效率传递干货, 教会学员命令行编译直击底层过程,现场编码 并且掌握各种排错思路
Java基础与实践
2018-07-31Java语言是目前流行的一门程序设计语言。本课程是一套全面讲解Java语言程序设计的开发类课程,由浅入深地介绍Java基础内容,主要包括基本类型及运算符、控制执行流程、字符串、面向对象、集合与数组、文件及流、异常、多线程等完整的Java知识体系。
Python数据殿堂:数据分析与数据可视化
2020-01-02【入门基础+轻实战演示】【讲授方式轻松幽默、有趣不枯燥、案例与实操结合,与相关课程差异化】利用python进行数据处理、 分析,并结合大量具体的例子,对每个知识进行实战讲解,本课程通过大量练习和案例对各个知识点技能进行详细讲解。通过本 课程,学生将懂得pandas、numpy、matplotlib等数据分析工具;通过实战,学生将了解标准的数据分析流程,学会使用可视化的 方法展示数据及结果。
爬虫架构师的逆袭之路
2019-12-23在这个信息泛滥的时代,掌握实施有效的数据是诸多企业生存的关键, 面对市场上对数据的无限渴求,Python爬虫工程师炙手可热, 那么毛也不会的你想要摇身一变成为爬虫架构师需要怎么做呢? 啥也别想了,赶紧下单,这个课,真好!
1.71MB
2019年美赛A题特等奖论文(中文版).pdf
2020-04-08本文为2019年美赛A题特等奖论文中文版,好不容易找到的资源分享给大家,供大家学习。
-
学院
flutter插件调用APP页面、使用原生aar,framework库
flutter插件调用APP页面、使用原生aar,framework库
-
博客
linux 8 网卡问题
linux 8 网卡问题
-
下载
禁止用户关闭重启注销操作系统 用户是否可以关闭操作系统是通过对WM_QueryEndSession消息的处理来实现的.zip
禁止用户关闭重启注销操作系统 用户是否可以关闭操作系统是通过对WM_QueryEndSession消息的处理来实现的.zip
-
学院
转行做IT-第8章 类与对象、封装、构造方法
转行做IT-第8章 类与对象、封装、构造方法
-
下载
小米Play维修原理图PCB位置图(PDF格式)
小米Play维修原理图PCB位置图(PDF格式)
-
下载
excel批量生成word.rar
excel批量生成word.rar
-
下载
2019网络空间安全国赛8080缓冲区溢出漏洞.rar
2019网络空间安全国赛8080缓冲区溢出漏洞.rar
-
博客
EasyExcey动态显示表头
EasyExcey动态显示表头
-
学院
商业的本质——杰克·韦尔奇著
商业的本质——杰克·韦尔奇著
-
下载
GCJ2gps.bas
GCJ2gps.bas
-
下载
项目范围管理论文-高项.docx
项目范围管理论文-高项.docx
-
博客
到了剑桥之后的打算
到了剑桥之后的打算
-
学院
第3章 入门程序、常量、变量
第3章 入门程序、常量、变量
-
博客
modbus-tcp 协议详解
modbus-tcp 协议详解
-
下载
重庆公共交通换乘系统的简单实现.zip
重庆公共交通换乘系统的简单实现.zip
-
博客
FFmpeg:浅谈开发准备工作
FFmpeg:浅谈开发准备工作
-
下载
基于bs的企业考勤管理系统
基于bs的企业考勤管理系统
-
博客
手机后置摄像头改装到顶部或底部实现教程
手机后置摄像头改装到顶部或底部实现教程
-
博客
Mysql历史
Mysql历史
-
学院
性能测试面面观
性能测试面面观
-
学院
【数据分析-随到随学】数据可视化
【数据分析-随到随学】数据可视化
-
下载
JavaFX:项目实战——贪吃蛇
JavaFX:项目实战——贪吃蛇
-
下载
Python程序设计大学教程第三版源代码练习课件PPT
Python程序设计大学教程第三版源代码练习课件PPT
-
学院
Laya 2.0 开发3D小游戏 入门教学
Laya 2.0 开发3D小游戏 入门教学
-
博客
vue按需引入第三方ui插件优化
vue按需引入第三方ui插件优化
-
博客
计算机三级 信息安全 选择题1
计算机三级 信息安全 选择题1
-
学院
Python入门到项目直通车
Python入门到项目直通车
-
博客
soul网关dubbo学习(2):dubbo测试用例测试过程分析
soul网关dubbo学习(2):dubbo测试用例测试过程分析
-
下载
Betterwmf CAD 2 Word .rar
Betterwmf CAD 2 Word .rar
-
下载
Notes.docx
Notes.docx