【免费】chap15-序列生成模型1资源-CSDN文库

需积分: 0 41 浏览量 2022-08-03 11:49:33 上传评论收藏 719KB PDF 举报

【序列生成模型】序列生成模型主要用于处理如声音、语言、视频等序列形式的数据。它们试图模拟和理解自然语言中的复杂语法和语义规则，通过概率分布来表达这些规则。在自然语言处理中，一个句子可以被视为词的有序序列，而语言规则则可以看作是这些词的联合概率分布。【自回归生成模型 (Autoregressive Generative Model)】自回归模型是一种常见的序列概率模型，它利用序列中先前元素的信息来预测当前元素的概率。序列的概率可以通过条件概率的乘积表示，即每个单词出现的概率基于前面所有单词的出现情况。自回归模型在每一步都依赖于之前生成的输出，以此方式逐步生成序列，直到达到预设的终止条件，如遇到特殊符号“<eos>”。【学习问题与生成问题】序列模型面临两个主要任务：学习问题，即从给定的序列数据中估计出概率分布；生成问题，即使用学到的模型生成新的、符合概率分布的序列样本。【条件概率与乘法规则】序列的概率可以通过概率的乘法规则计算，即每个单词xt在给定前t-1个单词x1:(t-1)的条件下出现的概率的乘积。这种分解使得序列概率密度估计转化为条件概率p(xt|x1:(t-1))的估计问题。【对数似然函数与参数估计】在训练序列模型时，通常使用最大似然估计最大化数据集的整体对数似然函数，以便找到最佳模型参数θ。这涉及求解条件概率的参数，使得整个序列的对数概率总和最大。【N元统计模型】N元模型是序列概率模型的一种简单形式，它基于历史n个词来预测下一个词。例如，二元模型考虑当前词和前一个词，三元模型则考虑当前词、前一个词和前前一个词。N元模型通常假设条件概率服从多项式分布，并可以通过统计方法进行估计。【深度序列模型】随着深度学习的发展，使用神经网络的深度序列模型变得越来越流行。这些模型能够捕获更复杂的序列依赖关系，例如循环神经网络(RNN)、长短时记忆网络(LSTM)和门控循环单元(GRU)，以及后来的Transformer模型等。【拉格朗日乘子与拉格朗日函数】在优化问题中，拉格朗日乘子λ用于处理约束条件，而拉格朗日函数Λ(θ, λ)结合了目标函数和约束条件，使得在满足约束的情况下寻找最优解成为可能。在本章节的上下文中，可能是用于约束模型的某些性质，如正则化项，以防止过拟合。序列生成模型是深度学习和自然语言处理中的核心概念，它们通过学习和理解数据中的模式来生成新的序列。这些模型的构建和训练涉及概率论、统计学和优化理论，同时利用现代深度学习技术来提高性能和表达能力。

资源详情

资源评论

资源推荐

334 2019 年 4 月 6 日第 14 章序列生成模型

定一组序列数据，估计这些数据背后的概率分布；（2）生成问题：从已知的序

列分布中生成新的序列样本。

序列数据一般可以通过概率图模型来建模序列中不同变量之间的依赖关

系，本章主要介绍在序列数据上经常使用的一种模型：自回归生成模型（Autoregressive

Generative Model）。

不失一般性，本章以自然语

言为例来介绍序列概率模型。

14.1 序列概率模型

序列数据有两个特点：（1）样本是变长的；（2）样本空间为非常大。对于

一个长度为 T 的序列，其样本空间为 |V|

。因此，我们很难用已知的概率模型

来直接建模整个序列的概率。

根据概率的乘法公式，序列 x

1:T

的概率可以写为

p(x

1:T

) = p(x

)p(x

1:2

) ···p(x

1:(T −1)

) (14.3)



t=1

p(x

1:(t−1)

), (14.4)

其中 x

∈ V, t ∈ [ 1, T ] 为词表 V 中的一个词，p(x

) = p(x

)。

因此，序列数据的概率密度估计问题可以转换为单变量的条件概率估计问

题，即给定 x

1:(t−1)

时 x

的条件概率 p(x

1:(t−1)

)。

给定N 个序列数据 {x

(n)

1:T

}

n=1

，序列概率模型需要学习一个模型p

(x|x

1:(t−1)

)

来最大化整个数据集的对数似然函数。

max



n=1

log p



(n)

1:T



= max



n=1



t=1

log p



(n)

1:(t−1)



. (14.5)

在这种序列模型方式中，每一步都需要将前面的输出作为当前步的输入，是

一种自回归（autoregressive）的方式。因此这一类模型也称为自回归生成模型

自回归模型参见第6.1.2节。

（Autoregressive Generative Model）。

由于 X

∈ V 为离散变量，我们可以假设条件概率 p

1:(t−1)

) 服从多项

分布，然后通过不同的模型来估计。本章主要介绍两种比较主流的模型：N 元

多项分布参见第D.2.2.2节。

统计模型和深度序列模型。

N 元统计模型参见第14.2节。

深度序列模型参见第14.3节。

14.1.1 序列生成

一旦通过最大似然估计训练了模型 p

(x|x

1:(t−1)

)，就可以通过时间顺序来

生成一个完整的序列样本。令 ˆx

为在第 t 时根据分布 p

(x|

1:(t−1)

) 生成的词，

ˆx

∼ p

(x|

1:(t−1)

), (14.6)

邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/

剩余29页未读，继续阅读

评论收藏

内容反馈

懂得越多越要学

粉丝: 28
资源: 307

chap15-序列生成模型1

评论0

最新资源

chap15-序列生成模型1

评论0

Chap15 函数1

chap6-循环神经网络.pdf

chap-语言模型与词嵌入1

多媒体技术：chap4-多媒体图像处理.ppt

软件需求分析课件：Chap 2-Intro to UML.ppt

算法导论（第三版）课后答案

面向对象程序设计教案

chap-绪论.pptx

Nonlinear Time Series Nonparametric and Parametric Methods-chap1

CHAP2.rar_radar

chapter02.rar_chap 1 pattern rec_pattern recognition

chap3_MPC_SpeedCtrl_轨迹跟踪_mpc跟踪控制_MPC_MPC模型预测_MPC跟踪.zip

今日干饭背诵Chap5数据链路层（1.1）1

机器学习的doc

chap单服务台排队系统仿真PPT教案.pptx

形式语言与自动机 （第2版）.rar

细说PyTorch深度学习：理论、算法、模型与编程实现 03

JAEE5.0的新技术案例

微处理器系统结构与嵌入式系统设计课件：chap2 计算机系统组成与工作原理.ppt

gode.zip_MATLAB 以太网_ethernet matlab_matlab以太网_以太网_以太网 代码

CCNA知识点总结

自动机、L系统、群集智能、蚂蚁群算法、自我复制理论

dvanced Animation with DirectX

计算理论导引 第二版答案

30天学通java web项目案例开发

软件编译原理.rar

Petri网，Pdf格式，电子教案

RML.rar_rml _极大似然

毕业设计-图书管理系统

最新资源

形式语言与自动机（第2版）.rar

gode.zip_MATLAB 以太网_ethernet matlab_matlab以太网_以太网_以太网代码

计算理论导引第二版答案