没有合适的资源?快使用搜索试试~ 我知道了~
基于混合变分自编码器回归模型的软测量建模方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 93 浏览量
2023-02-23
16:49:35
上传
评论
收藏 3.75MB DOCX 举报
温馨提示
试读
21页
基于混合变分自编码器回归模型的软测量建模方法.docx
资源推荐
资源详情
资源评论
在实际工业生产过程中, 需要对一些关键的质量变量进行实时测量, 如产品浓度、过
程气体含量、催化剂活性和熔体指数等, 这对实现有效的过程控制和提高产品质量具有重
要意义
[1-5]
. 然而, 由于极端的测量环境、昂贵的仪器成本、大的分析测量延迟等因素, 关键
质量变量的物理测量难以实现
[6-8]
. 因此, 软测量技术应运而生. 软测量是一种虚拟传感器技
术, 通过构建数学模型, 以一组容易测量的相关过程变量为输入, 以过程关键质量变量为输
出, 来快速准确地估计这些难以直接测量的质量变量
[9-11]
. 一般来说, 软测量方法可大致分
为两种, 模型驱动的软测量和数据驱动的软测量
[12-13]
. 与前者相比, 数据驱动的软测量方法
不需要精准的机理模型和大量的过程专家知识, 更加具有灵活性和实用性. 此外, 随着分布
式控制系统(Distributed control systems, DCSs)在现代工业过程中的广泛使用, 收集到的数据
也日益增多, 为数据驱动建模方法提供了丰富的数据保证
[14]
. 因此, 数据驱动的软测量方法
受到了越来越多的关注. 经典的基于数据驱动的软测量建模方法有主成分回归分析
(Principal component regression, PCR)
[15]
、偏最小二乘法(Partial least squares, PLS)
[16]
、支持向
量机(Support vector machine, SVM)
[17]
和人工神经网络(Artificial neural-network techniques,
ANN)
[18]
等.
近年来, 深度学习作为一种新兴技术, 在图像处理、计算机视觉、自然语言处理等应
用领域都取得了很大的进展. 与传统的浅层方法相比, 深度学习方法具有更深的网络结构,
它能够通过多层非线性映射, 从数据中提取更深层的抽象特征, 具有强大的数据建模能力.
因此, 面对越来越复杂的大规模现代工业过程, 深度学习具有不可替代的优势, 已经被应用
到了软测量领域当中
[19]
. 例如, Yao 和 Ge 提出了一种基于分层极限学习机的半监督深度学
习软测量模型
[20]
. Yuan 等开发出一种质量相关自动编码器, 用于提取深层次的输出相关特
征
[21]
. Zhang 和 Ge 基于门控循环单元和编码解码网络, 设计了一种深度可迁移动态特征提
取器, 并应用于软测量
[22]
. Zheng 等将集成策略、深度信念网络和核学习集成到软测量框架
中, 建立了集成深度核回归模型, 并扩展到半监督形式
[23]
. 然而, 由于过程的随机扰动等原
因, 几乎所有的过程数据都会受到随机噪声的污染, 从本质上来说, 过程变量都属于随机变
量
[14, 24-25]
. 最近, Kingma 和 Welling 提出了变分自编码器
[26]
, 一种深度生成模型, 它结合了深
度学习和贝叶斯变分推断. 作为一种以深层神经网络为结构的概率框架模型, VAE 既具有
深度学习的非线性特征提取能力, 又能像概率模型那样对过程不确定性和数据噪声进行建
模. 基于这些优点, VAE 已经被引入到工业过程中, 并逐渐被用于过程监测和软测量建模等
应用场景
[27-31]
.
尽管目前 VAE 在软测量应用中取得了一些进展, 但是传统的 VAE 通常假设其潜在变
量分布服从高斯分布, 因此模型学习到的特征表示只能是单峰形式, 难以充分发挥潜在空间
编码的能力和灵活性. 这在很大程度上限制了 VAE 对复杂特性过程数据的描述, 如工业领
域广泛存在的多模态数据, VAE 的建模性能很难得到有效的保障. 在实际工业过程中, 由于
原料比例、产品需求、制造策略等因素的变化, 经常会发生操作条件的转变, 即工况发生变
化, 从而使过程数据呈现典型的多模态特性
[32-34]
. 近年来, 学者们提出了一些 VAE 变体模
型, 通过使用复杂的先验等手段来促进编码的灵活性, 但他们的目标大多是进行无监督聚类
[35-37]
. 到目前为止, 还没有 VAE 在多模态工业过程软测量应用中的相关研究报导. 基于以上
讨论, 本文结合高斯混合模型的思想, 基于 VAE 框架提出一种混合变分自编码器回归
(MVAER)模型, 用于解决多模态过程的质量预测问题. 该方法采用高斯混合模型来描述
VAE 的潜在空间变量分布, 分别对应工业过程中的多个模态. 通过非线性映射将复杂多模
态数据映射到潜在空间, 学习各模态下的潜在变量, 获取原始数据的有效特征表示. 同时,
建立潜在特征表示与关键质量变量之间的回归模型, 实现软测量应用. 通过一个数值算例和
一个实际工业案例, 验证了所提方法的有效性和可行性.
本文的其余部分组织如下. 在第 1 节中, 简要回顾了 VAE 模型. 在第 2 节中, 介绍了
所提出的 MVAER 模型的主要思想和详细的推导过程, 并介绍了基于 MVAER 的软测量建
模与应用方法. 在第 3 节中, 通过两个案例对 MVAER 进行了性能评估. 最后, 在第 4 节中
得出本论文的结论.
1. VAE 概述
VAE 是一种无监督的深度生成模型, 结合了深度学习和贝叶斯概率推断的观点. 它假
设数据$ x $是由某个具有不可观测的连续随机隐变量$ z $的随机过程产生的. 观测数据的
边际似然可以写为:
$$ p(x) = \int {{p_\theta}(x|z)p(z){\rm{d}}z} $$
(1)
其中, $ {p_\theta}(x|z) $是生成模型, 可以被描述为多元高斯分布, $ p(z) $是先验, 通常
被简单地设置为标准高斯分布${\rm{N}}(0,1)$.
根据贝叶斯定理, 可以得到隐变量$ z $的后验分布为$p(z|x) =
\dfrac{{{p_\theta }(x|z)p(z)}}{{p(x)}}$. 然而, 由于生成模型的参数$ \theta $和隐变量都是未
知的, 这里隐变量的积分和后验概率都是难以处理的. 因此, VAE 根据变分推断的思想, 引
入一个额外的变分分布$ {q_\phi}(z|x) $作为推断模型, 来近似难解的真实后验. 与生成模型
相似, 推断模型$ {q_\phi}(z|x) $也可以描述为多元高斯分布.
VAE 的优化目标是最大化边际似然函数的证据下界.
$$ L(\theta ,\phi ) = {{\rm{E}}_{{q_\phi }(z|x)}}[\ln {p_\theta }(x|z)] - {{\rm{D}}_{KL}}[{q_\phi }(z|x)||p(z)] $$
(2)
其中, 等号右边的第一项是给定$ {p_\theta }(x|z) $时, $\ln {p_\theta }(x|z)$ 的期望, 用
来保证重建数据与真实数据之间的匹配程度; 第二项是一个 Kullback-Leibler (KL)散度项,
可以被看作是一种正则化, 指导近似后验分布尽可能地接近先验分布.
VAE 的模型结构如图 1 所示. 可以看到, 在 VAE 中, 推断模型$ {q_\phi}(z|x) $ 被参数
化为一个参数为$ \phi $的神经网络, 称为概率编码器. 它将输入数据映射到低维潜在空间,
得到其隐变量表示$ z, $ 这可以看作是对输入数据的特征提取; $ {p_\theta}(x|z) $被参数化为
另一个参数为$ \theta $的神经网络, 称为概率解码器, 它从潜在空间中重建原始数据. 通过
最小化负变分证据下界, 同时优化模型的参数$ \phi $和$ \theta. $ 更多详细内容可以参考文
献[26, 38-39].
图 1 VAE 模型结构图
Fig. 1 Model structure of VAE
下载: 全尺寸图片 幻灯片
2. 基于混合变分自编码器回归模型的软测量方法
在实际应用中, 传统的基于 VAE 的软测量方法难以对工业中广泛存在的多模态数据
进行有效的特征提取. 为了解决这一问题, 本节将提出一种混合变分自编码器回归模型, 并
将其应用于软测量模型的构建. 总体而言, 该方法结合了 VAE 框架和高斯混合模型, 并将
特征提取和回归建模融为一体, 使其对复杂多模态过程的关键质量指标数据具有更好的预
测性能.
2.1 混合变分自编码器回归模型
混合变分自编码器回归模型本质上是建立在 VAE 框架上, 同样可以通过生成模型和
推断模型来描述.
模型假设输入数据$ x $由随机连续潜在变量$ z $生成, $ z $在潜在空间中服从高斯混
合分布. 为了建立关键质量变量, 即输出变量$ y $的回归模型, 假设$ y $也由潜在变量$ z
$生成, 那么生成过程可以描述为:
$$ \begin{split} &p({c_k} = 1) = {\pi _k}\\ &p(z|{c_k}{\rm{ = }}1) = {\rm{N}}(z|{\mu _k},\sigma _k^2)\\ &{p_{{\theta _x}}}(x|z) =
{\rm{N}}(x|{\mu _x},\sigma _x^2)\\ &{p_{{\theta _y}}}(y|z) = {\rm{N}}(y|{\mu _y},\sigma _y^2) \end{split} $$
(3)
其中$ {\bf{\pi }} = \{ {\pi _k}\} _{k = 1}^K $代表各个高斯成分的混合系数, 满足
$ \sum\nolimits_{k = 1}^K {{\pi _k}} = 1 $. 变量$ c $是一个 one-hot 形式的类别向量, 表示
数据样本的潜在成分标签, $ c_k $表示向量$ c $中的第$ k $个元素, $ {c_k} = 1 $则表示选中
了潜在空间中的第$ k $个高斯成分, 为了简便, 之后涉及到的$ {c_k} = 1 $都简化为$ c_k $.
假设$ x $和$ y $相互条件独立, 当从选择好的高斯类中采样得到隐变量$ z $, 将其经过由
$ {\theta_x} $参数化的神经网络(被称为解码器), 生成$ x $: 同时, 经过由$ {\theta_y} $参数
化的神经网络(被称为回归器), 则可得到$ y $.
根据上述生成过程, 生成模型可以用联合概率分布表示并被分解为:
$$ \begin{split} &{p_\theta }(x,y,z,c) = \sum\limits_{k = 1}^K {{p_{{\theta _k}}}(x,y,z,{c_k})} =\\ &\qquad\sum\limits_{k = 1}^K {{p_{{\theta
_x}}}(x|z){p_{{\theta _y}}}(y|z)p(z|{c_k})p({c_k})} \end{split} $$
(4)
数据样本点的边缘概率$ p(x,y) $的$ \log $似然函数可以推导为:
$$ \begin{split} &\ln p(x,y) = \int_z {\sum\limits_{k = 1}^K {q(z,{c_k}|x)\ln p(x,y)} } {\rm{d}}z=\\ &\qquad\int_z {\sum\limits_{k = 1}^K
{q(z,{c_k}|x)\ln \frac{{p(x,y,z,{c_k})}}{{p(z,{c_k}|x)}}} } {\rm{d}}z=\\ &\qquad\int_z {\sum\limits_{k = 1}^K {q(z,{c_k}|x)\ln
\frac{{p(x,y,z,{c_k})}}{{p(z,{c_k}|x)}}\frac{{q(z,{c_k}|x)}}{{q(z,{c_k}|x)}}} } {\rm{d}}z=\\ &\qquad\int_z {\sum\limits_{k = 1}^K
{q(z,{c_k}|x)\ln \frac{{p(x,y,z,{c_k})}}{{q(z,{c_k}|x)}}} } {\rm{d}}z+ \\ &\qquad\int_z {\sum\limits_{k = 1}^K {q(z,{c_k}|x)\ln
\frac{{q(z,{c_k}|x)}}{{p(z,{c_k}|x)}}} } {\rm{d}}z=\\ &ELBO(\theta ,\phi ;x,y)+ {{\rm{D}}_{KL}}(q(z,c|x)||p(z,c|x)) \end{split} $$
(5)
其中, $ ELBO(\theta ,\phi ;x,y) $是边缘概率似然函数的证据下界; $ {q_\phi}(z,c|x) $是
推断模型, 作为一个额外引入的变分后验, 用来逼近难以计算的真实复杂后验$ p(z,c|x) $,
可以被分解为:
$$ {q_\phi }(z,c|x) = {q_{{\phi _z}}}(z|x,c){q_{{\phi _c}}}(c|x) $$
(6)
其中, $ {q_{{\phi _c}}}(c|x) $部分用来计算样本点属于每个混合成分的概率, 可以参数
化为最后一层是 Softmax 层的神经网络; $ {q_{{\phi_z}}}(z|x,c) $部分用于学习每个模态下
数据在潜在空间中的特征表示, 同样被参数化为神经网络, 我们称之为编码器. 所提模型的
详细结构图如图 2 所示.
剩余20页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3652
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功