没有合适的资源?快使用搜索试试~ 我知道了~
基于粒子群算法优化支持向量回归的水质预测模型.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 18 浏览量
2022-11-03
10:05:53
上传
评论
收藏 706KB DOCX 举报
温馨提示
试读
13页
基于粒子群算法优化支持向量回归的水质预测模型.docx
资源推荐
资源详情
资源评论
0 引言
水质系统是一个受诸多具有非确定性的时变特征的因素共同影响的复杂生态系统,各项水质指标之
间存在不同程度的多重相关性和冗余信息,在短期的水质指标预测中,若直接利用这些因子建立预测模
型,易出现“过拟合”现象,导致预测精度低
[1]
。溶解氧(dissolved oxygen,DO)是衡量水生生态系统状况
的重要指标,浓度越高,说明水体受到污染的程度越严重
[2]
,准确的溶解氧预测仍然是水管理人员面临的
挑战,在生态系统可持续性发展中起着重要作用
[3]
。通过对溶解氧影响因素分析与预测模型的建立,对水
质溶解氧的变化特征和趋势进行研究,有助于管理者进行早期决策,因此,准确预测水质指标 DO 具有一
定的经济价值和现实意义。
一些学者通过溶解氧的含量,来预估水库受到有机污染物污染的趋势,并取得了巨大成就
[4-5]
。传统
的专家评价系统、数理统计、时间序列、灰色理论等预测方法在检测水质指标之间的非线性和非平稳性关
系时易出现局部极值、过学习等问题,导致预测模型的精确度降低
[6]
。由于 BP 神经网络和支持向量机的
计算复杂度较低和泛化能力较强等优点,在解决非线性问题时吸引了学者更多的关注
[7]
。支持向量机能克
服 BP 神经网络的易出现重复性差、过度拟合等缺陷,对于小样本数据集具有较强的泛化能力,而且支持
向量回归机(SVR)不需要先验地定义体系结构,结构风险最小化原理使 SVR 在处理未知变化情况的数据
中具有不降低预测精度和运行效率的独特优点,更适用于水质指标的预测
[8-9]
。研究问题时为了使预测结
果更具有代表性,采集数据时会尽可能多的获取特征变量,导致部分特征变量间存在弱相关且冗余。因
此,选择最佳的特征选择方法也是构建溶解氧预测模型的一项重要任务。张森等首先利用偏最小二乘法提
取与水质指标强相关弱冗余的特征变量,降低了预测模型的输入维度,然后利用改进的粒子群(PSO)算法
优化 SVM 的模型进行水质预测,通过仿真实验证明了该模型的预测精度和运行效率都优于其它模型
[10]
。
但是,对于选取水质指标溶解氧影响因素的特征选择方法没有具体的定义,而且确定特征变量的个数也是
提高预测模型精确度的关键因素。主成分分析(PCA)是一种降维的多元统计分析方法,它在考虑数据集潜
在结构的情况下,将原始数据映射到几个具有较大特征值的主成分组成的线性子空间,在确定特征变量维
数上具有实际应用
[11]
。吴慧英等建立了主成分分析和支持向量回归机(PCA-SVR)结合的预测模型,通过
对 DO 含量的预测验证了该模型的有效性
[12]
。但当数据集较大时,PCA 的内存处理效率低,需要其它方
法来寻找特征值。互信息(MI)在保留强相关特征的同时在一定程度上去除冗余
[13]
。如果只利用互信息算法
选取特征,会存在相关特征过度删除,导致数据集丢失有用信息且在选取特征变量的数目上具有主观因
素。因此,为了解决单一模型的局限性,本文选取 PCA 与 MI 组合的特征选择方法对溶解氧的特征变量
进行选取,减少特征变量之间的强耦合性引起的误差。
现在国内外学者通过 SVR 模型对溶解氧预测的研究很少,且寻找支持向量回归机(SVR)的惩罚函数
c 和核函数 g 的最优参数没有具体的策略,一些学者利用遗传算法(GA)、粒子群算法(PSO)对 SVR 的 c
和 g 进行了优化。薛同来等利用 GA 优化 SVR 的参数,构建了 GA-SVR 的水质指标组合预测模型并进行
仿真,把该模型与 BP 神经网络、SVR 模型的预测结果进行对比分析,证明了 GA-SVR 模型减少了最优
参数的选取时间,具有较高的准确性与泛用性
[14]
。Huan 等提出一种混合的“分解—预测—重建”模型,将
集成经验模式分解(EEMD)和最小二乘支持向量机(LSSVM)相结合,提高了 DO 预测的精确度和有效性
[15]
。罗学科等利用差分自回归移动平均(ARIMA)与粒子群优化算法(PSO)搜寻支持向量回归机(SVR)模型
的最优参数的组合预测模型对巢湖水域的 DO 进行预测,通过对比单一和组合模型的预测结果,验证了组
合模型的适用性和可靠性
[16]
。但 GA 算法的收敛速度较慢,而且其参数交叉率和变异率等的选择凭借于经
验,具有主观性,影响优化结果;PSO 算法在优化 SVR 的参数上具有较快逼近最优解的速度,但易出现
早熟收敛现象。为了解决上述问题,本文在结合线性递减惯性权重的 PSO 算法理论下,借鉴高斯函数的
分布特性对 PSO 算法的权重进行改进,建立了一个非线性动态惯性权重的粒子群算法(particle swarm
optimization with nonlinear decreasing weight based on Gaussian function,GNIPSO)优化 SVR 参数的
模型(GNIPSO-SVR),提高预测模型的精确度、收敛速度和搜索能力。
综上所述,本文采用 PCA 和 MI 组合特征选择方法选取的特征变量作为 GNIPSO-SVR 模型的输
入,建立了组合预测模型,并对考虑了空气中污染物的影响因素的上海水质指标溶解氧的进行影响因素分
析和预测,以验证该模型的可行性与应用价值。
1 模型理论研究 1.1 互信息理论
信息熵是由美国科学家香农(Shannon)提出,主要是用来判断随机变量的不确定性程度,其值越
大,所包含的信息量就越大
[17]
。用 H(X)表示信息源 X={x
1
,x
2
,…,x
n
}对应的信息熵,每个信息源 x
i
所
对应的概率为 P(x
i
),则:
(1)
在条件 Y 确定的情况下,信息源 X 可以用条件熵来描述,如式(2):
(2)
P(x
i
,y
i
)为二维向量(X,Y)的联合概率分布,则联合熵可以定义为式(3)的形式:
(3)
互信息(mutual information,MI)是机器学习的一种算法,不仅能反映每个输入变量与目标输出变量
之间的线性关系,也能反映其非线性关系
[18]
。它在反应变量之间的相关性比相关系数更加全面,主要是从
所有测量信号中选择最相关的变量作为模型的输入变量
[19]
。对于给定目标变量 Y 后,特征变量 X 的不确
定性减少程度为
(4)
式(4)中 p(x
i
)为 X 的边缘概率分布,p(y
i
)为 Y 的边缘概率分布,p
XY
(x,y)是 X 和 Y 的联合概率分布
函数。
1.2 支持向量回归机
支持向量回归机(support vector regression,SVR)与 SVM 的主要不同点是寻找的一个最优超平
面,不是将两类样本点分离的最远,而是让所有的样本点距离这个最优超平面的总方差最小
[20]
。若给定样
本数据集{(x
i
,y
i
),i=1,2,…,n},其中,x
i
=[x
i
1
,x
i
2
,…,x
i
d
]
T
,y
i
∈R 则可以建立如式(5)的回归函
数:
(5)
式(5)中,φ (x)为原始特征数据的非线性映射函数,w 为权向量,b∈R 为阈值。
引入线性不敏感损失函数 θ,f(x
i
)表示预测值,y
i
为相对应的实际值,|y
i
-f(x
i
)|为真实值与预测值之间
的差,θ 不敏感函数引用的意义在于若|y
i
-f(x
i
)|在允许误差范围内,那么 f(x
i
)没有损失,如式(6)所示。引入
正则化参数 c,式(5)可以转化为式(7)的代价函数:
(6)
(7)
引入松弛变量 ξ
i
1
和 ξ
i
2
,可以建立式(8)的目标函数与式(9)的约束条件:
(8)
(9)
引入拉格朗日函数和核函数,K(x
i
,x
j
)=φ(x
i
)φ(x
j
)可将式(8)和式(9)变换成对偶形式:
(10)
剩余12页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3905
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功