1
颜色与物质浓度的辨识问题
摘要
本文是对颜色与物质浓度的辨识问题的研究,通过对溶液色度值与待测物浓
度的实验数据进行多元回归分析,建立了线性和非线性回归方程模型,给出了数
据的评价准则和模型的误差分析。
问题一:首先依据对数据初步分析,发现物质浓度与颜色读数存在着一定的
关系。利用 MATLAB 统计工具箱中的 Regress 函数求出回归系数和置信区间,并
进行残差分析,最终建立关于颜色读数和物质浓度的多元线性回归模型。基于对
模型的检验分析的基础上,给出了判别数据优劣的五大准则,分别是评估模型是
否成功的四个要素,
F
检验、相关系数
2
R
、
P
值、估计误差方差
2
S
;再加上数
据完整性要素,即模型拟合过程中是否存在异常数据剔除。根据判别准则,数据
优劣的排序为:组胺>溴酸钾>奶中尿素>硫酸铝钾>工业碱。
问题二:首先建立二氧化硫浓度与颜色读数之间的线性回归模型,模型的残
差较大,拟合效果不佳。考虑建立非线性二次回归模型,利用 MATLAB 统计工具
箱中的 rstool 函数建模,通过剩余标准差和残差评估模型优劣。最终建立的非
线性二次回归模型中,剩余标准差很小,预测模型非常好,模型的残差相比五元
线性回归模型降低了一个数量级,因此线性二次回归模型比线性回归模型更优。
问题三:首先降低多元线性回归模型中颜色的维度来分析颜色维度对模型的
影响;然后再通过减少数据量来分析数据量对模型的影响。通过分析发现:数据
量不能低于 6,一般在 10-15 之间;颜色纬度可以降低,二纬和三纬都可以,一
纬模型就不太优甚至不成立了,而且颜色维度的大小比数据量的多少对模型的影
响更大;于是最后使用层次分析法对数据量的多少和颜色维度的大小对模型的影
响因子进行分析求解,得出了影响因子分别为 0.414 和 0.586。
关键词:多元线性回归,多元非线性二次回归,MATLAB,误差,层次分析法