没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论













1
基于随机森林优化下的古代玻璃制品风化模型
摘要
中国古代玻璃极易受埋藏环境的影响而风化,其内部的元素和环境中的元素进行了
大量的交换,故而会造成风化前后化学成分的变化。为探究不同玻璃的鉴别方式与成分
变化,本文建立了随机森林优化下的古代玻璃制品风化模型,求解出了玻璃类型的分类
规律,并对不同化学成分的关联关系进行了研究。
针对问题一,本文首先对表单 1 内的颜色数据的缺失部分使用其相对应的纹饰、类
型的众数予以补齐。其次,为分析题目所给的四个定类变量之间的关系,本文采用了交
叉表来验证其是否存在相关性,由卡方验证结果得到了表面风化同玻璃类型是强相关,
同纹饰是弱相关,同颜色无相关。接着,通过观察箱体图可知:铅钡类的氧化铅含量较
高,高钾类的氧化钾含量较高。最后,为预测风化点风化前的化学成分含量,本文根据
上述对风化有影响的玻璃类型和纹饰将样本分为三类,并利用这三类风化前后的均值求
得均值偏差率,通过偏差率来预测风化前的数值。为验证结果的准确性,分别对三类样
本的预测数值求均值后,发现和已有的未风化数据的均值相吻合,即预测效果较为理想。
针对问题二,为求解高钾玻璃与铅钡玻璃的分类规律问题,本文首先对样本的缺失
值进行填补,接着通过对 14 个化学成分指标建立了基于重采样的随机森林模型,再加
入噪声值得到指标重要性,结果表明二氧化硅、氧化钾、氧化铅和氧化钡会对分类起决
定作用。最后,为针对不同类别玻璃进行亚类划分,本文建立了基于投影寻踪法的降维
模型,将 14 个化学成分指标降到了 5 个重要成分指标,再对降维后的指标运用改进后
的 k-means 聚类算法,设定聚类数为 3,所得到的亚类与实际情况相符。在这之后我们
建立了损失函数来对分类结果的合理性以及灵敏性进行分析,通过聚类数的改变对损失
函数进行寻优,发现初始设定的聚类数较为合理。
针对问题三,本文沿用了问题二的思路,在加入有无风化这一指标后,仍采用随机
森林模型对玻璃类型进行预测,得到测试集预测准确率为 100%,对表单 3 预测结果为:
A1
A2
A3
A4
A5
A6
A7
A8
高钾
铅钡
铅钡
铅钡
铅钡
高钾
高钾
铅钡
通过观察随机森林得到的指标重要性可知:有无风化这一指标对分类结果作用较小,这
同问题一结论相悖。因此本文拓展了 SVM 和贝叶斯判别法结合扰动项对有无风化这一
指标的重要性进行验证,并利用混淆矩阵分别验证其分类准确性,结果显示有无风化这
一指标对两个算法的分类准确性同样没有影响,即是否风化对分类结果的影响可以忽略。
最后,本文对指标数值叠加了正态扰动来用于检验随机森林模型的敏感性,检验结果表
明该模型拟合效果较好。
针对问题四,本文建立了逐步回归模型求出不同类别化学成分之间的线性关联关系,
通过观察线性拟合的评判指标,来判定自变量指标对因变量指标的拟合效果。最终通过
VIF 方差膨胀因子观察指标之间的共线性强弱,并以上述两个指标作为依据分析不同类
别化学指标的差异性。最终,具体差异性表现为:两类玻璃的二氧化硅、氧化钾、氧化
铅和氧化钡指标具有显著差异性,同题目二得到的结果相符。
关键词:玻璃风化 亚类划分 随机森林 逐步回归 正态扰动

2
一、 问题重述
1.1 问题背景
玻璃的主要成分是二氧化硅,不同玻璃的化学成分不同,而古代玻璃在长时间的埋
藏过程中,极易受到周围环境的影响发生风化,导致其成分比例发生变化。风化严重的
玻璃表面会完全被风化物所覆盖,导致其原貌几乎无法辨认,从而影响对其类别的正确
判断。如图 1 为某风化玻璃的风化层分布扫描图
[1]
。由图可知风化区和未风化区存在明
显的交界线,通过研究其化学成分的差异性,可得到不同种类玻璃文物的风化规律,对
玻璃的风化腐蚀预防工作具有重要的参考价值。
图 1 铅钡玻璃风化层分布扫描图
1.2 需要求解的问题
1. 探究玻璃文物的表面风化情况与其玻璃类型、纹饰以及颜色的关系;统计玻璃
文物在有无风化情况下的化学成分的含量规律;根据上述规律以及风化点的检
测数据,预测其风化前的化学成分含量。
2. 分析高钾玻璃与铅钡玻璃的分类规律;制定相关规则,分别对两类玻璃进行亚
类划分,并对分类结果的合理性和敏感性进行分析。
3. 对表单三中样本进行化学成分分析,鉴定其所属类别,并对分类结果的敏感性
进行分析。
4. 分析不同类别玻璃文物样本的化学成分之间的关联关系,并比较其二者在化学
成分关联关系上的差异性。
二、 问题分析
2. 1 问题一分析
问题一要求分析玻璃文物表面的风化与其玻璃类型、纹饰和颜色的关系,并得到相
关化学成分与风化之间的统计规律,预测风化前的化学成分含量。为了解决表单一的缺
失数据,我们首先要对其进行合理填补。其次,由于表单一的数据属于非数值类型,故
可采用交叉表卡方检验来分析变量之间是否存在相关性。
为了根据风化后的样本数据预测风化前样本的化学成分含量,建立各化学成分风化
前后化学成分的变化函数模型,并对其进行求解并预测风化前的文物化学成分含量。
2. 2 问题二分析
问题二要求分析高钾玻璃与铅钡玻璃的分类规律,并对这两个类别分别选择合适的
化学成分对其进行亚类划分。首先,根据问题要求,成分比例累加和介于 85%~105%之

3
间的数据视为有效数据,故本问首先需要制定合理的规则来填补成分比例累加和小于 85%
的样本,以保证数据的有效性。
其次,为得到玻璃的分类规律,本文建立了 14 个化学成分指标与玻璃分类之间的
联系,由于指标较多,可能存在相关性较小的指标,为提高模型的科学性,可先筛选出
其中最为重要的指标,再建立其分类模型。
最后,为针对不同类别玻璃进行亚类划分,需要重新对高钾玻璃与铅钡玻璃的重要
化学指标进行检验,可先通过投影寻踪法对指标进行降维处理,再对降维后的指标运用
改进后的 k-means 聚类,寻求到最佳聚类数,即为亚类数。通过改变聚类数目,观察模
型准确率,即可分析得到该模型的拟合效果。
2. 3 问题三分析
问题三要求鉴别未知类别玻璃文物所属的类型,首先可以延用问题二的随机森林模
型,判别其预测效果。再根据其所得结论,比较与上述两个问题的结论是否存在差异,
若是,则本问可继续选用其他二分类算法探究表单三的文物类别,如 SVM 向量机模型、
贝叶斯分类模型等等。利用混淆矩阵分别验证模型分类准确性来选用最优模型进行求解。
最后,根据原数据的数值特征,加入正态扰动来检验模型的灵敏度
2. 4 问题四分析
问题四要求针对不同类别的文物分析其化学指标之间的关联关系,并比较差异性。
首先,筛选出不同类别的数据集,对不同的数据集进行逐步回归,得到相应的 ,以及
VIF 方差膨胀因子。通过观察 ,确定线性回归的好坏,通过 VIF 方差膨胀因子来判断
自变量指标同因变量指标之间的共线性强弱。
三、 模型假设
1. 假设相同纹饰与玻璃类型的文物风化前后的化学成分改变规律相同。
2. 假设不考虑环境湿度和温度等其他环境因素对风化程度及风化规律的影响。
3. 假设附件所给数据成分比例累加和介于 85%~105%之间的数据视为有效数据。
四、 符号说明
符号
说明
依据玻璃纹饰和类型划分的类别
文物编号
化学特征
化学成分指标序号
第 个文物编号的第 个指标
文物指标数
文物属性数
投影方向
特定类别风化前后的偏差率
投影特征值
第 k 个聚类中心向量
聚类优化目标函数
正态扰动项

4
五、 模型建立与求解
5. 1 问题一的模型建立与求解
问题一共有两个问题:
问题一(1)要求分析玻璃文物的表面风化是否与其玻璃类型、纹饰和颜色有关联.
问题一(2)要求结合玻璃类型,分析文物样品表面有无风化的化学成分含量的统计
规律,并根据风化点检测数据,预测其风化前的化学成分含量。
5.1.1 数据预处理
表单一给出了 58 个文物的玻璃类型、纹饰及其颜色信息,以及其表面是否存在风
化现象。由于部分数据缺失其颜色属性,为便于后续的验证,本文将参考同类型数据补
全缺失的数据。
首先,为了判断出缺失值类型,本文对颜色信息是否与文物的玻璃类型以及纹饰信
息有相关性进行了检验。
结果表示缺失数据属于随机缺失,也就是说,数据的缺失不是完全随机的,该类数
据的补全依赖于上述两个完全变量。又由于所给的数据类型属于非数值类型且仅存在 4
个缺失值,无法采用平均值替代缺失值,因此,本文应用 excel 筛选出与其相同的玻璃
类型、纹饰的样本数据,使用众数代替缺失信息。例如表单一中文物编号为 19 的样本
缺失其颜色信息,以纹饰为 A,类型为铅钡作为筛选条件,得到其余完全数据的颜色信
息众数为浅蓝,从而将其作为缺失数据的补全值。
5.1.2 交叉表分析及卡方检验
为了判断玻璃文物的表面风化是否与其玻璃类型、纹饰和颜色有关联,本文首先运
用 EXCEL 对数据进行了初步可视化统计,结果如图 2 所示。
图 2 表单一样本类型总览
由上图可观察得到:不同种类的玻璃类型、纹饰和颜色的风华情况差异较大,故可
初步认定是否风化与上述三个因素存在相关性。
为验证上述假设,本文借助 SPSS 工具开展交叉表分析,从而挖掘其影响关系。
交叉表分析是指同时将两个或两个以上具有一定联系的变量及其变量值按照一定
的顺序交叉排列在一张统计表中,使各变量值成为不同变量的结点,从中分析变量的相
关关系。

5
最终得到交叉表卡方检验的结果如下:
➢ 表面风化*颜色
表 1 交叉表的卡方验证(表面风化与颜色)
值
自由度
渐进显著性
(双侧)
皮尔逊卡方
7.234
a
7
0.405
似然比
9.004
7
0.252
由表 1 可以得出,检验结果的显著性>0.05,故文物表面风化情况与文物的表面颜
色没有相关性。
之后得到其对称度量表,输出的是 phi 值和 V 值,两个都代表两个变量之间的关系
的紧密度,该值绝对值越高说明相关性越强。
表 2 交叉表的对称度量表(表面风化与颜色)
值
渐进显著性
名义到名义
Phi
0.353
0.405
克莱姆 V
0.353
0.405
由表 2 可以得到,phi 值和 V 值位于 0.3 附近,说明相关性较弱,与上述卡方检验
的结论基本吻合。
➢ 表面风化*纹饰
表 3 交叉表的卡方验证(表面风化与纹饰)
值
自由度
渐进显著性
(双侧)
皮尔逊卡方
4.957
a
2
0.084
似然比
7.120
2
0.028
由表 3 可以得出,检验结果的显著性位于 0.05 至 0.1 之间,故文物表面风化情况与
文物的表面纹饰有弱相关性。之后得到其对称度量表。
表 4 交叉表的对称度量表(表面风化与纹饰)
值
渐进显著性
名义到名义
Phi
0.292
0.084
克莱姆 V
0.292
0.084
由表 4 可以得到,phi 值和 V 值位于 0.3 附近,说明相关性较弱,与上述卡方检验
的结论相吻合。
剩余46页未读,继续阅读
资源评论

- weixin_432453342023-09-02资源很好,谢谢
- hugw19952023-08-10论文含金量很高,要是有代码就更好了
- SchrodingerG2023-08-02作者能发一下代码吗?

Authony.
- 粉丝: 14
- 资源: 7
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- Python爬虫以及数据可视化分析.docx
- scrcpy安卓投屏软件
- 学生成绩管理系统(C语言实现)及PPT
- kotlin语言中文开发文档
- 计算机毕业设计-ASP.NET+SQL房地产管理系统设计与实现(开题报告+源代码++任务书+工作总结+答辩PPT)
- C语言基础知识入门大全(适合新手建议收藏)
- 计算机毕业设计-ASP.NET+SQLBS模式的计算机等级考试管理系统的设计与实现(+源代码+开题报告)-毕设源码实例.zip
- 网页下雪特效圣诞节必备
- 计算机毕业设计-ASP.NET+SQL Sever2005 C语言教学网站及网上考试系统的设计与实现(+源代码+开题报告)
- DISC性格测试,性格测试
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
