# 离散制造过程中典型工件的质量符合率预测
在高端制造领域,随着数字化转型的深入推进,越来越多的数据可以被用来分析和学习,进而实现制造过程中重要决策和控制环节的智能化,例如生产质量管理。从数据驱动的方法来看,生产质量管理通常需要完成质量影响因素挖掘及质量预测、质量控制优化等环节,本文将关注于第一个环节,基于对潜在的相关参数及历史生产数据的分析,完成质量相关因素的确认和最终质量符合率的预测。在实际生产中,该环节的结果将是后续控制优化的重要依据。
## 1.赛题简介
### 1.1 赛题任务
由于在实际生产中,同一组工艺参数设定下生产的工件会出现多种质检结果,所以我们针对各组工艺参数定义其质检标准符合率,即为该组工艺参数生产的工件的质检结果分别符合优、良、合格与不合格四类指标的比率。相比预测各个工件的质检结果,预测该质检标准符合率会更具有实际意义。本赛题要求对给定的工艺参数组合所生产工件
的质检标准符合率进行预测。
### 1.2 赛题数据
在此任务中,以某典型工件生产过程为例,提供一系列数据。该数据来源于某工厂采集的真实数据,已做脱敏处理。
(1)训练数据将提供:A:工艺参数(如设备加工参数)B:工件的质量数据 C:工件所符合的质检指标
(2)测试数据将提供:A:工艺参数(如设备加工参数)这些数据中包含两类特征:工艺参数(parameter)
共 10 项,表示工件的加工参数,以下简称为 P 类特征;质量数据(attribute)共 10 项,表示产出工件的质量,以下简称为 A 类特征。
### 1.3 评价指标
本赛题的预测目标为质检指标(不合格、合格、良、优),评价指标采用 MAE 系数,计算方法如下:
![](https://www.writebug.com/myres/static/uploads/2021/10/31/84172aa569de5c073dc70fa88e33044d.writebug)
![](https://www.writebug.com/myres/static/uploads/2021/10/31/333797fd72d681c704bbf813b08a6894.writebug)
其中 predi 为预测样本,yi 为真实样本。最终结果越接近 1 分数越高。
## 2 模型构建
### 2.1 数据分析
通过对 first_round_training_data.csv 中数据的画图分析(图 1),可以发现 P 类 5-10 特征和 A 类 4-10 特征是离散的特征[1]。
![](https://www.writebug.com/myres/static/uploads/2021/10/31/3d604fa2dbc35a5e9f9153b604eda01d.writebug)
P 类特征中,P1 和 P4 在训练集和测试集上的分布存在差异,而且在后续选择中发现 P1~P4 对模型影响较大。
### 2.2P 类特征对结果的影响
分析中发现,当模型加入 P1~P4 特征时,在验证集上的分数会下降。由于这四个特征取值数较多,对于基于树的机器学习模型而言更容易被选择为分枝条件,这四个特征对模型有一定的误导性。
### 2.3 特征选择
基于上述分析,最终选择输入模型的特征为 P 类特征的 P5~P10。
### 2.4 模型构建
最终选择 CatBoostClassifier 作为最终模型。采用 5 折交叉验证,进行 5 次,得到训练集和测试集预测结果。由于使用 5 个随机数作为划分参数,故每次预测值占比为 1/5,最终输出预测结果。
### 2.5CatBoost 简介
我们可以使用 CatBoost,而不需要任何显式的预处理来将类别转换为数字。CatBoost 使用在各种统计上的分类特征和数值特征的组合将分类值转换成数字。
它减少了对广泛的超参数调优的需求,并降低了过度拟合的几率,这也导致了模型变得更加具有通用性。但它还包含一些参数,比如树的数量、学习速率、正则化、树的深度等等。
将 XGBoost、LightGBM 和 CatBoost 相比较,会发现 CatBoost 在大多数情况下的 log-loss 是最低的。说明了 CatBoost 对调优和默认模型的性能都更好。而且,CatBoost 不需要像 XGBoost 和 LightGBM 那样将数据集转换为任何特定格式。
### 2.6 结果输出
![](https://www.writebug.com/myres/static/uploads/2021/10/31/e7a8d3410f4ead85d4b36e03c8f949c9.writebug)
图 2
根据题意,最终分类器模型输出的是采用各分类的预测概率(图 2)。
### 2.7 反思
最终网站上给出了排名前五的大佬的思路,经过仔细阅读学习后发现了我们的很多不足。
(1)A 类特征中的 A4~A6 特征对预测目标有非常显著的影响,因为测试集中不包含 A 类特征,所以可以通过特征 P5~P10 来预测这三个特征。测试集中不包含 A 类特征,也是我们没有认真挖掘 A 类特征信息的原因,导致我们最终没有用到 A 类特征。下次若再有机会参赛,相信我们不会再出这种问题。[3]
(2)我们没有对 P 类特征进行数据预处理,而 P 类数据的数值位数是不一致的,如果能保留一个合适的位数,可以消除一些训练集和测试集的差异。
## 3 数据的处理与代码的实现
在本节中,我们将具体介绍我们是如何基于 python 实现上述模型的。
### 3.1 预处理
首先,我们用 pandas 包中的 CSV 文件处理函数,读取了训练集和测试集的内容(图 3)。
![](https://www.writebug.com/myres/static/uploads/2021/10/31/d0527d1af54dd1b7b96fc7e2ff0a62ed.writebug)
图 3
因为我们的 test 的标签是包含于 train 内的,所以我们将 test 合并到 train 中便于后边取值,生成了 data 集(图 4)。
![](https://www.writebug.com/myres/static/uploads/2021/10/31/42980f5037668e1b16f2cf0bdb9952a1.writebug)
图 4
由于我们只需要特征 Parameter5-Parameter10,下面我们只取这些特征的值和已有的结果作为新的训练集和测试集(图 5),其中 feature_name 即为标签 Parameter5-Parameter10。
![](https://www.writebug.com/myres/static/uploads/2021/10/31/277155137c48ed6ed0677f2da2e6ac7b.writebug)
图 5
至此,我们的预处理部分结束。
### 3.2 模型构建
根据第二节的思路,我们现在需要采用 5 折交叉验证,并设 5 个随机数为随机数参数,最外层循环次数设为 5(图 6),为了减少随机数的影响取平均值。
![](https://www.writebug.com/myres/static/uploads/2021/10/31/65b96f3f900cbbf5d46e6d65a814e5f8.writebug)
图 6
这些随机数参数用于随机选取原本训练集中 4/5 的数据作为训练集,1/5 的数据作为测试集(图 7)。
![](https://www.writebug.com/myres/static/uploads/2021/10/31/1569820eece58eba90578c1a0819084d.writebug)用每次选取的训练集训练模型,再将模型用于预测测试集和上述每次分离的 1/5 训练集,由于测试集未被拆分,所以测试集每次预测结果权重为 1/5,而循环之后原来训练集则已经被全部预测,用于计算准确度,测试集预测结果为 5 次交叉验证结果的均值。
![](https://www.writebug.com/myres/static/uploads/2021/10/31/535a16fe9d4e66a605162ad42d7c6651.writebug)(图 8)。
图 8
最后,将 5 次采用不同随机数的结果取平均值得到最终预测结果,输出训练集的预测成功率,并把测试集结果转成 CSV 文件。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
资源包含文件:课程论文word+源码及数据 在高端制造领域,随着数字化转型的深入推进,越来越多的数据可以被用来分析和学习,进而实现制造过程中重要决策和控制环节的智能化,例如生产质量管理。从数据驱动的方法来看,生产质量管理通常需要完成质量影响因素挖掘及质量预测、质量控制优化等环节,本文将关注于第一个环节,基于对潜在的相关参数及历史生产数据的分析,完成质量相关因素的确认和最终质量符合率的预测。在实际生产中,该环节的结果将是后续控制优化的重要依据。 详细介绍参考:https://blog.csdn.net/sheziqiong/article/details/125638146
资源推荐
资源详情
资源评论
收起资源包目录
Python实现对离散制造过程中典型工件的质量符合率预测.zip (15个子文件)
first_round_training_data.csv 2.23MB
submit_example.csv 2KB
工件预测代码.py 4KB
课程论文.docx 180KB
catboost_info
time_left.tsv 10KB
learn_error.tsv 12KB
test
events.out.tfevents 48KB
test_error.tsv 12KB
learn
events.out.tfevents 48KB
catboost_training.json 92KB
LICENSE 1KB
submission.csv 10KB
first_round_testing_data.csv 1.11MB
README.md 7KB
.gitattributes 66B
共 15 条
- 1
资源评论
- 2301_768073662024-02-13简直是宝藏资源,实用价值很高,支持!
shejizuopin
- 粉丝: 9995
- 资源: 1288
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (精品)第6章卫星移动通信系统.ppt
- TI杯大奖赛本科组+研究生组论文+源代码+PCB基于TMS320F28335的超声波流量计
- TI杯大奖赛本科组+研究生组论文+源代码+PCB基于TMS320F2812的图像识别智能跟踪小车
- PuTTY Connection Manager ( puttyCM )
- TI杯大奖赛本科组+研究生组论文+源代码+PCB基于TMS320F2812的节能环保型矩阵式变频器的开发
- C语言:消息通信实例代码,主函数实现消息发送与消息接收功能
- (HTML+CSS+jQuery)学生仿手机端静态外卖项目
- 车载软件的OTA方案需求确认内容
- TI杯大奖赛本科组+研究生组论文+源代码+PCB基于TMS320F2812的变速恒频风力发电系统运行与控制研究
- TI杯大奖赛本科组+研究生组论文+源代码+PCB基于TMS320F28035电动汽车电机控制器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功