5 主要图纸
3 结构验算
4 防船撞设
计
基于深度学习的建筑材料缺
陷识别与分类
同济大学土木工程学院
《机器学习与大数据计算》课号:030565
2019-2020学年第2学期 课程汇报
姓名:王珣 学号: 1753944
姓名:林澍晖 学号: 1751751
姓名:张佳钰 学号: 1851483
指导老师:程 纬 副教授 马如进 副研究员
摘要
2 设计内容
1 引言
项目背景
• 钢铁生产巨头Severstal在高效的钢铁开采和生产方面处于领先
地位,他们现在正在寻求机器学习,以提高自动化程度,提高
效率并保持生产的高质量,该项目应运而生。
• 项目来源于Kaggle网站上的比赛项目“Severstal: Steel
Defect Detection”。基于比赛项目,我们确定目标有:1. 识
别缺陷位置;2. 对缺陷类别进行分类。
相关研究成果
• 非深度学习方法:利用SVM对钢材上缺陷的种类进行分类。
缺点:分类效果较RBM低。
• 深度学习方法:
• RBM限制波尔兹曼机:能够对图片进行无监督的分类,
分类效果较好
• CNN卷积神经网络:对图片当中的裂缝进行识别
项目意义
• 学术意义:是将机器学习模型在土木工程领域的实际应用探索。
• 经济意义:由企业现实需求延伸出的研究,优化后可为企业商
用,创造经济价值、提升公司效益。
• 社会效益:在进一步改进后可用于日常钢材缺陷检测,借助小
程序等软件,未来可为公众提供检测工具。
钢铁是建筑中的常见材料,为了推动提高市场钢材的质量,提
高企业市场竞争力,需要以机器代替传统的人工检查钢片质量,检
测钢片的缺陷和类别。利用传统机器学习算法和更复杂的深度学习、
神经网络等模型,进行缺陷位置的识别和表示、缺陷类别的识别分
类。将信息技术与土木工程结合解决基于企业现实需求的问题,以
提高钢片质量检测的效率。
2 数据集
数据集介绍
• 数据集来源:Kaggle网站竞赛。
• 从网站下载的数据集所给图片
都是已经标准化的1600×256
像素图片,训练集12568张,
测试集5506张。由于测试集的
分类识别未知,无法进行模型
评价,全部使用原本训练集中
的数据,重新拆分为训练集和
测试集。
3 机器学习识别
识别算法
• SVM 支持向量机:考虑将不同类别
的数据点分隔开的 𝑝−1 维超平
面,取间隔宽度大者为优。
• CNN 卷积神经网络:隐含层内的卷
积核参数共享和层间连接的稀疏性
使得卷积神经网络能够以较小的计
算量对格点化特征(像素、音频等)
有稳定的效果。Input → 卷积
(convolution) → 池化(pooling) → 卷
积(convolution) →池化(pooling)
→ …… → 扁平化(flatten) 提取特征
→ 全连接层分类 → output
4 总结与展望
图2.1 标准化图片示例
数据集标注
• 所给测试集数据已经有了位置信息的标记和分类的标注。
• 位置信息采用rle编码,即“起始像素位置+长度”的方式。如:
“29102 12”表示从第29102个像素起连续12个像素内容都为缺陷。
• 分类标注为1-4的整数,共四类。
图2.2 训练集数据示例
图2.3 所给缺陷标记后示例
模型应用
模型训练
小范围尝试 全数据训练
模型搭建
SVM CNN RBM
项目确定+背景研究
图3.1 项目进行流程
• RBM 受限玻尔兹曼机:包含一个可见层v 和一个隐藏层h,神
经元由权重w相连。a
𝑖
表示可见单元神经元𝑣
𝑖
的偏置, 𝑏
𝑗
表示隐
层单元ℎ
𝑗
的偏置。(ℎ
𝑖
= 𝑤
𝑖
𝑣
𝑖
+ 𝑏
𝑖
; 𝑣
𝑖+1
= 𝑤
𝑖
ℎ
𝑖
+ a
𝑖
)损失函
数计算𝑣
𝑖
与𝑣
𝑖+1
间的偏差以拟合模型。
模型训练与调参
• 训练过程的准确度如图3.2
模型评估与选择
图3.2 准确度变化曲线图
• Dice系数(Dice coefficient):
可用于比较预测的分割与其对应的地面真实情况之间的像素方
式一致性。公式如下:
• 损失loss='binary_crossentropy’
总结
• 本项目综合了机器学习
的多种模型进行尝试,
对钢板的缺陷识别定位
效果可达90%以上。
图4.1 模型识别效果示例
展望
• 目前缺陷定位的效果特别优秀,相比之下,缺陷分类和无监
督学习的效果欠佳。过程中也遇到训练集的各类数据量差异
大、高像素带来巨大算量等问题,有待后续研究改进。
评论0