没有合适的资源?快使用搜索试试~ 我知道了~
基于改进的EfficientDet的手语识别算法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 33 浏览量
2022-12-01
09:06:31
上传
评论
收藏 1.51MB DOCX 举报
温馨提示
试读
13页
基于改进的EfficientDet的手语识别算法.docx
资源推荐
资源详情
资源评论
1. 引言
手语作为表达信息的一种方式,是聋哑人之间进行思想交流的语言,也是他们与外界
进行沟通的重要方式,但对于一般人而言,手语不算通用,这就造成了聋哑人与健听大众
的交流困难,因而手语识别技术的研究尤为重要.
近年来,国内外学者都在不断地对手势识别进行研究.手势识别算法通常包含 3 个步
骤: 手势分割、特征提取和分类识别.手势分割是手势识别的基础,肤色是手势最为明显的
特征,因此基于肤色的颜色特征成为大多数手势分割的方法.手部范围的特征提取直接影响
了手势的识别准确率,是手势识别的核心.张国山等
[1]
对经典的卷积神经网络进行改进,引
入了平铺卷积网络结构,对采集的图片进行图像二值化处理之后输入到网络进行训练识
别,该方法虽然引入平铺卷积网络降低了模型训练的参数,但是网络深度较浅,且平铺卷
积网络会导致严重的信息损失,造成手势特征提取不充分,从而影响识别率.张行健等
[2]
将
CNN 中的 AlexNet 结构改进和优化为 13 层的 CNN 模型实现手势识别,但该网络为不同特
征图分别计算然后融合,卷积核只与某一部分的特征图进行卷积,模型泛化能力有所下
降,并且网络深度加深后会过滤掉手势特征的细微差距.随着目标检测的发展,很多学者将
手势识别的分类问题转换成目标检测问题.与传统的机器学习算法和图像处理算法,基于深
度学习的目标检测网络往往能得到更高的准确率.目标检测的主流算法框架大致分为
Twostage 与 Onestage.Twostage 算法代表的有 RCNN 系列,Onestage 算法代表的有 YOLO
系列和 SSD 算法等.张勋等
[3]
利用改进的 Faster RCNN 实现汉字手势字母的检测识别,但
Faster RCNN 为 TwoStage 目标检测算法,先经过区域生成网络(RPN)生成一系列的区域候
选框,再进入分类网络,因此该算法虽然精度高,但计算量大、模型大、检测速度慢.彭玉
青等
[4]
将改进后的 YOLO 算法应用到手势识别中,取得了非常不错的效果;王健等
[5]
通过
改进 SSD 模型中相关参数并结合手势交互的应用背景对其训练, 提出了一种手势识别方
法,这两种方法输入图像后只经过一个网络,生成的结果中同时包含位置与类别信息,这
种结构虽然识别速度快,但存在定位不准的现象,对于很小的物体以及距离摄像头较近的
物体检测效果不佳,其召回率也不如基于区域生成网络的方法.
最近,EfficientDet
[6]
在对象检测任务上克服了该缺点,取得了最先进的性能,在对象
检测任务上效率提高了 10 倍.但在手语检测识别中,手势具有多尺度问题,手部特征时大
时小,而该算法的特征提取网络中只关注了通道域,没有关注空间域,容易造成手部特征
提取不充分的现象;另外在网络层数不断加深的过程中,像素级特征的感受野不够,导致
BiFPN 融合效果差.针对上述问题,本文设计并增加了空间注意机制更加关注多尺度的手部
特征,在特征融合网络增加细节特征图的融合,并增加跨级连接,最后利用本文算法设计
开发了手语双向翻译网站.
综上所述,本文的贡献如下:
(1)为了使提取的特征更加精细,在特征提取网络的基础块中增加空间注意力感知机
制,随着网络的不断加深,使得不同模块的特征产生适应性的改变.
(2) 为了解决在特征融合自下而上的过程中随着下采样次数的不断增加导致的位置信
息越来越少的问题,在 BiFPN 中为了获取特征图像的细节信息,利用拉普拉斯特征金字塔
的思想,在自上而下的融合路径中融合细节特征图,同时在自下而上的融合路径中增加两
级跨级连接,更加充分地利用不同层级之间的语义和位置信息.
(3) 本文设计开发了手语双向翻译仿真网站,运用本文的手语识别算法实现从手语到
文本的翻译,设计制作虚拟人进行手语动画的展示以实现手语和文本的双向交互,为聋哑
人与普通大众提供一个交流的平台.
2. 基于 EfficientDet 的手语识别算法
EfficientDet-D0 算法主要分为三个部分,第一部分由 EfficientNet-B0
[7]
作为主干特征提
取网络;第二部分是双向特征融合网络,它针对主干特征提取网络的第 3-7 层输出特征进
行了多次自顶向下和自底向上的特征融合;第三部分是分类预测网络,对目标进行回归分
类.本文算法通过对基础特征提取网络以及特征融合网络进行改进,实现快速而精准的检测
手部位置并进行手势识别,网络结构图如图 1 所示.
图 1 网络结构图
Figure 1. Network structure diagram
下载: 全尺寸图片 幻灯片
2.1 改进的特征提取网络
在深度学习模型训练过程中,提高模型准确性的最常用方法是扩大网络宽度,加深网
络深度并提高输入图像的分辨率.EfficientNet 可以对网络的深度,宽度和分辨率的扩展取得
适当的效果,然后获得良好的模型性能,计算公式为:
N(d,w,r)=⊙i=1,2,…,sFLii(X[Hi,wi,ci])N(d,w,r)=⊙i=1,2,…,sFiLi(X[Hi,wi,ci])
(1)
式中,⊙i=1,2,…,s⊙i=1,2,…,s 代表连乘运算;F 表示基础网络层;i 表示网络层数;L
i
表示网络深度;X 表示输入的特征矩阵;[H
i
, W
i
, C
i
]表示 X 的高度、宽度和通道数;d 用来
缩放深度;w 用来缩放特征矩阵的通道;r 用来缩放分辨率,分别表示为:
depth:d=αΦwidth:w=βΦresolution:r=γΦdepth:d=αΦwidth:w=βΦresolution:r=γΦ
(2)
因为常规卷积运算的每秒浮点运算与 d、w
2
、r
2
成正比,故式(2)的限制条件为:
α⋅β2⋅γ2≈2,α⩾1,β⩾1,γ⩾1α⋅β2⋅γ2≈2,α⩾1,β⩾1,γ⩾1
(3)
式中,α、β、γ 是对应维度的资源分配参数;根据模型可利用资源进行调整.在满足约
束条件的情况下,通过神经架构搜索(Neural Architecture Search,NAS)对各参数进行优化
调整.
EfficientNet 主干本质上是一系列卷积块(MBConv Block),如图 2 所示.本文在每一个
MBConv Block 中的 SE Block
[8]
后引入了空间注意力模块(Spatial Attention Block),在手语数
据集中,部分数据集的手部占比很小,添加空间域注意力能更加准确的定位较小的手势位
置,提高检测的准确率.空间注意力模块的计算公式如式(4)所示:
Mi(F)=σ(f([AvgPool(F);MaxPool(F)]))Mi(F)=σ(f([AvgPool(F);MaxPool(F)]))
(4)
剩余12页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3582
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功