基于改进的EfficientDet的手语识别算法.docx_手语识别资源-CSDN文库

版权申诉

33 浏览量 2022-12-01 09:06:31 上传评论收藏 1.51MB DOCX 举报

资源推荐

资源详情

资源评论

1. 引言

手语作为表达信息的一种方式，是聋哑人之间进行思想交流的语言，也是他们与外界

进行沟通的重要方式，但对于一般人而言，手语不算通用，这就造成了聋哑人与健听大众

的交流困难，因而手语识别技术的研究尤为重要.

近年来，国内外学者都在不断地对手势识别进行研究.手势识别算法通常包含 3 个步

骤: 手势分割、特征提取和分类识别.手势分割是手势识别的基础，肤色是手势最为明显的

特征，因此基于肤色的颜色特征成为大多数手势分割的方法.手部范围的特征提取直接影响

了手势的识别准确率，是手势识别的核心.张国山等

[1]

对经典的卷积神经网络进行改进，引

入了平铺卷积网络结构，对采集的图片进行图像二值化处理之后输入到网络进行训练识

别，该方法虽然引入平铺卷积网络降低了模型训练的参数，但是网络深度较浅，且平铺卷

积网络会导致严重的信息损失，造成手势特征提取不充分，从而影响识别率.张行健等

[2]

将

CNN 中的 AlexNet 结构改进和优化为 13 层的 CNN 模型实现手势识别，但该网络为不同特

征图分别计算然后融合，卷积核只与某一部分的特征图进行卷积，模型泛化能力有所下

降，并且网络深度加深后会过滤掉手势特征的细微差距.随着目标检测的发展，很多学者将

手势识别的分类问题转换成目标检测问题.与传统的机器学习算法和图像处理算法，基于深

度学习的目标检测网络往往能得到更高的准确率.目标检测的主流算法框架大致分为

Twostage 与 Onestage.Twostage 算法代表的有 RCNN 系列，Onestage 算法代表的有 YOLO

系列和 SSD 算法等.张勋等

[3]

利用改进的 Faster RCNN 实现汉字手势字母的检测识别，但

Faster RCNN 为 TwoStage 目标检测算法，先经过区域生成网络(RPN)生成一系列的区域候

选框，再进入分类网络，因此该算法虽然精度高，但计算量大、模型大、检测速度慢.彭玉

青等

[4]

将改进后的 YOLO 算法应用到手势识别中，取得了非常不错的效果；王健等

[5]

通过

改进 SSD 模型中相关参数并结合手势交互的应用背景对其训练, 提出了一种手势识别方

法，这两种方法输入图像后只经过一个网络，生成的结果中同时包含位置与类别信息，这

种结构虽然识别速度快，但存在定位不准的现象，对于很小的物体以及距离摄像头较近的

物体检测效果不佳，其召回率也不如基于区域生成网络的方法.

最近，EfficientDet

[6]

在对象检测任务上克服了该缺点，取得了最先进的性能，在对象

检测任务上效率提高了 10 倍.但在手语检测识别中，手势具有多尺度问题，手部特征时大

时小，而该算法的特征提取网络中只关注了通道域，没有关注空间域，容易造成手部特征

提取不充分的现象；另外在网络层数不断加深的过程中，像素级特征的感受野不够，导致

BiFPN 融合效果差.针对上述问题，本文设计并增加了空间注意机制更加关注多尺度的手部

特征，在特征融合网络增加细节特征图的融合，并增加跨级连接，最后利用本文算法设计

开发了手语双向翻译网站.

综上所述，本文的贡献如下：

剩余12页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3582
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip