github上排版可能有些问题,也可以访问我的博客https://blog.csdn.net/weixin_42907473/article/details/103470208
## 一、简述
**队名**:学学没完
**队伍成绩**:
初赛榜 0.85245 排名第一 (a榜第二,b榜重回第一)
决赛榜 0.9307 排名第二 (第一老哥很猛,搞得我们很慌,硬是肝了一晚上才拉近了和他们的差距)
受益于官方对大家前三个月工作的肯定,初赛的权重是复赛的两倍,因此最后加权总榜第一。
## 二、比赛方案
### 1.初赛回顾
初赛赛题是对一组唇语图片序列进行中文单词的预测,给定的数据集是封闭集(类别数量是一定的,测试集中的类别均在训练集中出现过),如下图所示:<div align=center>
![在这里插入图片描述](https://img-blog.csdnimg.cn/20191210141555553.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjkwNzQ3Mw==,size_16,color_FFFFFF,t_70)
上图一共有5组唇语序列,代表着不同的中文词语。<div align=left>
### 2.数据分析
拿到数据,我们先简单的对数据进行了分析:
* 训练数据数量一共9996个样本,测试数据一共2504个样本,总的类别是313类。
* 词语中只有两字词和四字词,样本比例为6816:3180,在313个类中的类别比例为213:100
* 313类中有311个类别有32个样本,只有“落地生根”和“卓有成效”两个样本有22个样本,可以说样本非常均衡。
* 样本的图片数量,除了异常数据外,基本分布在2张到24张之间,且两字词和四字词的图片数量有大量重叠,这意味着这一维信息很难利用,在测试集中的图片数量也基本和训练集一致。<div align=center>
![在这里插入图片描述](https://img-blog.csdnimg.cn/20191210145411627.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjkwNzQ3Mw==,size_16,color_FFFFFF,t_70)
两字词和四字词图片数量对比<div align=center>
![在这里插入图片描述](https://img-blog.csdnimg.cn/20191210145454531.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjkwNzQ3Mw==,size_16,color_FFFFFF,t_70)
训练集和测试集样本图片数量对比<div align=left>
 数据分析让我们对数据有了一个整体的把握。除此以外,我们还观察了一些样本数据,发现了他们采集的样本中,包含说话的有用信息图片大都集中在前半序列中,而最后几张往往都是闭嘴状态,没有提供任何有用的信息。
### 3.数据清洗以及数据切割问题
* 通过对数据的分析,我们对低于两张的异常样本数据进行了清除。
* 考虑到很多样本中的嘴唇并不是一直在一个位置,因此考虑是否要定位和切割一下嘴唇部位。
因此我们手动标注了七八百张图片图片送进了CornerNet_Lite网络中去训练一个检测嘴唇的网络。
Why CornerNet_Lite?
其实其他的也可以,如Yolov3,毕竟任务简单,但是这篇论文号称吊打Yolov3,且我前一段时间也跑过这个网络,所以就拿来用了,下图即为文章中的性能对比图,由于没有速度的要求,我们最终采用的是Cornernet-Saccade版本。<div align=center>
![在这里插入图片描述](https://img-blog.csdnimg.cn/2019121015223315.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjkwNzQ3Mw==,size_16,color_FFFFFF,t_70)<div align=left>
切割效果基本完美,我们切割原则是:1.保证嘴巴在图片正中央;2、保持一组图片切割大小一样,且嘴唇不能占满全图。
在切割的时候我们也发现一些图片没有检测到嘴唇,结果发现样本序列中夹杂了一些噪声数据,我们将这些进行了去除,大致如下图所示:<div align=center><img src="https://img-blog.csdnimg.cn/20191210153204766.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjkwNzQ3Mw==,size_16,color_FFFFFF,t_70" width =50% height = 50%><div align=left>
我们当时的切割程序写了一些BUG,导致没有贯彻思想,最终直接测试的结果并没有不切割的好。当时也没发现这个问题,所以初赛并没有用到切割图片,但是我也对标注的图片中嘴唇边界离图片边界的信息进行了统计,最后大致对图片做了一个统一的切割或者说限制区域的操作。
### 4.模型选择
  通过对数据的分析,且考虑到任务是多分类问题,无需考虑词与词之间的关系,所以我们将这个问题简单的看作动作视频多分类的问题,因此我们尝试了多种类别的 SOTA 模型。
**1)基于3D 卷积模型**
  3D 卷积模型是我们首先想到和尝试的,3D 模型的代表之一是《ECO: Efficient convolutional Network For online video understanding》,这篇文章是去年 ECCV 的文章,模型结构如下:<div align=center>![在这里插入图片描述](https://img-blog.csdnimg.cn/20191210162610847.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjkwNzQ3Mw==,size_16,color_FFFFFF,t_70)<div align=left>
S1 到 SN 是从视频中采样的 N 个帧图像。
1. 对于每个帧图像,采用共享的 2D 卷积子网络 来得到 96 个 28\*28 大小的 feature map,堆叠后得到一个 N\*28\*28\*96 大小的特征 volume。此处使用的是 BN-Inception 网络中的第一部分(到 inception-3c 层前)。
2. 对于得到的特征 volume,采用一个 3D 子网络进行处理,直接输出对应动作类别数目的一维向量。此处采用了 3D-Resnet18 中的部分层。 如上的两部分,就构建了这篇文章中构建的第一种网络结果 ECO-Lite。除了用 3D 卷积进行融合,还可以同时使用 2D 卷积,如下图所示,即为 ECO-Full 网 络 结 构 。 此 处 多 的 一 个 2D 网 络 分支 采 用 的 是 BN-Inception 网 络 中 inception-4a 到最后一个 pooling 层间的部分,最后再采用 average-pooling 得到 video-level 的表示,与 3D net 的结果 concat 后再得到最后的 action 分类结果。 <div align=center>
![在这里插入图片描述](https://img-blog.csdnimg.cn/2019121016255243.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjkwNzQ3Mw==,size_16,color_FFFFFF,t_70)<div align=left>
这个模型的效果也不错,我们队伍前期霸榜就是依靠这个模型,ECO-lite 最高 0.74 多,ECO-Full 最高 0.76 多,之后我们又尝试了其他一些模型,如今年的CVPR 何凯明实验室的文章《SlowFast Networks for Video Recognition》,但是该网络需要高低帧率间配合才能有更好的效果,而我们这个数据毕竟不是视频,帧数实在有限,最终跑出来效果不尽如人意,但如果有高帧率的视频,我想应该会有不错的效果。
***篇外探讨:***
关于《SlowFast Networks for Video Recognition》这篇文章中提出的一个观点我觉的**值得我们去思考**,大致意思:
  我们对于一张图片,我们可以简单的将其分为两个维度来看待,I(x,y) 。似乎很合理,x与 y方向的重要性似乎是相等的。然而对于一个视频,引入了时间维度t ,I(x,y,t) 。但这个t与 x,y可以同等看待吗,显然不是的啊,现实这个世界中,大多数的物体都是静止的。而我们传统的卷积如 3D卷积却是同等对待的,按照作者的理解,这是不合理的。既然不合理,就需要将时间t与空间(x,y)单独的处理。
  值得一提的是,今年这个领域几篇顶会如SlowFast、STM、TSM都是基于2D卷积
没有合适的资源?快使用搜索试试~ 我知道了~
“创青春.交子杯”新网银行高校金融科技挑战赛-AI算法赛道比赛-代码分享 (2).zip
共61个文件
py:26个
pyc:18个
txt:6个
需积分: 1 0 下载量 118 浏览量
2024-04-14
21:56:03
上传
评论
收藏 300KB ZIP 举报
温馨提示
蓝桥杯2024,蓝桥杯大赛包括个人赛-软件类、个人赛-电子类和视觉艺术大赛三个竞赛组别。个人赛-软件类的比赛科目包括C/C++程序设计、Java软件开发、Python程序设计等。大赛分为省赛和决赛两个阶段,省赛中获得一定奖项的选手可以晋级全国总决赛
资源推荐
资源详情
资源评论
收起资源包目录
“创青春.交子杯”新网银行高校金融科技挑战赛-AI算法赛道比赛_代码分享 (2).zip (61个子文件)
“创青春.交子杯”新网银行高校金融科技挑战赛-AI算法赛道比赛_代码分享
新建 文本文档.txt 0B
Lip_Reading_Competition-master
requirement.txt 56B
复赛
infer.sh 241B
label_map
num_label.txt 5KB
num_label_r.txt 5KB
main.py 17KB
LICENSE 11KB
ops
utils.py 995B
__init__.py 27B
non_local.py 6KB
models.py 20KB
transforms.py 17KB
basic_ops.py 2KB
__pycache__
temporal_shift.cpython-36.pyc 6KB
non_local.cpython-36.pyc 5KB
transforms.cpython-36.pyc 18KB
__init__.cpython-36.pyc 167B
models.cpython-36.pyc 14KB
basic_ops.cpython-36.pyc 2KB
utils.cpython-36.pyc 2KB
temporal_shift.py 7KB
train.sh 234B
archs
__init__.py 28B
bn_inception.py 48KB
mobilenet_v2.py 5KB
__pycache__
bn_inception.cpython-36.pyc 29KB
__init__.cpython-36.pyc 168B
eco_dataset.py 8KB
README.md 1KB
opts.py 5KB
result
sub_2.csv 132KB
初赛
infer.sh 241B
label_map
num_label.txt 5KB
num_label_r.txt 5KB
main.py 17KB
LICENSE 11KB
ops
utils.py 995B
__init__.py 27B
non_local.py 6KB
models.py 20KB
transforms.py 17KB
basic_ops.py 2KB
__pycache__
temporal_shift.cpython-36.pyc 6KB
non_local.cpython-36.pyc 5KB
transforms.cpython-36.pyc 18KB
__init__.cpython-36.pyc 167B
models.cpython-36.pyc 14KB
basic_ops.cpython-36.pyc 2KB
utils.cpython-36.pyc 2KB
temporal_shift.py 7KB
train.sh 234B
archs
__init__.py 28B
bn_inception.py 48KB
mobilenet_v2.py 5KB
__pycache__
bn_inception.cpython-36.pyc 29KB
__init__.cpython-36.pyc 168B
eco_dataset.py 8KB
README.md 1KB
opts.py 5KB
result
sub_2.csv 132KB
README.md 16KB
共 61 条
- 1
资源评论
探索电平
- 粉丝: 674
- 资源: 1716
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功