没有合适的资源?快使用搜索试试~ 我知道了~
东南大学软件学院研究生机器学习期末大作业.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 5 下载量 178 浏览量
2022-07-03
01:36:10
上传
评论 6
收藏 1.51MB PDF 举报
温馨提示
试读
15页
东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生机器学习期末大作业.pdf东南大学软件学院研究生机器学习期末大作业.pdf
资源推荐
资源详情
资源评论
研究生课程考试成绩单
(试卷封面)
院 系
学生姓名
课程名称
授课时间
软件学院 专业
学号
机器学习
2019 年 5 月至 2019 年 6 月 周学时 4 学分 2
软件工程
简
要
评
语
考核论题
总评成绩
(含平时成绩)
备注
任课教师签名:
日期:
注:1. 以论文或大作业为考核方式的课程必须填此表,综合考试可不填。“简
要评语”栏缺填无效。
2. 任课教师填写后与试卷一起送院系研究生秘书处。
3. 学位课总评成绩以百分制计分。
视频标注任务 video caption
1 引言
随着图像描述的发展,人们开始逐渐关注视频描述,对于在线的视频检索有很大的帮助。
视频描述(video caption)是根据视频内容给出一句文字描述。不同于图像描述静态的信息,
视频描述更为复杂,视频往往包含多帧视频图像,不仅有时序信息还有声音信息等。这就表
示一段视频比图像包含的信息更多,同时要求提取的特征也就更多,这对生成一段准确的视
频描述是重大的挑战。
深度网络的出现为解决大规模视频分类问题提供了新的思路和方法。卷积神经网络
(Convolutional Neural Networks, CNN)采用卷积与池化操作,可以自动学习图像中包含的
复杂特征,在视觉对象识别任务中表现出很好的性能。
2 模型方法
2.1 基于 image caption 的 video caption 框架
近年来有关视频描述,有基于 image caption 的 video caption 框架
[1]
,如图 2.1 所示。在
image caption 的基础上,使用类似的思路将 CNN+LSTM 的框架应用到 video caption 任务上。
图 1 cnn+lstm 框架描述
将视频分解为不同帧,针对每一帧使用 CNN 网络提取相应特征,利用 mean pool 视频
不同帧的图像特征整合,输出整个视频特征。建立多层 LSTM 的 RNN 网络,将 encode 编
码产生的特征向量作为 RNN 网络每一时刻的输入,生成最终的语义 caption。
双层的 LSTM 结构,能较大程度的在输出时衰减输入的扰动,节点数目较多,网络记
忆能力强。对所有的视频帧直接进行mean pool 融合特征,缺点是忽略了每一帧特征的顺序
和整个视频的时序关系。
2.2 S2VT 模型
为了解决传统的 cnn+LSTM 框架无法处理视频时序特征的问题,提出 S2VT 模型,将
每一视频帧的图像特征以时序状态进行语义生成。
S2VT 模型即 Sequence to Sequence Video to Text 模型
[2]
,这个方法最早来源于 2015 年
发表在 CVPR 上,实现了对视频帧序列输入、文字序列输出的一个端到端视频描述模型。
该论文提出使用了 LSTM 来构造 encoder-decoder 结构,即先使用 lstm encoder 来编码视频图
像序列的特征,再用 lstm decoder 解码出文本信息。模型结构如下图 2 所示。
图 2 S2VT 结构图
S2VT 由两个 LSTM 网络叠加而成,第一个 LSTM 将通过卷积神经网络提取到的帧特征
向量作为输入进行逐个编码。一旦读取完所有的帧,模型会逐个单词的生成一个句子。帧和
单词表示的编码和解码工作由平行语料库学习得到。为了更好地表示视频中活动的时序特
点,模型还计算了连续帧之间的光学流
[3]
,流图像也是先通过 CNN 网络并作为输入提供给
LSTM 网络,读取了所有帧,模型就逐句生成句子。
3 实验数据集
实验采用的数据集为全班同学整理。视频是央视的《共同关注》部分播放的新闻片段,
来源于央视的网站。每个视频时间在几秒到几十秒不等。每个视频中含有主画面内容,每个
视频分别对应 10 句中英文描述。
数据集格式:视频信息以及视频描述以 json 形式保存。
视频的分类:Category,包括 0 时政,1 国际,2 军事,3 警法,4 社会,5 公益,6 教
育,7 财经,8 娱乐,9 文化这十类。视频的网址 url,视频标识符 video_id,视频片段在原
始视频中的起止时间,视频属于训练集或测试集,视频编号。具体json 格式如图 3 所示。
图 3 视频信息格式
所有的视频描述存放在“sentence”对象下,每个 video_id 对应多条语言描述,同一个
video_id 下的使用 0 到 9 的 id 值来表示单个视频的十条描述,如图 4 所示。中文描述与英
文描述分别存放在不同的 json 文件中
图 4 视频标注格式
数据集的划分:最终得到的数据集,可用视频 2400 条,英文描述 23860 条,将其中的
剩余14页未读,继续阅读
资源评论
- Cathrine陈2023-05-12感谢资源主的分享,这个资源对我来说很有用,内容描述详尽,值得借鉴。
- weixin_406366022022-12-15资源不错,内容挺好的,有一定的使用价值,值得借鉴,感谢分享。
- m0_750679202023-06-29实在是宝藏资源、宝藏分享者!感谢大佬~
- m0_619083832022-12-29资源简直太好了,完美解决了当下遇到的难题,这样的资源很难不支持~
- 吕雨田2022-11-29资源使用价值高,内容详实,给了我很多新想法,感谢大佬分享~
G11176593
- 粉丝: 6584
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功