# 毕业设计
对于视觉问答(VQA)的研究具有深刻的学术意义和广阔的应用前景。目前,视觉问答模型性能提升的重点在于图像特征的提取,文本特征的提取,attention权重的计算和图像特征与文本特征融合的方式这4个方面。本文主要针对attention权重的计算和图像特征与文本特征融合这两个方面,以及其他细节方面的地方相对于前人的模型做出了改进。本文的主要工作在于本文使用open-ended模式,答案的准确率采用分数累积,而不是一般的多项选择。本文采用CSF模块(包括CSF_A和CSF_B)不仅对spatial-wise进行了权重计算,还对channel-wise进行了权重计算。本文采用MFB模块和ResNet152 FC层之前的tensor来结合LSTM的输出来计算每个区域的权重,而不是直接把image feature和question feature结合本文采用SigMoid来计算最后的分布,而不是一般的softmax(实验部分会有对比两者的差异)。
# 总体模型的架构
![Alt text](./model.png)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
基于深度学习的视觉问答系统源码+文档说明+答辩ppt(高分毕业设计).zip对于视觉问答(VQA)的研究具有深刻的学术意义和广阔的应用前景。目前,视觉问答模型性能提升的重点在于图像特征的提取,文本特征的提取,attention权重的计算和图像特征与文本特征融合的方式这4个方面。本文主要针对attention权重的计算和图像特征与文本特征融合这两个方面,以及其他细节方面的地方相对于前人的模型做出了改进。 基于深度学习的视觉问答系统源码+文档说明+答辩ppt(高分毕业设计).zip的主要工作在于本文使用open-ended模式,答案的准确率采用分数累积,而不是一般的多项选择。本文采用CSF模块(包括CSF_A和CSF_B)不仅对spatial-wise进行了权重计算,还对channel-wise进行了权重计算。本文采用MFB模块和ResNet152 FC层之前的tensor来结合LSTM的输出来计算每个区域的权重,而不是直接把image feature和question feature结合本文采用SigMoid来计算最后的分布,而不是一般的softmax(实验部分会有对比两者的差异)。
资源推荐
资源详情
资源评论
收起资源包目录
毕业设计_ 基于深度学习的视觉问答.zip (69个子文件)
基于深度学习的视觉问答+源代码+文档说明+答辩ppt
model.png 87KB
VQA02DataProcess.py 10KB
MFHBaseline.py 9KB
record
current_['m']_freq_0_layer_0_csf_0.log 10KB
current_['b']_freq_0_layer_0_csf_0.log 11KB
current_['b']_freq_0_layer_2_csf_0.log 11KB
current_['b']_freq_0_layer_1_['cs']_1.log 11KB
current_['b']_freq_0_layer_0_['csf']_g_0_co_1.log 25KB
current_['b']_freq_0_layer_3_['cs']_g_0_co_0.log 38KB
current_model_['b']_freq_1_layer_1.log 6KB
current_['b']_freq_0_layer_3_['csf']_g_0_co_0.log 25KB
current_['b']_freq_0_layer_1_csf_0.log 11KB
current_['b']_freq_0_layer_2_['cs']_g_0_co_0.log 25KB
current_['b']_freq_0_layer_0_['csf']_g_0_co_0.log 25KB
current_['b']_freq_0_layer_2_['cs']_0.log 11KB
current_['b']_freq_0_layer_3_['cs']_0.log 11KB
current_model_['b']_freq_1_layer_0.log 6KB
current_['m']_freq_0_layer_1_['cs']_g_0_co_0.log 25KB
current_['b']_freq_0_layer_1_['cs']_0.log 11KB
current_['b']_freq_0_layer_1_['cs']_g_0_co_0.log 25KB
TEST.py 2KB
VQA02train.py 17KB
VQA01dataset.py 5KB
TMP.py 10KB
VQA02dataset.py 6KB
data
COCO_train2014_000000000009.jpg 219KB
VQA01ImageProcess.py 7KB
predict.py 1KB
modelResNet.py 12KB
readme 751B
VQA01Baseline.py 6KB
VQAv1Dataloader.py 6KB
eval_tools.py 2KB
CSFMODEL.py 7KB
draft.py 7KB
VQA02ImageProcess2.py 4KB
npy_h5py.py 2KB
modules.py 11KB
DataLoader.py 4KB
VQA02getdata.py 9KB
resnet.py 10KB
VQA02ImageProcess.py 4KB
vqa-tools
PythonEvaluationTools
vqaEvaluation
vqaEval.py 8KB
__init__.py 18B
__pycache__
vqaEval.cpython-36.pyc 7KB
__init__.cpython-36.pyc 159B
vqaEvalDemo.py 3KB
PythonHelperTools
vqaTools
__init__.py 24B
vqa.py 7KB
__pycache__
vqa.cpython-36.pyc 7KB
vqaDemo.py 2KB
答辩.pptx 3.66MB
.gitignore 15B
__pycache__
MFHMODEL.cpython-35.pyc 6KB
CSFMODEL.cpython-35.pyc 4KB
DataLoader.cpython-35.pyc 3KB
VQA02DataProcess.cpython-35.pyc 133B
config.cpython-35.pyc 3KB
VQAv1Dataloader.cpython-35.pyc 4KB
modules.cpython-35.pyc 7KB
MFHBaseline.cpython-35.pyc 5KB
resnet.cpython-35.pyc 9KB
modelVGG.py 11KB
VQA01DataProcess.py 7KB
README.md 1KB
MFHMODEL.py 11KB
VQAREesNet.py 12KB
readme.txt 4KB
config.py 4KB
共 69 条
- 1
资源评论
程序员张小妍
- 粉丝: 1w+
- 资源: 2890
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功