基于深度学习的视觉问答系统源码+文档说明+答辩ppt（高分毕业设计）.zip

共69个文件

py：33个

log：17个

pyc：12个

版权申诉

毕业设计

深度学习

人工智能

106 浏览量 2024-01-13 21:11:13 上传评论收藏 2.38MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

毕业设计_ 基于深度学习的视觉问答.zip （69个子文件）

基于深度学习的视觉问答+源代码+文档说明+答辩ppt

model.png 87KB

VQA02DataProcess.py 10KB

MFHBaseline.py 9KB

record

current_['m']_freq_0_layer_0_csf_0.log 10KB

current_['b']_freq_0_layer_0_csf_0.log 11KB

current_['b']_freq_0_layer_2_csf_0.log 11KB

current_['b']_freq_0_layer_1_['cs']_1.log 11KB

current_['b']_freq_0_layer_0_['csf']_g_0_co_1.log 25KB

current_['b']_freq_0_layer_3_['cs']_g_0_co_0.log 38KB

current_model_['b']_freq_1_layer_1.log 6KB

current_['b']_freq_0_layer_3_['csf']_g_0_co_0.log 25KB

current_['b']_freq_0_layer_1_csf_0.log 11KB

current_['b']_freq_0_layer_2_['cs']_g_0_co_0.log 25KB

current_['b']_freq_0_layer_0_['csf']_g_0_co_0.log 25KB

current_['b']_freq_0_layer_2_['cs']_0.log 11KB

current_['b']_freq_0_layer_3_['cs']_0.log 11KB

current_model_['b']_freq_1_layer_0.log 6KB

current_['m']_freq_0_layer_1_['cs']_g_0_co_0.log 25KB

current_['b']_freq_0_layer_1_['cs']_0.log 11KB

current_['b']_freq_0_layer_1_['cs']_g_0_co_0.log 25KB

TEST.py 2KB

VQA02train.py 17KB

VQA01dataset.py 5KB

TMP.py 10KB

VQA02dataset.py 6KB

data

COCO_train2014_000000000009.jpg 219KB

VQA01ImageProcess.py 7KB

predict.py 1KB

modelResNet.py 12KB

readme 751B

VQA01Baseline.py 6KB

VQAv1Dataloader.py 6KB

eval_tools.py 2KB

CSFMODEL.py 7KB

draft.py 7KB

VQA02ImageProcess2.py 4KB

npy_h5py.py 2KB

modules.py 11KB

DataLoader.py 4KB

VQA02getdata.py 9KB

resnet.py 10KB

VQA02ImageProcess.py 4KB

vqa-tools

PythonEvaluationTools

vqaEvaluation

vqaEval.py 8KB

__init__.py 18B

__pycache__

vqaEval.cpython-36.pyc 7KB

__init__.cpython-36.pyc 159B

vqaEvalDemo.py 3KB

PythonHelperTools

vqaTools

__init__.py 24B

vqa.py 7KB

__pycache__

vqa.cpython-36.pyc 7KB

vqaDemo.py 2KB

答辩.pptx 3.66MB

.gitignore 15B

__pycache__

MFHMODEL.cpython-35.pyc 6KB

CSFMODEL.cpython-35.pyc 4KB

DataLoader.cpython-35.pyc 3KB

VQA02DataProcess.cpython-35.pyc 133B

config.cpython-35.pyc 3KB

VQAv1Dataloader.cpython-35.pyc 4KB

modules.cpython-35.pyc 7KB

MFHBaseline.cpython-35.pyc 5KB

resnet.cpython-35.pyc 9KB

modelVGG.py 11KB

VQA01DataProcess.py 7KB

README.md 1KB

MFHMODEL.py 11KB

VQAREesNet.py 12KB

readme.txt 4KB

config.py 4KB

# 毕业设计对于视觉问答（VQA）的研究具有深刻的学术意义和广阔的应用前景。目前，视觉问答模型性能提升的重点在于图像特征的提取，文本特征的提取，attention权重的计算和图像特征与文本特征融合的方式这4个方面。本文主要针对attention权重的计算和图像特征与文本特征融合这两个方面，以及其他细节方面的地方相对于前人的模型做出了改进。本文的主要工作在于本文使用open-ended模式，答案的准确率采用分数累积，而不是一般的多项选择。本文采用CSF模块（包括CSF_A和CSF_B）不仅对spatial-wise进行了权重计算，还对channel-wise进行了权重计算。本文采用MFB模块和ResNet152 FC层之前的tensor来结合LSTM的输出来计算每个区域的权重，而不是直接把image feature和question feature结合本文采用SigMoid来计算最后的分布，而不是一般的softmax(实验部分会有对比两者的差异)。 # 总体模型的架构 ![Alt text](./model.png)

评论收藏

内容反馈

版权申诉