# 基于深度学习的视听场景感知对话模型
## Data
* download 'split'.json data at: video-dialog.com
* Extracted video, audio, and dialog features can be downloaded from
[here](https://drive.google.com/drive/folders/14zlHmNFkCgptiGttwWKrsaaz5vVUFs00?usp=sharing)
## Workflow
* 使用 ```makejson_with_options.py``` 构建带有选项的对话框 json 文件(输出:'split'_options.json)
* 使用 ```convert_json_to_visdial_style.py``` 调整 JSON 格式(输出:'split'_options_2.json 可以重命名为 'split'_options.json)
* 使用“prepro.py”构建标记化标题、对话框和图像路径(输出:dialogs.h5 和 params.json)
* 使用 [batra-mlp-lab/visdial-challenge-starter-pytorch][2 中的 ```prepro_img_vgg16.lua``` 或 ```prepro_img_resnet.lua``` 构建图像特征(如果使用图像) ](输出:data_img.h5)
* 构建视频功能 I3D(输出:data_video.h5)[https://github.com/piergiaj/pytorch-i3d.git][5]
* 构建音频功能AENET(输出:data_audio.h5)[https://github.com/znaoya/aenet.git][4]
* 训练:python train.py
* 评估:python评估.py --use_gt
基于深度学习的视听场景感知对话模型.zip
版权申诉
74 浏览量
2023-12-20
11:53:27
上传
评论
收藏 61KB ZIP 举报
小码蚁.
- 粉丝: 2667
- 资源: 4483