# 跨模态检索:图像——文本检索
媒体计算实践作业:图像——文本跨模态搜索
## 数据集下载
本项目使用的是[Flickr30k数据集](http://shannon.cs.illinois.edu/DenotationGraph/data/index.html),你需要自行先下载。
[百度云地址](https://pan.baidu.com/s/10z2LTaQWzIlfBuQOunf7yA)
## 数据预处理
在Preprocessing下:
- `data_split_1.py` 划分训练集、测试集、验证集
- `resize_data_2.py` 长宽比例不变,将短边拉伸为256
- `count_vocab_3.py` 统计每个单词的词频
- `convert_annotations_4.py` 将.txt格式的标注文件转换为.json
- `build_dictionary_5.py` 构建单词编号,即查询字典
## 模型训练
在数据预处理完成后,在`config.py`中配置各文件的路径以及训练的参数,并且下载在谷歌新闻上预训练的[Word2Vec模型](https://pan.baidu.com/s/1Q9Z-Z8qWxCjNbFmXMty8Dw)
- `trainStage1.py` 使用分类损失预训练
- `trainStage2.py` 使用三元组损失和对抗损失微调
## 测试界面
在 QueryApp 下的 [图文互搜.exe](https://pan.baidu.com/s/104cT0qy3rOKkAilVSkYXuw) 提供简单的测试界面。(把相关文件放在对应文件夹下使用一键初始化)
(修正了不能自己选图像模型的小bug,但是由于环境变换,直接用PyInstaller打包的exe文件较大(提取码1234)[main.exe](https://pan.baidu.com/s/1QzCDdv_yO9y_0gennLNSvg))
需要提前下载预训练模型[imgcnn.pth和textcnn.pth](https://pan.baidu.com/s/1vtLcsHwiTqSkLHvKR-oqbA)到`DATA/Checkpoint`下方便自动初始化,
[captions_database.pkl](https://pan.baidu.com/s/1k_csdkpMaJV9bbv0729jpw)和[images_database.pkl](https://pan.baidu.com/s/1b4L51_225vL9pW9EqsusgA)事先提取的图像和文本特征以及其索引到`DATA/`下,
字典[text_info.json](https://pan.baidu.com/s/1dlG067OS_ZKeDKxnVqtc_Q)到`DATA/Flick_10k`,
图片数据到`DATA/Flick_10k/flick_image_256`下。也可以自己选择路径,但是后续检索的时候不支持自动初始化。
测试结果如下:
![](https://github.com/EternallyTruth/Cross-modal-retrieval/blob/master/median_compute/Test/result.png)
## 参考资料
[双路CNN MatConvNet](https://github.com/EternallyTruth/Image-Text-Embedding)
[用于图文搜索的对抗学习 ACM2017](https://dl.acm.org/doi/10.1145/3123266.3123326)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
<项目介绍> 跨模态检索:图像——文本检索 媒体计算实践作业:图像——文本跨模态搜索 数据集下载 本项目使用的是Flickr30k数据集,你需要自行先下载。 百度云地址 数据预处理 在Preprocessing下: data_split_1.py 划分训练集、测试集、验证集 resize_data_2.py 长宽比例不变,将短边拉伸为256 count_vo - 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
资源推荐
资源详情
资源评论
收起资源包目录
Cross-modal-retrieval-master.zip (35个子文件)
Cross-modal-retrieval-master
LICENSE 1KB
median_compute
evaluation.py 5KB
Preprocessing
data_split_1.py 1KB
__init__.py 23B
build_dictionary_5.py 4KB
convert_annotations_4.py 1KB
_tools.py 3KB
resize_data_2.py 1KB
count_vocab_3.py 3KB
trainMore2.py 10KB
DataSet
flick30k_dataset.py 10KB
__pycache__
flick30k_dataset.cpython-35.pyc 9KB
__init__.cpython-35.pyc 213B
chushihua.sh 49B
trainMore1.py 7KB
Test
result.png 1.05MB
881336.jpg 41KB
QueryApp
DATA
MyButton.py 5KB
ImageUI.py 16KB
MyLabel.py 650B
Flick_10k
README.md 79B
README.md 178B
logger.py 5KB
trainStage1.py 7KB
tools.py 2KB
trainStage2.py 10KB
Models
models.py 1KB
ImageCNN.py 1KB
__pycache__
ImageCNN.cpython-35.pyc 2KB
TextCNN.cpython-35.pyc 5KB
__init__.cpython-35.pyc 212B
models.cpython-35.pyc 2KB
TextCNN.py 7KB
config.py 785B
README.md 2KB
共 35 条
- 1
资源评论
奋斗奋斗再奋斗的ajie
- 粉丝: 468
- 资源: 2268
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功