python作业-基于Flickr30k数据集实现图像文本跨模态搜索python源码+数据集+测试界面+项目说明(高分课程设计)资源-CSDN文库

共35个文件

py：22个

pyc：6个

md：3个

版权申诉

python

数据集

176 浏览量 2024-05-18 01:47:38 上传评论收藏 1.13MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

Cross-modal-retrieval-master.zip （35个子文件）

Cross-modal-retrieval-master

LICENSE 1KB

median_compute

evaluation.py 5KB

Preprocessing

data_split_1.py 1KB

__init__.py 23B

build_dictionary_5.py 4KB

convert_annotations_4.py 1KB

_tools.py 3KB

resize_data_2.py 1KB

count_vocab_3.py 3KB

trainMore2.py 10KB

DataSet

flick30k_dataset.py 10KB

__pycache__

flick30k_dataset.cpython-35.pyc 9KB

__init__.cpython-35.pyc 213B

chushihua.sh 49B

trainMore1.py 7KB

Test

result.png 1.05MB

881336.jpg 41KB

QueryApp

DATA

MyButton.py 5KB

ImageUI.py 16KB

MyLabel.py 650B

Flick_10k

README.md 79B

README.md 178B

logger.py 5KB

trainStage1.py 7KB

tools.py 2KB

trainStage2.py 10KB

Models

models.py 1KB

ImageCNN.py 1KB

__pycache__

ImageCNN.cpython-35.pyc 2KB

TextCNN.cpython-35.pyc 5KB

__init__.cpython-35.pyc 212B

models.cpython-35.pyc 2KB

TextCNN.py 7KB

config.py 785B

README.md 2KB

# 跨模态检索：图像——文本检索媒体计算实践作业：图像——文本跨模态搜索 ## 数据集下载本项目使用的是[Flickr30k数据集](http://shannon.cs.illinois.edu/DenotationGraph/data/index.html)，你需要自行先下载。 [百度云地址](https://pan.baidu.com/s/10z2LTaQWzIlfBuQOunf7yA) ## 数据预处理在Preprocessing下: - `data_split_1.py` 划分训练集、测试集、验证集 - `resize_data_2.py` 长宽比例不变，将短边拉伸为256 - `count_vocab_3.py` 统计每个单词的词频 - `convert_annotations_4.py` 将.txt格式的标注文件转换为.json - `build_dictionary_5.py` 构建单词编号，即查询字典 ## 模型训练在数据预处理完成后，在`config.py`中配置各文件的路径以及训练的参数，并且下载在谷歌新闻上预训练的[Word2Vec模型](https://pan.baidu.com/s/1Q9Z-Z8qWxCjNbFmXMty8Dw) - `trainStage1.py` 使用分类损失预训练 - `trainStage2.py` 使用三元组损失和对抗损失微调 ## 测试界面在 QueryApp 下的 [图文互搜.exe](https://pan.baidu.com/s/104cT0qy3rOKkAilVSkYXuw) 提供简单的测试界面。(把相关文件放在对应文件夹下使用一键初始化) (修正了不能自己选图像模型的小bug,但是由于环境变换,直接用PyInstaller打包的exe文件较大(提取码1234)[main.exe](https://pan.baidu.com/s/1QzCDdv_yO9y_0gennLNSvg)) 需要提前下载预训练模型[imgcnn.pth和textcnn.pth](https://pan.baidu.com/s/1vtLcsHwiTqSkLHvKR-oqbA)到`DATA/Checkpoint`下方便自动初始化， [captions_database.pkl](https://pan.baidu.com/s/1k_csdkpMaJV9bbv0729jpw)和[images_database.pkl](https://pan.baidu.com/s/1b4L51_225vL9pW9EqsusgA)事先提取的图像和文本特征以及其索引到`DATA/`下，字典[text_info.json](https://pan.baidu.com/s/1dlG067OS_ZKeDKxnVqtc_Q)到`DATA/Flick_10k`，图片数据到`DATA/Flick_10k/flick_image_256`下。也可以自己选择路径，但是后续检索的时候不支持自动初始化。测试结果如下： ![](https://github.com/EternallyTruth/Cross-modal-retrieval/blob/master/median_compute/Test/result.png) ## 参考资料 [双路CNN MatConvNet](https://github.com/EternallyTruth/Image-Text-Embedding) [用于图文搜索的对抗学习 ACM2017](https://dl.acm.org/doi/10.1145/3123266.3123326)

评论收藏

内容反馈

版权申诉