多模态模型学习1——CLIP对比学习语言-图像预训练模型_clip模型-CSDN博客.pdf_多模态模型学习1——CLIP对比学习资源-CSDN文库

需积分: 5 26 浏览量 2024-07-28 02:34:55 上传评论收藏 3.85MB PDF 举报

资源推荐

资源详情

资源评论

博客下载学习社区知道 GitCode InsCode 会议

学习

搜索登录会员中⼼

登录后您可以享受以下权益：

https://blog.csdn.net/weixin_44791964/article/details/129941386 2024/7/28 02:34

⻚码󻃫 1/21

CLIP的思想⾮常简单，只需要看懂这幅图就可以了，左边是训练的原理，CLIP⼀共有两个模态，⼀个是⽂本模态，⼀个是视觉模态，分别对应了Text Encoder和Image Encoder。

Text Encoder⽤于对⽂本进⾏编码，获得其Embedding；

Image Encoder⽤于对图⽚编码，获得其Embedding。

两个Embedding均为⼀定⻓度的单⼀向量。

在训练时，假设⼀个批次中有64个⽂本图像对，此时我们会同时获得64个图⽚和64个⽂本，⾸先我们从64个⽂本图像对中取出⼀个⽂本图像对，成对的⽂本图像对是天然的正样本，它们是配对的。

⽽对于这个样本的⽂本来讲，其它63个图像都为负样本，它们是不配对的。

⽽对于这个样本的图像来讲，其它63个⽂本都为负样本，它们是不配对的。

在这个批次中，64个⽂本图像对，可以获得的图像embedding和⽂本embedding为：

visual_embedding的第x⾏和text_embedding的第x⾏是成对的。

我们使⽤visual_embedding 叉乘 text_embedding，得到⼀个[64, 64]的矩阵，那么对⻆线上的值便是成对特征内积得到的，如果visual_embedding和对应的text_embedding越相似，那么它的值便越⼤。

我们选取[64, 64]矩阵中的第⼀⾏，代表第1个图⽚与64个⽂本的相似程度，其中第1个⽂本是正样本，我们将这⼀⾏的标签设置为1，那么我们就可以使⽤交叉熵进⾏训练，尽量把第1个图⽚和第⼀个⽂本的

内积变得更⼤，那么它们就越相似。

每⼀⾏都做同样的⼯作，那么[64, 64]的矩阵，它的标签就是[1,2,3,4,5,6……,64]，在计算机中，标签从0开始，所以实际标签为[0,1,2,3,4,5……,63]。

代码下载

Github源码下载地址为：

https://github.com/bubbliiiing/clip-pytorch

复制该路径到地址栏跳转。

CLIP实现思路

⼀、⽹络结构介绍

1、Image Encoder

visual_embedding [64, embedding_size]

text_embedding [64, embedding_size]

https://blog.csdn.net/weixin_44791964/article/details/129941386 2024/7/28 02:34

⻚码󻃫 3/21

剩余20页未读，继续阅读

内容反馈

刘伊诺

粉丝: 0
资源: 3

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip