【免费】杭电小哥抢先搞定GPT读图功能，单卡就能实现新SOTA｜CVPR2023资源-CSDN文库

共1个文件

docx：1个

需积分: 0 79 浏览量更新于2023-03-30 1 收藏 3.01MB ZIP 举报

能读图的GPT-4震撼发布了！但要用它还得排队。。。不如先试试这个～加上一个小模型，就能让ChatGPT、GPT-3这类目前只能理解文本的大语言模型轻松读图，各种刁钻的细节问题都能手拿把掐。并且训练这个小模型单卡（一块RTX 3090）就能搞定。效果呢，直接看图。比如说，给训练后的GPT-3输入一张“音乐现场”的图片，问它：现场在举办什么活动？毫不迟疑，GPT-3给出了音乐会的答案。再来加点难度，再给GPT-3酱紫的一张照片，让它来分辨照片中的帘子是什么类型的材质。 GPT-3：蕾丝。 Bingo！（看来是有点儿东西在身上的）这个方法呢，是杭州电子科技大学和合肥工业大学的一个团队的最新成果：Prophet，半年前他们就已经着手进行这项工作。论文一作是杭电研究生邵镇炜，他在1岁那年被诊断患有“进行性脊肌萎缩症”，高考时遗憾与浙大擦肩，选择了离家近的杭州电子科技大学。目前该论文已经被CVPR2023接收。跨模态任务上达到新SOTA 话不多说，直接来看在Prophet这种方法的加持下GPT-3的读图能力。我们先来看看它在数据集上的测试结果。研究团队在两个基于外

收起资源包目录

package

杭电小哥抢先搞定GPT读图功能，单卡就能实现新SOTA｜CVPR 2023.zip （1个子文件）

杭电小哥抢先搞定GPT读图功能，单卡就能实现新SOTA｜CVPR 2023.docx 3.08MB

资源推荐

资源预览

资源评论

能读图的 GPT-4 震撼发布了！但要用它还得排队。。。

不如先试试这个～

加上一个小模型，就能让 ChatGPT、GPT-3 这类目前只能理解文本的

大语言模型轻松读图，各种刁钻的细节问题都能手拿把掐。

并且训练这个小模型单卡（一块 RTX 3090）就能搞定。

效果呢，直接看图。

比如说，给训练后的 GPT-3 输入一张“音乐现场”的图片，问它：现场在

举办什么活动？

毫不迟疑，GPT-3 给出了音乐会的答案。

再来加点难度，再给 GPT-3 酱紫的一张照片，让它来分辨照片中的帘

子是什么类型的材质。

GPT-3：蕾丝。

Bingo！（看来是有点儿东西在身上的）

这个方法呢，是杭州电子科技大学和合肥工业大学的一个团队的最新成

果：Prophet，半年前他们就已经着手进行这项工作。

论文一作是杭电研究生邵镇炜，他在 1 岁那年被诊断患有“进行性脊肌

萎缩症”，高考时遗憾与浙大擦肩，选择了离家近的杭州电子科技大学。

目前该论文已经被 CVPR2023 接收。

跨模态任务上达到新 SOTA

话不多说，直接来看在 Prophet 这种方法的加持下 GPT-3 的读图能力。

我们先来看看它在数据集上的测试结果。

研究团队在两个基于外部知识的视觉问答数据集 OK-VQA 和

A-OKVQA 测试了 Prophet，均创造了新 SOTA。

a_juvenile

粉丝: 30
资源: 854

最新资源