杭电小哥抢先搞定GPT读图功能,单卡就能实现新SOTA|CVPR 2023

preview
共1个文件
docx:1个
需积分: 0 5 下载量 79 浏览量 更新于2023-03-30 1 收藏 3.01MB ZIP 举报
能读图的GPT-4震撼发布了!但要用它还得排队。。。 不如先试试这个~ 加上一个小模型,就能让ChatGPT、GPT-3这类目前只能理解文本的大语言模型轻松读图,各种刁钻的细节问题都能手拿把掐。 并且训练这个小模型单卡(一块RTX 3090)就能搞定。 效果呢,直接看图。 比如说,给训练后的GPT-3输入一张“音乐现场”的图片,问它:现场在举办什么活动? 毫不迟疑,GPT-3给出了音乐会的答案。 再来加点难度,再给GPT-3酱紫的一张照片,让它来分辨照片中的帘子是什么类型的材质。 GPT-3:蕾丝。 Bingo!(看来是有点儿东西在身上的) 这个方法呢,是杭州电子科技大学和合肥工业大学的一个团队的最新成果:Prophet,半年前他们就已经着手进行这项工作。 论文一作是杭电研究生邵镇炜,他在1岁那年被诊断患有“进行性脊肌萎缩症”,高考时遗憾与浙大擦肩,选择了离家近的杭州电子科技大学。 目前该论文已经被CVPR2023接收。 跨模态任务上达到新SOTA 话不多说,直接来看在Prophet这种方法的加持下GPT-3的读图能力。 我们先来看看它在数据集上的测试结果。 研究团队在两个基于外