面对GPT-4，工程师还是有办法的_GPT版本区别资源-CSDN文库

共1个文件

docx：1个

需积分: 8 188 浏览量 2023-03-27 19:47:39 上传评论收藏 259KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

面对GPT-4，工程师还是有办法的.zip （1个子文件）

面对GPT-4，工程师还是有办法的.docx 265KB

一、GPT-4 厉害在哪里？

1.更可靠了（胡说八道进一步降低）为什么？详情可见 OpenAI 的 GPT-4

Technical Report（下图）具体意思是，和以前的GPT-3.5 模型相比，

GPT-4 大大减少了胡说八道的情况。

性能更好：比 GPT-3.5 又提升了一大截

具体表现在哪？根据论文里的例子，我们发现 GPT-4 在技术上有几个

进步：

.

第一，多模态处理能力：GPT-4 可以接受包含文本和图片的输入，并生

成包括自然语言和代码在内的文本输出。这使得它在处理文档、图表或

屏幕截图等任务时表现出色。第二，更好的性能和表现：相比前代

GPT-3.5，在处理复杂任务时表现更为出色，在各大面向人类的考试中

展示出了更高的准确性、可靠性、创造力和理解能力。第三，Test-Time

Techniques 扩展能力：GPT-4 使用了 Test-Time Techniques 如

few-shot 和 chain-of-thought prompting 进一步扩展了其能力，使其能

够更好地处理新领域和任务。第四，安全性优化：GPT-4 重视安全性，

生成回复的正确性得到了重点优化。它还进行了对抗性真实性评估，以

避免潜在的安全隐患。第五，开源框架支持：OpenAI 开源了用于评价

大语言模型的开源框架 OpenAI Evals，可以帮助研究人员和开发者评

估他们的模型，并提供更好的指导。第六，模型训练和监控：OpenAI

强调对模型进行评估和监控的重要性，以避免潜在的安全隐患。GPT-4

也已被应用在了 OpenAI 内部，例如内容生成、销售和编程，并在模型

训练的第二阶段负责输出评估、对齐工作。这里我们也抛一个问题：(究

竟如何定义“模型的性能？”模型越来越难评估了，比如说，市场认为的

某些某些不如 chatgpt，但是也有人测试觉得更好，是怎么定量的评估

呢？)3.Reverse inverse scaling prize:一些随着模型变大性能下降的

任务,在 GPT-4 上不再出现类似现象（曾经没法通过增大模型规模提升

性能的任务现在也解决了）如何理解 reverse inverse scaling prize？通

过阅读论文原文，Inverse Scaling Prize 提出的几个任务，模型性能会

随着 scale 的扩大而下降，但是我们发现 GPT-4 扭转了这一趋势。也

就是说，GPT-4 scale 扩大，性能也不会下降。见下图：

.

.

.

.

能够用图像做 prompt：增加图像信息能进一步提升性能（看图说话，

类似 BLIP2，这个对视力存在问题的朋友太友好了）Salesforce 研究

院的 BLIP-2 模型，是一种视觉语言模型，可以用于图像字幕生成、有

提示图像字幕生成、视觉问答及基于聊天的提示等多种应用场景。

BLIP-2 通过引入一种新的视觉语言预训练范式来解决端到端视觉语言

预训练的高成本问题，并实现了在多个视觉语言任务上最先进的结果，

同时减少了训练参数量和预训练成本。

.

二、GPT-4 存在的问题

内容反馈

a_juvenile

粉丝: 31
资源: 854

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip