近日 OpenAI 发布了诞生于 GPT-3 基础上的聊天机器人 ChatGPT,短短几天引
爆网络,用户数突破 100 万。ChatGPT 根据强化学习的奖励模型调整迭代为用
户生成建议,应用场景丰富,可以参加考试、写诗、修 bug,“智商”很高。当前
人形机器人优先“四肢发达”,未来“头脑发达”为其终极追求。人机交互领域
智能体虽依然存在无法完全根据现实生活进行自主推演,具有道德约束风险等
缺陷,但其在语义交互上的进步显著。随着人机交互技术在语音、语义、肢体
等交互能力的成熟,人形机器人灵活适用于更广阔的 To C 场景指日可待。
ChatGPT 根据强化学习奖励模型与用户进行语义交互,应用场景丰富
OpenAI 发布了诞生于 GPT-3 基础上的聊天机器人 ChatGPT,具备用户友好的对
话交互界面,根据指令提供详细响应。首先,由人类标记员对于用户提交的
prompt 来编写答案,把这些答案的数据集收集起来,通过监督学习对 GPT 进行
微调。然后,由人类标记员对于模型产出的答案进行排序,以此收集比较数据用
于训练强化学习的奖励模型,以捕捉人类偏好。最后,采用 PPO(近端