2023/6/28 10:36
还能这么玩?清华给 ChatGPT 做逆向,发现了 ChatGPT 的进化轨迹!
https://mp.weixin.qq.com/s/lrnRM6m5xjYuRk1cQHByTg
1/11
还能这么玩?清华给 ChatGPT 做逆向,发现了 ChatGPT 的进化轨
迹!
夕 小 瑶 科 技 说 原 创
作 者 |小 戏 、 Python
立 足一 个 ChatGPT ,现 在对 大模 型的 研究 简直 是百 花齐 发百 家争 鸣, 用 ChatGPT 做 化 学 实
验、给 ChatGPT 做心理测试、诱导 ChatGP T 越狱泄漏隐私、让几个 ChatGPT 形成一个小社
会等等不胜枚举。
小戏 2023-05-08 12:05 发表于北京
原创
夕小瑶科技说
2023/6/28 10:36
还能这么玩?清华给 ChatGPT 做逆向,发现了 ChatGPT 的进化轨迹!
https://mp.weixin.qq.com/s/lrnRM6m5xjYuRk1cQHByTg
2/11
而 最 近 , 清 华 的 研 究 团 队 又 在 大 模 型 研 究 中 另 辟 蹊 径 , 不 仅 构 建 了 一 个 数 据 集 记 录
ChatGPT 随 时 间 的 “版 本 迭 代 ”, 更 是 通 过 逆 向 分 析 探 索 得 到 了 OpenAI 对 ChatGPT 动 的
手 脚 做 的 改 进 , 推 演 出 了 ChatGPT的 进 化 轨 迹 !论文和项目地址如下:
论 文 题 目 :
ChatLog:Recordingand Analyzing ChatGPT Across Time
论 文 链 接 :
https://arxiv .org/pdf/2304.14106.pdf
项 目 链 接 :
https://github.com/THU-KEG/ChatLog
首先让我们来看一张图,其实毋庸置疑,OpenAI 在 ChatGPT 如此庞大的用户基数下,必然会
借助这些海量的“优质数据”让 ChatGPT 不断的迭代进化。以 ELI5 数据集(包含很多 Explain
Like I am 5 问题的数据集)为例,在 3 月 9 号 的 ChatGPT版 本 中 , ChatGPT 只 给 出 了 一
个 相 当 简 陋 的 回 答 , 很 显 然 ChatGPT 在 3 月 9号 还 没 有 完 全 理 解 什 么 是 “ExplainLike I
am 5”, 但 是 在 4 月 9 号 时 , ChatGPT 已 经 完 成 了 进 化 , 不 仅 表 达 更 加 生 动 , 甚 至 还 使
用 了 比 喻 的 修 辞 。
2023/6/28 10:36
还能这么玩?清华给 ChatGPT 做逆向,发现了 ChatGPT 的进化轨迹!
https://mp.weixin.qq.com/s/lrnRM6m5xjYuRk1cQHByTg
3/11
显然,一个直觉的问题是“ChatGPT是 沿 着 什 么 方 向 变 化 的 ? ”,如果可以搞清楚这个问题,
不仅是可以满足一下我们的好奇心,更是给 ChatGPT 客观的评估工作带来了方便。但这个问
题并不是 OpenAI 会写在文档里供我们即插即用的问题,因而 , 这 篇 工 作 应运而生,总 的 来
说 , 论 文 完 成 了 两 件 事 , 一 是 分 别 构 建 了 一 个 按 日 还 按 月 记 录 ChatGPT 变 化 的 数 据 集 ;
二 则 是 利 用 这 个 数 据 集 对 ChatGPT的 进 化 轨 迹 进 行 了 分 析 , 得 出 了 不 少 有 意 思 的 结 论 。
ChatLog——ChatGPT 进 化 数 据 集
关于数据集,作者团队从两个角度出来,一 个 是 构 建 一 个 以 月 份 为 时 间 维 度 的 数 据 集 , 一
个 是 构 建 一 个 以 日 期 为 时 间 维 度 的 数 据 集 。对于按月记录的数据集而言,作者团队从数据集
HC3(一个包含大约两万四千条问题及其对应的人类专家答案和 ChatGPT 答案的数据集) 、
Jack of All Trades (一个用于评估 ChatGPT 在25个公共 NLP 数据集上的 25 个不同 NLP 任
2023/6/28 10:36
还能这么玩?清华给 ChatGPT 做逆向,发现了 ChatGPT 的进化轨迹!
https://mp.weixin.qq.com/s/lrnRM6m5xjYuRk1cQHByTg
4/11
务性能的数据集)以及一系列其他数据集中抽取了涵盖计算 机 、 数 学 、 金 融 等 不 同 领 域的共
38730 个问题-答案对,每月询问一次 ChatGP T,构成 ChatLog-Monthly。
而为了监测 ChatGPT 每天的变化,论文从 HC3 数据集中随机抽取了1000个问题,从 2023 年
3 月 5 日到 4 月 9 日重复发送给ChatGPT。其中有些问题是开放性的,可能需要 ChatGP T 借
助外部知识,而有部分问题是分析性的,主要考验 ChatGP T 的分析能力。总体大约 30% 是
“What” 类型的问题,30% 是“How ” 类型的问题,58% 是为“Why” 类型的问题,其他类型的问
题占 6%。通 过 在 这 些 问 题 上 ChatGPT 的 表 现 , 可 以 评 估 它 在 多 方 面 的 表 现 , 如 多 领 域
知 识 理 解 、 推 理 、 解 释 等 。
分 析 ——ChatGPT 的 进 化 轨 迹
有了数据集,选取相应评价指标,便可以看出 ChatGPT 随时间的进化轨迹。如下表所示,对
比 1 月 份 的 ChatGPT 在 不 同 任 务 数 据 集 上 的 结 果 , 可 以 看 出 New ChatGPT 有 了 几 乎 全
线 的 提 升 。