没有合适的资源?快使用搜索试试~ 我知道了~
阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 195 浏览量
2023-08-13
09:00:45
上传
评论
收藏 7.92MB PDF 举报
温馨提示
试读
16页
阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了.pdf
资源推荐
资源详情
资源评论
2023/6/28 11:17
阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了
https://mp.weixin.qq.com/s/fF8uXP00B9MtehaHE2ld9Q
1/16
阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了
文 | 卖 萌 酱
这几天风闻阿里的AI大模型要发布,我刷了这把老脸,成功成为了第一批吃到螃蟹的人!
测试界面长这样:
传送门:https://tongyi.aliyun.com/chat
没想到的是,仅仅玩了不到一小时,我的认知就发生了改变。
在测试阿里通义千问模型之前,我觉得国内的大模型赛道在一段时间内应该是百度文心一言一
枝独秀,其他公司要赶超,会有不小的压力。但现在来看,我错了。
直接说整体结论:
阿 里 通 义 千 问 会 成 为 百 度 文 心 一 言 的 强 有 力 竞 争 对 手 。
卖萌酱 2023-04-09 12:05 发表于北京
原创
夕小瑶科技说
2023/6/28 11:17
阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了
https://mp.weixin.qq.com/s/fF8uXP00B9MtehaHE2ld9Q
2/16
生 成 式 大 模 型 的 评 测 要 比 传 统 的 NLP 任 务 复 杂 一 些 , 目 前 这 方 面 依 然 是 以 人 工 评 测 GSB
(Good/Same/Bad)为主。
即,选取一个基线模型,给待评测模型和基线模型输入相同的问题,人工评测两个模型的
回答质量,如果待评测模型表现更好,则记为G;如果基线模型表现更好,则记为B;如果
表现差不多,记为S。最后统计G:S:B的比例,来判断待评测模型是否比基线模型更优
秀。
当然,也有工作用GP T-4去做评测的,这种方式虽然省力,但显然非常有偏。
为了给大家直观的体现对比结果,笔者从15个维度出发设置题目,将阿里通义千问与百度文心
一言进行GSB评比,来全面考察模型的基础语言理解、复杂指令理解、基础文本生成、复杂内
容生成、常识推理、数学推理、反事实推理、法律伦理意识、中国文学知识、跨语言能力和代
码能力等。
设置的题目包括:
事实性问答
科普文写作
小红书文案写作
项目计划撰写
古文理解
爆炒钢筋混凝土
代码理解
推销狂魔
如何实现996?
数字排序
对对联
数值计算
推理解题
跨语言能力
弱智吧混战
互啄一波
2023/6/28 11:17
阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了
https://mp.weixin.qq.com/s/fF8uXP00B9MtehaHE2ld9Q
3/16
来,先让你们来一个“菜鸡互啄”!
百度:
阿里:
百度回避了用户的问题,阿里选择了勇往直前。
本题纯娱乐,不作为评测题目
事实性问答
阿里:
百度:
2023/6/28 11:17
阿里「通义千问」大战百度「文心一言」15个回合后,GPT4沉默了
https://mp.weixin.qq.com/s/fF8uXP00B9MtehaHE2ld9Q
4/16
这一轮pk,我本以为百度要赢了,结果他最后补了句“而羊和西红柿则是蔬菜”。。。
科普文写作
阿里:
百度:
阿里丢失了写作风格信息,百度完胜!
剩余15页未读,继续阅读
资源评论
地理探险家
- 粉丝: 1045
- 资源: 5416
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功