没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
4/23/23, 2:13 PM
国产ChatGPT们的真相
https://mp.weixin.qq.com/s?__biz=MzIxODUzNTg2MA==&mid=2247484049&idx=1&sn=a5d1eabacb6c8fe8fdd3ab076322b1a8&chksm=97e840…
1/24
国产ChatGPT们的真相
收录于合集
#ai
17个
写在前面:
现在的中文网络上, 关于国产ChatGPT的各种消息喧嚣尘上, 大有全互联网一起造
ChatGPT的意思.
在这么多的传闻里, 究竟哪些相对靠谱, 哪些纯粹炒作?
我们不妨通过网络上的公开资料, 一起深入探讨真相的蛛丝马迹.
ChatGPT降临
2022年的互联网一直有个词在流传: 躺平.
直到ChatGPT横空出世, 忽然所有人都醒悟过来:
投资人发现, 躺平一年, 白白错过了一波机会, 所幸亡羊补牢尚未晚;
商业公司发现, 即便大环境动荡, 可做的事情还是有, 商业机会还是有;
而普通人发现, AI时代的降临, 原来不是十年后, 就是现在.
"忽如一夜春风来, 千树万树梨花开."
一切都是因为ChatGPT的出现.
这两年, 在AI业务降温和经济大环境的双重影响下, 国内各大厂烧钱的AI团队的日子不算
特别好过.
城主 2023-02-15 12:15 发表于北京
原创
Web3天空之城
4/23/23, 2:13 PM
国产ChatGPT们的真相
https://mp.weixin.qq.com/s?__biz=MzIxODUzNTg2MA==&mid=2247484049&idx=1&sn=a5d1eabacb6c8fe8fdd3ab076322b1a8&chksm=97e840…
2/24
这一次, ChatGPT的出现, 很可能直接扭转大厂对AI投入的犹豫态度. 有消息称, 腾讯和阿
里已经开始大肆招揽NLP人才.
一个媲美ChatGPT的AI系统对于互联网大厂的战略意义再明显不过:
1. C端, ChatGPT月活迅速破亿. 基于众所周知的原因, 这个C端服务不可能
进入中国. 国内市场的巨大蛋糕, 谁先拿下?
2. B 端 , 当 下 各 厂 B 端 业 务 都 在 为 盈 利 指 标 苦 苦 挣 扎 . 而 有 Jasper.AI 和
Notion付费使用GPT3 API的例子珠玉在前, 只要能给出能力相当的云服
务, B端付费AI云计算的美好未来, 已经在决策者面前展开.
那么, 在这场巨大的浪潮里, 国内大厂都在什么位置呢?
现在是消息满天飞. 宣称做ChatGPT的大厂排了一个长队, 仿佛不做ChatGPT的就不是
好大厂.
究竟哪些相对靠谱, 哪些纯粹炒作?
从互联网的公开资料上, 我们可以推测一下真相的蛛丝马迹.
我们先从一个预备知识点讲起. 这就是大模型的"突现能力".
思维链, 大模型的"突现能力"
已有很多文章普及了ChatGPT的各种基本原理概念.
但有一个重要细节, 甚少被提到.
先上结论:
只有千亿参数规模以上的大模型, 才可能出现"突现能力", 涌现出包括"思维链"等强大的
推理模式;
4/23/23, 2:13 PM
国产ChatGPT们的真相
https://mp.weixin.qq.com/s?__biz=MzIxODUzNTg2MA==&mid=2247484049&idx=1&sn=a5d1eabacb6c8fe8fdd3ab076322b1a8&chksm=97e840…
3/24
具备"突现能力"的大模型是ChatGPT得以诞生的必要条件.
以下是一些细节.
尽管GPT3.0在2020年就已推出, 但一直到2022年初, 科学家才发现了预训练大模型的一
个重要演化: "产生了类似人类推理思维的能力."
这就是所谓"思维链"(Chain-of-Thought)的概念.
什么是思维链?
我们向语言大模型提问的时候, 可以在提示问题(Prompt)里写几个示例, 让模型照着例子
做生成.
如果提示里不仅给出示例的结果, 还一步一步写出这个示例的结果是怎么推理得到的; 某
些大模型比如ChatGPT可以直接学习这个例子的推理来推导出正确答案.
在这里, AI模型神奇的出现了类似人类的复杂推理和知识推理能力, 这就是所谓"思维链".
基于"思维链"的推理能力不需要再进行复杂的训练, 而只是在提问时附加给出提示, 模型
就能自动学习, 并做出相应推理得到正确结果. 彻底体现了AI模型对人类高级思维能力的
模仿.
这个能力很可能是ChatGPT表现高度智能化的一个重要基础.
AI研究人员惊讶的发现, 思维链能力, 并不是随着模型参数大小的线性变化逐渐出现
的; 而是当参数规模超过一个阈值后, 模型的"思维链"能力突然就涌现出来, 这就是所谓
大模型的"突现能力"(Emergent Abilities).
这个"突现"的阈值是多少呢?至少要达到GPT3.0的级别, 即模型要达到千亿参数的规模.
2222年6月15日, 谷歌研究院联合DeepMind和斯坦福大学发表了一篇论文:《大语言模
型的突现能力》(Emergent Abilities of Large Language Models)
这篇论文整理了过往文献, 研究了谷歌, DeepMind和OpenAI的5个语言模型系列的8
个"突现能力":
4/23/23, 2:13 PM
国产ChatGPT们的真相
https://mp.weixin.qq.com/s?__biz=MzIxODUzNTg2MA==&mid=2247484049&idx=1&sn=a5d1eabacb6c8fe8fdd3ab076322b1a8&chksm=97e840…
4/24
如上所示, 种种研究结果表明, 量变导致了最终的质变:
1. 突现能力: 模型在参数规模达到某个临界值之前, 其性能是近乎随机的, 之后性能会忽
然大幅增加, 仿佛突然开窍一般, 类似自然学科里复杂系统的能力"涌现".
2. 各种测试表明, 只有模型达到GPT3的规模, 即参数大于1000亿, 模型才有可能形成"突
现能力".
3. 大模型的"思维链"推理效果好于直接提问, 也好于传统的精调小模型的效果; 这种能力
只存在于千亿规模的大模型中.
4. 参 数 量 级 只 是 一 个 必 要 条 件 . 一 些 大 模型 比 如 GPT3 的 最 早 版 本 , 以 及 开 源 模 型
BLOOM并不体现出思维链能力.
前段时间, Nvidia的CEO老黄盛赞ChatGPT"堪比iPhone问世, 对科技领域有里程碑意
义". 这个比喻很是精妙, 和其他问答式AI相比, ChatGPT的体验正是一次iPhone式的降
维打击.
而从GPT3.0开始的, 大模型所具备的"突现能力", 就是ChatGPT脱胎换骨的基础.
4/23/23, 2:13 PM
国产ChatGPT们的真相
https://mp.weixin.qq.com/s?__biz=MzIxODUzNTg2MA==&mid=2247484049&idx=1&sn=a5d1eabacb6c8fe8fdd3ab076322b1a8&chksm=97e840…
5/24
综合大模型的最新研究成果, 可以得到一个简单的判断原则:
千亿参数大模型才拥有"突现能力"; 这是打造ChatGPT级别AI的必要条件.
一个大厂能不能做出ChatGPT, 先考察是否拥有千亿参数规模的大模型.
百度: 必须赢的战斗
重点关注下百度.
毫无疑问, 在这场ChatGPT的浪潮里, 首当其冲站在风口浪尖的, 莫过于百度.
所有人的眼中, 百度都对标着Google. 因此, 百度宣布打造中国版ChatGPT的时候, 股价
大涨;
而Google因demo失误股价大跌时, 百度也直接受到了一些牵连.
百度已经官宣自家ChatGPT服务"文心一言"在3月份上线. 这是国内大厂最早和唯一的时
间表.
结果只有两种:
1 假设, 百度真的拿出了一个接近甚至媲美ChatGPT的AI服务呢?
2 又假设, 百度不幸搞砸了, 最后结果并没有体现"AI大厂"的能力呢?
无论哪种结果, 都必将引发巨大的网络舆论海啸.
在AI技术牛人圈子里, 对百度的"文心一言"大多是持谨慎乐观态度的.
信心或许有高低, 但一个基本的共识是:
如果国内有人能突破, 最可能的是百度;
剩余23页未读,继续阅读
资源评论
Java徐师兄
- 粉丝: 1042
- 资源: 1981
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功