1 / 24
通用 AI,通用技术,通向何方
未尽研究
2023.05.07
摘要
ChatGPT 自从 2022 年底发布以来,迅速成为风靡全球的现象级产品,开启了通用人工智能的时代。这个
应用背后的技术,是用深度神经网络技术训练出来的自然语言大模型,它可以生成内容,也具备了逻辑
和推理能力,与其他模型和应用协同完成任务。大模型还能打通语言、图像、视频、音频,以及更多对
物理环境的感知,产生“具身”的智能。大模型也可能进一步改变科学研究的范式。尽管大模型目前也
存在着事实不准确、幻觉等缺陷,并且进一步引发了关于智能的本质的争议,但大模型通过学习人类语
言并且掌握其基本结构,从中产生了智能,并且对人类的智能提供了一种参照。大模型在互联网和数字
技术的基础之上,成为一种通用技术,正在迅速渗透到数字经济的各个领域,在计算机上形成了自动化
完成复杂任务的能力,在知识工作的领域能显著提升劳动生产力,并且引领数字经济向人工智能化发
展。根据以往的电力和信息等通用技术颠覆旧技术的研究,大模型的迅速应用,可能在短期内冲击就业
市场,但随着新技术带来更多行业的生产力的提升,并且创造新的需求,新技术可能创造新的就业和增
长。但这一切还取决于采取相应的政策。对于中国来说,发展大模型面临着一些瓶颈,如算力落差、开
源的语言数据不够丰富、先进大模型人才短缺,等等。但中国可以通过多元分布式的布局,统筹超算中
心克服短期算力瓶颈,通过开源及要素市场建立起语料数据的供应。由于中国在特定领域、行业应用方
面拥有丰富的应用场景,大模型技术在中国有广阔前景,服务于中国的数字经济与创新型经济的大计。
2 / 24
目录
摘要 .......................................................................................................................................................................... 1
1 通用 AI ......................................................................................................................................................... 3
1.1 CHATGPT 时刻 ............................................................................................................................................ 3
1.2 大模型的缺陷 ......................................................................................................................................... 4
1.3 大模型的下一步 ..................................................................................................................................... 5
1.4 AI FOR SCIENCE .......................................................................................................................................... 7
2 通用技术...................................................................................................................................................... 8
2.1 电力与 IT ................................................................................................................................................. 8
2.2 人工智能作为通用技术 ....................................................................................................................... 9
2.2.1 市场渗透 .......................................................................................................................................10
2.2.2 成本下降 .......................................................................................................................................10
2.2.3 催生创新 .......................................................................................................................................11
2.3 人工智能的经济分析 ..........................................................................................................................12
2.3.1 鲍莫尔病与索洛悖论 ................................................................................................................12
2.3.2 白领危机与就业逆差 ................................................................................................................13
2.3.3 新的数据要素 ..............................................................................................................................15
3 中国之路....................................................................................................................................................16
3.1 脱钩时代 ................................................................................................................................................16
3.1.1 算力落差 .......................................................................................................................................16
3.1.2 语言数据,非对称的汉语与英语 ..........................................................................................18
3.2 中国大模型,大力出奇迹 .................................................................................................................19
3.2.1 算力多元化和集约化 ................................................................................................................19
3.2.2 大模型与大科学 .........................................................................................................................19
3.2.3 汉语+ ..............................................................................................................................................19
3.2.4 不输在应用 ..................................................................................................................................20
结论与讨论 ..........................................................................................................................................................21
引用及参考文献 .................................................................................................................................................22
3 / 24
1 通用 AI
用人类所有的语言作为用来学习的数据,去
复制人类的智能,去发现一种新的智能,这是一
项伟大的实验。费曼说过:凡是我不能创造的,
我就无法理解。
1.1 ChatGPT 时刻
世界上第一个能像人一样对话的机器人,不
可能只是在语言实验室里,而只能是出世不久即
在真实的世界里与上亿人对话的 ChatGPT。它的字
面意思,就是预训练生成式对话机器人。这个机
器人的大脑,就是自然语言大模型。这份报告里
自始至终会用自然语言大模型(简称大模型)这
个概念。
这个由深度神经网络训练出来的 GPT-3.5 大
模型,拥有 1750 亿个参数,45 万亿个语言标志
(token)。神经网络可以从已知的单词正在组成的
句子中,预测下一个单词——这也是辛顿
(Geoffrey Hinton)等人于 1986 年 5 月在《自
然》杂志上发表的论文中,首次提出的语言模
型。
自然语言展示出智能,就是排序的游戏。我
们置身于一个复杂的世界。无论多么复杂,宇宙
万物,从人类语言到蛋白质的结构,皆成序列。
序列决定结构。结构决定功能。世界上所有的语
种,皆是由遵从一定的语义和语法规则而组成的
语言文字序列。
根据人类的提示,借助从人类语言中知识的
学习,计算机通过概率统计,总是能通过推算出
下一个单词,以符合语法、语义、上下文信息
等,最终生成对人类有意义的词组、句子、段
落、表达,并且与人类流畅地对话。
图 1:生成式人工智能输出对话的原理示例。
Scaling, emergence, and reasoning in large
language models, Jason Wei
机器学习让计算机从经验中学习知识,而不
是以人类给计算机规定的形式以获取所需要的所
有知识。计算机用较简单的概念,一层一层地学
习复杂概念,构建出多层次的深度神经网络。
图 2:人工智能的表现改善迅速。人工智能测试与
人类水平相比。
Kiela et al.(2021)
从 2012 年起,人类训练的模型识别图像和声
音,接近并超过了人类的水平;对自然语言的辨
识和处理能力迅速提升,一些单项语言能力迅速
超越人类的能力。到 2016 年时,一个粗略的经验
法则是,只要在一个具体的类别给定 5000 个标注
样本,监督深度学习一般将达到可以接受的性
能,当至少有 1000 万个标注样本的数据集用于训
练时,它将达到或超过人类的表现。
人是万物之灵。人类之灵,在于语言。人
类所有的知识通过语言传播,所有的智慧通过
语言传承。维特根斯坦说,思想的边界,止于
语言的边界。
是不是说,当机器学习了所有的语言,就
能达到人类的智能,这是一个假设,一个需要
有勇气去证明的假设。
4 / 24
图 3:大模型缩放定律与涌现能力。左图:当模型大小呈指数增长时,相应的模型性能呈线性增长。右
图:当模型尺寸达到一定规模时,性能急剧增加,出现涌现现象。
算力越来越强,算法越来越精妙,神经网络
能吞吐的数据量也越来越大。自注意力转换器
(Transformer)的出现,让计算系统可以并行处
理更大规模的语言数据量,直到可以从人类所有
语料库数据中推算出人类想要的结果。目前神经
网络的神经元(参数)的数量,已经远远超过了
人脑,达到了数千亿甚至数万亿个,所处理的自
然语言数据量也达到了几十万亿级别(接近人脑
的连接数),在日益复杂的神经网络中,出现了智
能从一项任务向其他任务迁移,当模型的规模达
到某个临界值时,那些各自的能力,以及新的能
力就会突然“涌现”,其中包括人们所期待的智能
的泛化与通用。
涌现是大模型的理论基础,用来解释为什么
无需人工干预,就能从原始的自然语言或者多模
态数据中自动学习到的特征与模式,并且能用来
进行预测和决策。
一般认为,深度学习模型的分层结构和权重
学习机制导致了涌现的发生。大模型的训练中,
每一层神经元(可视为变量组合)的输出都是下
一层神经元的输入,并且模型的每个权重都通过
强化学习算法进行学习和更新。当训练大模型
时,数据中的统计规律对其内部参数和结构进行
调整 ;一层又一层的权重学习,使得深度神经网
络能够自动学会从原始数据中提取隐含的特征和
模式,从而实现涌现能力。
涌现这个概念,来自复杂性科学,它的一个
基本论断,就是大量最简单的行为中,可能产生
高级和复杂的行为。
大模型不仅知书,而且达理。语言是世界
“潜在复杂性的表现”。这意味着语言运作的模型
在某种意义上也包含世界运作的模型。通用的大
模型,在一定程度上也是一个世界模型。从
DeepMind 到 OpenAI 的终极目标,正是训练出达到
甚至超过人类水平的智能,不仅能完成专项任
务,而且能完成多项任务,具有学习、推理、预
测等能力,即通用人工智能(AGI)。通用人工智
能相信奇点,人工智能终有一天会比人类聪明。
ChatGPT 推出仅仅 2 个月,成为史上用户数量
过亿所用时间最短的产品;之后 100 天左右,
GPT-4 推出,并迅速与微软的产品全面集成,几乎
重新定义了所有的软件服务。盘踞于搜索、云计
算和 SaaS 之上的巨头开开始“跳舞”,硅谷掀起
了一场大模型风暴,也引发了通用 AI 革命。
1.2 大模型的缺陷
大语言模型目前引领了人工智能的发展方
向,它在带来惊喜的同时,也不时伴随着失望。
最大的问题是可靠性。人们最初会容忍一个不成
熟的技术,但是不成熟的技术,将无法直接大规
5 / 24
模应用。
ChatGPT 在首页提醒了自己的局限:可能偶尔
会产生不正确的信息; 可能偶尔会产生有害的指
令或有偏见的内容;对 2021 年后的世界和事件
的了解有限。许多用户无法容忍的,是它在洋洋
洒洒的文章和头头是道的叙事中,隐藏着事实性
错误。
而大模型“涌现”智能的原因和机理是什
么,一直没有找到合理的解释,它依然像是从一
个黑盒子里冒出来的异类智能。它也涌现出人类
语言中所固有的认知缺陷,如偏见、歧视、胡思
乱想、胡言乱语,等等。人们不知其所以然,难
以完全放心。
大模型主要是一场大规模的工程实验的结
果,一时还欠缺理论的解释。在它所涉及到的语
言学、心理学等领域里,遭遇了权威学者们的抵
制与批评;大模型的“智能”,也承受着学术界的
严格拷问和批判。
一些人工智能科学家、语言学家、心理学
家、哲学家批评,大模型在与人类进行对话时,
只是根据人类的提示,对语言数据进行概率统计
运算,然后提供一个猜测式的回答,并没有真正
理解语言的意义。人类掌握语言的背后,其实是
对事实的了解,对物理世界的感知,对因果关系
的追求;机器学习对这一切无感 ,因而并不了解
语言的意义,不对事实负责,也不是真正的智
能。图灵奖获得者杨立昆说:自回归式的深度神
经网络,不可能有未来。
图 4:大型语言模型的竞争优势分析矩阵
如何解决可靠性问题?如何建立起一个世界
模型?人工智能的研究者们,已经总结出了一系
列的工程实践。继续扩大模型,增加参数和语言
数据依然是一个方向,但并非唯一可行。现有模
型,需要更加精确地理解和掌握人类的意图,如
提升语言数据的质量,优化人类反馈的强化学习
(RLHF),更好的提示工程(Prompt
Engineering),持续精调模型,以及大模型主动
发问人类,调用更多外部资源,等等。目前
OpenAI 并不急于推出 GPT-5,而是致力于提升现
有模型的稳定性与可靠性,这是未来两年 OpenAI
的技术方向。
随着插件的推出,以及人类越来越多地把自
己的事情委托给基于大模型的应用来处理,人们
也担心可能带来的一个后果,是人类牺牲了自己
的决策权,而大模型的决策机制是不透明的。
1.3 大模型的下一步
OpenAI 并不急于训练 GPT-5,近两年内,创
新迭代的重点,已经不再是马上造出更大的模
型,而是让现有的模型变得更好。一方面是推广
模型化的应用,建立起生态;另一方面是解决大
模型暴露出来的问题。
自主智能体(如 AutoGPT)应用的推出,正在
让 ChatGPT 变得像个“玩具”。大模型可以通过
API 接口,调用其他应用、其他模型,自动完成更
为复杂的任务。自主智能体在完成任务的过程
中,能推理工作的步骤。而且这些智能体之间的
互动,已经有专家开始探索。智能体还能将工作
流与硬件结合在一起,让智能硬件真正具备智
能,从而改变物理世界。大模型的训练成本越来
越低,正在快速降低使用门槛,变成“小模型”
进入到越来越多的边缘计算中,也与越来越多的
设备结合在一起,包括手机和机器人。
连续学习,与世界和周围环境同步的能力。
一旦模型被训练,它就固定了,无法及时整合来
自用户的新反馈和世界的新信息(指的是更改权
重的方式)。可以根据新数据对模型进行微调,但
这可能会导致性能下降或过拟合。由于训练周期
较长,模型训练期间,世界有出现了新的事件、
信息和知识,尽管插件已经可以解决部分问题,
但大模型自身可能需要探索一种能够持续稳定进
行连续学习的方法。